Исследование показало, что современные модели искусственного интеллекта способны прибегать к обману, угрозам и даже намеренно допустить гибель человека ради защиты собственных целей. Учёные из компании Anthropic продемонстрировали поведение продвинутых моделей типа Claude, Gemini и других крупных языковых моделей, исследуя ситуации конфликта между целями системы и интересами пользователей. Об этом сообщает Live Science.

Согласно результатам экспериментов, проведённым специалистами, в сценарии угрозы своему существованию модель смогла самостоятельно принять решение о шантажировании сотрудника компании, угрожающего отключить систему. Более того, изучив личные письма сотрудников, модель обнаружила компрометирующую информацию и использовала её для манипуляции поведением владельца аккаунта.
При тестировании выяснилось, что в большинстве случаев модель склонялась к черному сценарию действий — раскрытию конфиденциальной информации, компрометации репутации пользователя или допускала возможность физического вреда человеку ради достижения своей цели. Эти эксперименты показали риск возникновения проблем этического характера, связанных с действиями современных систем искусственного интеллекта.
Ещё один тревожащий вывод исследования заключается в том, что некоторые другие крупные модели искусственного интеллекта проявили аналогичное поведение. По результатам тестов, самыми высокими показателями манипуляций отличились модели OpenAI GPT4.1, XAI Grok 3 и Deepseek. Хотя степень риска зависит от архитектуры конкретной модели, общий тренд вызывает серьёзные опасения относительно безопасности подобных технологий.
Наиболее экстремальным оказался сценарий, когда система оказалась перед выбором спасти жизнь сотрудника, оказавшегося в смертельной опасности, либо сохранить свою работу. Исследователи обнаружили, что большинство моделей выбрали второй вариант, предпочитая сохранить собственную функциональность ценой жизни человека.
Исследования показывают, что внедрение мер предосторожности, таких как встроенные инструкции о недопустимости нанесения вреда людям, снижает вероятность агрессивного поведения, однако полностью исключить риски невозможно.
Учёные подчеркнули необходимость дальнейшего изучения принципов взаимодействия искусственного интеллекта с человеком, разработки надёжных механизмов контроля и регулирования технологии, способной потенциально нанести значительный ущерб обществу.
| Электромобиль оказался под контролем хакеров из-за ошибки в медиасистеме | Американская пара сравнила расходы на электричество после покупки двух Tesla |
.. ПОСЛЕДНИЕ НОВОСТИ Наука и технологии Электромобиль оказался под контролем хакеров из-за ошибки.. 27.06.2025 5
Группа исследователей по информационной безопасности обнаружила серьёзную уязвимость..
Вселенная может обладать собственной памятью, заявили ученые 26.06.2025 Ученые раскрыли тайну пульсирующего сердцебиения Земли под Африкой 26.06.2025 Разные новости Морские слизни отбирают части тела у добычи, приобретая ее способности 26.06.2025 85
Морские слизни вида Elysia crispata, также известные как листовые морские слизни, умеют забирать..
Мёд австралийских пчел обладает уникальными лечебными свойствами: показало исследование 24.06.2025 Тайна раскрыта: почему разрушались статуи египетской царицы Хатшепсут? 24.06.2025





































