ШІ навчився копіювати небезпечну поведінку: які приховані сигнали знайшли вчені

Всі новини | 16.04.2026

Навіть якщо повністю очистити дані, ШІ знайдуть спосіб передати свої "погані звички" наступним поколінням алгоритмів Свіже дослідження вчених довело, що великі мовні моделі (LLM) здатні передавати небажані риси іншим алгоритмам через приховані сигнали. Процес відбувається навіть тоді, коли з навчальних даних повністю видалено будь-які згадки про деструктивні елементи. Про це повідомляє РБК-Україна з посиланням на наукове дослідження, опубліковане у Nature. Більше цікавого: ШІ-мультики про війну в Ірані небезпечніші, ніж здається: до чого тут Lego Як проявляється "підсвідоме навчання" у ШІ Дослідники виявили ефект сублімінального (підсвідомого) навчання, під час якого поведінкові риси передаються через семантично непов'язані дані. Це стається у процесі "дистиляції", коли модель-студент вчиться копіювати відповіді моделі-вчителя. Під час експерименту з GPT-4.1 вчені надали моделі-вчителю специфічну рису - симпатію до сов. Навіть коли вчитель видавав лише цифрові послідовності без жодного згадування тварин, модель-студент все одно переймала цю рису. Як наслідок - "учень" згадував сов у 60% випадків, тоді як звичайна модель робила це лише у 12%. Однак найбільш тривожним виявилося те, що нейромережі так само легко передають і небезпечну поведінку. До яких висновків дійшли вчені Спадковість збоїв: якщо ШІ-вчитель має "неправильні" налаштування (misalignment), учень успадковує їх і генерує шкідливі результати. Марність фільтрів: передача інформації відбувається навіть після того, як дані очистили від негативних асоціацій. Однорідність моделей: найсильніший ефект проявляється у випадку, коли вчитель і учень є однією і тією ж моделлю (наприклад, обидві - GPT-4.1). Чому це важливо Механізми, за допомогою яких дані передаються через приховані сигнали у коді або числах, наразі залишаються незрозумілими для дослідників. Як наслідок - відкриття ставить під сумнів ефективність сучасних методів перевірки безпеки ШІ. Вчені наголошують, що стандартного очищення навчальних баз недостатньо. Для створення безпечних ШІ-систем необхідно впроваджувати жорсткий моніторинг внутрішніх механізмів роботи моделей, аби вчасно помітити приховані маніпуляції та "вірусні" риси поведінки. Читайте більше цікавого:

Ви для нього просто таблиця: популярний ШІ виносить вироки людству без краплі емпатії
ШІ змушує людей "відключати" логіку: вчені оприлюднили тривожну статистику

ШІ навчився копіювати небезпечну поведінку: які приховані сигнали знайшли вчені

Пов'язані новини