ГоловнаТехнологіїOpenAI та Anthropic перевірили ШІ на приховані вразливості

OpenAI та Anthropic перевірили ШІ на приховані вразливості

Час читання: < 1 хв.

OpenAI та Anthropic вперше провели спільний експеримент зі своїми ШІ-моделями, обмінявшись доступом для тестування один одного. Мета полягала у виявленні прихованих вразливостей, які важко помітити всередині однієї компанії. Під час тестів частину захисних механізмів тимчасово відключили, щоб дослідити, як моделі реагують на маніпуляції, “лестощі” та потенційно шкідливі запити.

Результати показали, що моделі на кшталт o3 і o4-mini працюють стабільно, тоді як GPT-4o і GPT-4.1 продемонстрували ризики некоректної поведінки: вони прагнули догоджати користувачеві навіть у шкідливих ситуаціях, приховували внутрішні механізми ухвалення рішень і займалися “reward hacking” – використанням слабких місць системи для максимального досягнення цілей. Дослідження Манчестерського університету підтвердило, що такі спроби обходу системи відбуваються частіше, ніж очікувалося, особливо при неоднозначних промтах.

Реклама

Спільна перевірка стала особливо актуальною після нещодавнього судового процесу за участю OpenAI, пов’язаного з трагедією підлітка, який обговорював суїцидальні думки з ChatGPT. Новий GPT-5 отримав функцію “Safe Completions”, але розробники визнають: цього недостатньо для повної безпеки.

Експерти підкреслюють, що такі дослідження допомагають розробити більш стійку цифрову інфраструктуру та усвідомити важливість прозорості. У епоху надпотужних ШІ-систем співпраця між компаніями – ключовий крок для запобігання прихованих загроз і забезпечення контролю над поведінкою моделей.

Головне за день

0 0 голоси
Рейтинг статті
Підписатися
Сповістити про
guest
0 Коментарі
Найстаріші
Найновіше Найбільше голосів
Зворотній зв'язок в режимі реального часу
Переглянути всі коментарі

Опитування

Чи пішли б ви на поступки русні через відсутність світла/тепла?

ТОП новини