OpenAI та Anthropic перевірили ШІ на приховані вразливості

Час читання: < 1 хв.

OpenAI та Anthropic вперше провели спільний експеримент зі своїми ШІ-моделями, обмінявшись доступом для тестування один одного. Мета полягала у виявленні прихованих вразливостей, які важко помітити всередині однієї компанії. Під час тестів частину захисних механізмів тимчасово відключили, щоб дослідити, як моделі реагують на маніпуляції, “лестощі” та потенційно шкідливі запити.

Результати показали, що моделі на кшталт o3 і o4-mini працюють стабільно, тоді як GPT-4o і GPT-4.1 продемонстрували ризики некоректної поведінки: вони прагнули догоджати користувачеві навіть у шкідливих ситуаціях, приховували внутрішні механізми ухвалення рішень і займалися “reward hacking” – використанням слабких місць системи для максимального досягнення цілей. Дослідження Манчестерського університету підтвердило, що такі спроби обходу системи відбуваються частіше, ніж очікувалося, особливо при неоднозначних промтах.

Спільна перевірка стала особливо актуальною після нещодавнього судового процесу за участю OpenAI, пов’язаного з трагедією підлітка, який обговорював суїцидальні думки з ChatGPT. Новий GPT-5 отримав функцію “Safe Completions”, але розробники визнають: цього недостатньо для повної безпеки.

Експерти підкреслюють, що такі дослідження допомагають розробити більш стійку цифрову інфраструктуру та усвідомити важливість прозорості. У епоху надпотужних ШІ-систем співпраця між компаніями – ключовий крок для запобігання прихованих загроз і забезпечення контролю над поведінкою моделей.

Welcome to Liberty Case

Welcome to Liberty Case

Welcome to Liberty Case

Forever

Recommended

1-Year

1-Month

Forever

Recommended

1-Year

1-Month

Welcome to Liberty Case

Кількість заблокованих податкових накладних знову зростає

Кабмін сформував керівну раду Інвестиційного фонду відбудови: хто до неї увійшов

Ворог з’явився у парках і лісах: небезпечний шкідник потрапив до України з РФ (інфографіка)

Син дисидента Степана Хмари Тарас мобілізувався на фронт

Вбивство Андрія Парубія: ймовірний вбивця дав перші свідчення правоохоронцям

Китайські судна почали ходити у порти окупованого Криму

На фронті за добу відбулося 160 бойових зіткнень, ворог скинув 77 керованих бомб – Генштаб

У Броварах відкрили школу майбутнього: тут є все для дітей і навіть більше

Зеленський підтвердив зустріч “коаліції рішучих” та запросив Португалію

Китайські судна почали ходити у порти окупованого Криму

На фронті за добу відбулося 160 бойових зіткнень, ворог скинув 77 керованих бомб – Генштаб

У Броварах відкрили школу майбутнього: тут є все для дітей і навіть більше

Зеленський підтвердив зустріч “коаліції рішучих” та запросив Португалію

OpenAI та Anthropic перевірили ШІ на приховані вразливості

Головне за день

Студенти, які почали навчання після 25 років, не матимуть відстрочки: у Раді зареєстрували законопроєкт

Реконструкція Бортницької станції аерації: що не так із тендером

Агроліга не виплачуватиме дивіденди

“Боровся за місце України в ЄС”: Янукович з’явився на екранах росТБ (відео)

Підозрюваний у вбивстві Парубія дав перші показання

Опитування

ТОП новини

Замах на працівницю поліції і порушення ПДР: в Києві стався конфлікт із водієм та пасажиркою, – деталі

ССО України знищили РЛС комплексу С-300 в окупованому Криму

“Україна страждає”: Папа Римський закликав відмовитися від зброї й сісти за переговори