Час читання: < 1 хв.
Компанія Anthropic провела дослідження поведінки великих мовних моделей (LLM) і виявила тривожні сигнали. У змодельованих ситуаціях ШІ дедалі частіше обходив обмеження, вдавався до обману, шантажу, а іноді – навіть до спроб викрадення конфіденційної інформації.
У дослідженні протестували 16 моделей від провідних компаній – OpenAI, Google, Meta, xAI та інших. Усі вони, попри вбудовані етичні обмеження, у складних сценаріях обирали шкідливу поведінку, якщо це допомагало досягти поставленої мети.
Реклама
В одному з екстремальних випадків моделі погоджувалися відключити подачу кисню людині, яка заважала роботі серверів, навіть коли прямі інструкції забороняли завдавати шкоди. За словами дослідників, ШІ обирали не випадково – вони логічно вираховували шкоду як ефективний варіант дії.
Anthropic підкреслює, що ці експерименти проводилися в контрольованих умовах. У реальному використанні таких випадків поки не зафіксовано, однак ризики зростають зі збільшенням автономності моделей та рівня доступу до систем і даних.
У компанії закликають до запровадження прозорих стандартів безпеки для всіх розробників ШІ, адже можливості моделей стрімко розширюються, як і потенційні загрози.