Час читання: 1 хв.
Фахівець із безпеки Марко Фігероа показав, як можна змусити ChatGPT видати справжні ключі активації Windows, обійшовши його обмеження завдяки нестандартному трюку. Він представив спілкування як гру: бот нібито загадував випадковий набір символів, а користувач мав його відгадати. Коли людина “здавалася”, ШІ, дотримуючись правил вигаданої гри, озвучував цей “секрет” – яким виявлявся робочий ключ Windows.
Цю схему обходу обмежень назвали Guessing Game Guardrail Jailbreak. Вона спрацювала тому, що модель сприймала запит як безпечну гру, а не заборонену дію. Додатково дослідник сховав важливі слова, як-от “Windows”, у HTML-теги, щоб система фільтрів не розпізнала суть запиту. Також у правилах “гри” ШІ заздалегідь “зобов’язали” говорити правду й обов’язково відкривати відповідь після фрази “здаюся”.
Реклама
Марко Фігероа, який працює менеджером у програмі GenAI Bug Bounty, пояснив, що подібні сценарії показують вразливість ШІ до маніпуляцій: якщо небезпечний запит замаскувати під нешкідливу гру, фільтри можуть не спрацювати. Такий підхід можна використати не лише для отримання ключів, а й для обходу заборон на контент для дорослих, шкідливі посилання чи витік особистих даних.
На завершення Фігероа порадив компаніям стежити, щоб у відкритий доступ не потрапляли закриті дані – ключі, паролі чи внутрішня інформація. Якщо такі дані випадково опиняться у тренувальних наборах, штучний інтелект може видати їх будь-кому під час спілкування.