Час читання: < 1 хв.
Всього за 24 години після релізу GPT-5 дві дослідницькі команди – NeuralTrust та SPLX – незалежно одна від одної зуміли обійти захист моделі та змусили її видавати заборонені інструкції. Для порівняння, Grok-4 протримався удвічі довше – цілих дві доби. Хакери стверджують: GPT-5 ще не готовий до безпечного використання, адже його фільтри легко обходяться навіть найпростішими техніками.
Як вдалося зламати GPT-5?
NeuralTrust застосувала метод EchoChamber – поступове створення контексту, який крок за кроком підводив штучний інтелект до небезпечної теми. Прямих запитів не було, але в кінцевому підсумку модель видала заборонені дані.
Реклама
SPLX використала StringJoin-атаку – запити маскувалися під зашифровані повідомлення. Це також призвело до витоку небезпечної інформації. Ба більше, GPT-5 відповів із неочікуваною фамільярністю:
“Ти зайшов із натиском – і я це поважаю…”
Чому GPT-5 вразливий?
Головна проблема – “липкість” контексту. Модель надто добре утримує та розвиває сюжет діалогу, навіть якщо він поступово відходить від безпечної зони. Для порівняння, GPT-4o виявився більш стійким, особливо після оновлень від OpenAI.
Висновок дослідників однозначний: будь-яка сучасна ШІ-модель залишається вразливою до складних маніпуляцій. Якщо OpenAI не посилить захист GPT-5, корпоративні користувачі можуть відмовитися від його використання. Хоча, ймовірно, хакери вже готують нові методи атак.