Час читання: 2 хв.
Цього тижня OpenAI презентувала нові моделі штучного інтелекту — o3 та o4-mini. Хоча вони демонструють прогрес у багатьох напрямах, зокрема в математиці та програмуванні, однак мають суттєвий недолік — підвищену схильність до так званих галюцинацій, коли ШІ впевнено видає недостовірну інформацію.
Галюцинації залишаються однією з найсерйозніших проблем у сфері штучного інтелекту. Раніше кожна нова модель, як правило, показувала менше помилкових відповідей, ніж попередня. Проте o3 і o4-mini стали винятком: за результатами внутрішніх тестів, вони помиляються частіше, ніж попередники — такі як o1, o1-mini, o3-mini та GPT-4o.
Реклама
Що насторожує ще більше — навіть самі розробники не до кінця розуміють, чому так відбувається. У технічному звіті компанія OpenAI зазначає, що потрібні додаткові дослідження для з’ясування причин збільшення частоти галюцинацій у процесі масштабування моделей, здатних до логічного міркування.
Згідно з тестом OpenAI PersonQA, модель o3 давала галюцинації у 33% випадків — удвічі частіше, ніж o1 (16%) і o3-mini (14,8%). Ще гірше впоралася o4-mini, яка помилялася у 48% випадків. А в сторонньому тесті Transluce було зафіксовано, як o3 вигадувала неіснуючі дії: зокрема, вона заявила, що запускала код на MacBook Pro 2021 “поза ChatGPT” — хоча фізично не могла цього зробити.
Існує припущення, що зростання кількості помилок пов’язане зі специфікою навчання нових моделей — зокрема, застосуванням підходу з підкріпленням, який у серії “o”, можливо, мав зворотний ефект. Через це, вважають експерти, практична користь моделі o3 може бути обмеженою.
Втім, у певних завданнях, особливо в програмуванні, o3 показує дуже високі результати — хоча й тут іноді додає неіснуючі або недієві посилання на ресурси.
Одним із варіантів вирішення проблеми галюцинацій розглядається інтеграція веб-пошуку. Наприклад, GPT-4o вдалося досягти 90% точності в тесті SimpleQA саме завдяки доступу до інтернету. В OpenAI визнають, що боротьба з галюцинаціями — це пріоритетний напрям досліджень, і компанія постійно працює над підвищенням точності та надійності своїх моделей.