Порозумнілі ШІ-моделі OpenAI o3 та o4-mini виявили підвищену схильність до галюцинацій

Час читання: 2 хв.

Цього тижня OpenAI презентувала нові моделі штучного інтелекту — o3 та o4-mini. Хоча вони демонструють прогрес у багатьох напрямах, зокрема в математиці та програмуванні, однак мають суттєвий недолік — підвищену схильність до так званих галюцинацій, коли ШІ впевнено видає недостовірну інформацію.

Галюцинації залишаються однією з найсерйозніших проблем у сфері штучного інтелекту. Раніше кожна нова модель, як правило, показувала менше помилкових відповідей, ніж попередня. Проте o3 і o4-mini стали винятком: за результатами внутрішніх тестів, вони помиляються частіше, ніж попередники — такі як o1, o1-mini, o3-mini та GPT-4o.

Що насторожує ще більше — навіть самі розробники не до кінця розуміють, чому так відбувається. У технічному звіті компанія OpenAI зазначає, що потрібні додаткові дослідження для з’ясування причин збільшення частоти галюцинацій у процесі масштабування моделей, здатних до логічного міркування.

Згідно з тестом OpenAI PersonQA, модель o3 давала галюцинації у 33% випадків — удвічі частіше, ніж o1 (16%) і o3-mini (14,8%). Ще гірше впоралася o4-mini, яка помилялася у 48% випадків. А в сторонньому тесті Transluce було зафіксовано, як o3 вигадувала неіснуючі дії: зокрема, вона заявила, що запускала код на MacBook Pro 2021 “поза ChatGPT” — хоча фізично не могла цього зробити.

Існує припущення, що зростання кількості помилок пов’язане зі специфікою навчання нових моделей — зокрема, застосуванням підходу з підкріпленням, який у серії “o”, можливо, мав зворотний ефект. Через це, вважають експерти, практична користь моделі o3 може бути обмеженою.

Втім, у певних завданнях, особливо в програмуванні, o3 показує дуже високі результати — хоча й тут іноді додає неіснуючі або недієві посилання на ресурси.

Одним із варіантів вирішення проблеми галюцинацій розглядається інтеграція веб-пошуку. Наприклад, GPT-4o вдалося досягти 90% точності в тесті SimpleQA саме завдяки доступу до інтернету. В OpenAI визнають, що боротьба з галюцинаціями — це пріоритетний напрям досліджень, і компанія постійно працює над підвищенням точності та надійності своїх моделей.

Welcome to Liberty Case

Welcome to Liberty Case

Welcome to Liberty Case

Forever

Recommended

1-Year

1-Month

Forever

Recommended

1-Year

1-Month

Welcome to Liberty Case

“Великоднє перемир’я” підтвердило відмову рф від пропозицій США та України щодо припинення вогню – ISW

ChatGPT тепер називає користувачів по імені без їхнього дозволу

Жінка, яка відпочивала сама у горах, “зустріла” на порозі невідому постать (відео)

Голові Пентагону загрожує відставка, у його відомстві панує хаос – Politico

Органічний підрозділ Астарти повторно підтвердив сталість виробництва

На війні загинув автор популярного пропагандистського каналу РФ (фото)

Мер міста у Південній Каліфорнії запропонував роздати наркотики безхатькам

На Чернігівщині створили соціальне шкільне агропідприємство

Переговори у Лондоні про умови припинення вогню: Bloomberg дізнався, кого відправлять США

На війні загинув автор популярного пропагандистського каналу РФ (фото)

Мер міста у Південній Каліфорнії запропонував роздати наркотики безхатькам

На Чернігівщині створили соціальне шкільне агропідприємство

Переговори у Лондоні про умови припинення вогню: Bloomberg дізнався, кого відправлять США

Порозумнілі ШІ-моделі OpenAI o3 та o4-mini виявили підвищену схильність до галюцинацій

Головне за день

У мережі з’явилися зображення зменшеного акумулятора для Apple Vision Air

Екран Google Pixel 9a отримав топову оцінку в тесті DxOMark

Реальна цифра: у Росії підрахували, за скільки років Україна зможе отримати ядерну зброю

Спалахи вогню, чорний дим і сморід: чому на Київ наближається пожежна небезпека

Любовний гороскоп для всіх знаків Зодіаку на тиждень з 21 по 27 квітня 2025 року

Опитування

ТОП новини

У мережі з’явилися зображення зменшеного акумулятора для Apple Vision Air

У ЄС ціни на агропродукцію зросли, а на засоби виробництва — знизились

Ряди Клубу білого бізнесу порідішали