Час читання: < 1 хв.
Компанія OpenAI представила оновлений голосовий API під назвою Realtime API, що працює на основі моделі gpt-realtime. Вона здатна обробляти мову напряму, без перетворення в текст, завдяки чому відповіді стають швидшими, природнішими та без перебивань співрозмовника.
Модель розрізняє інтонації й емоції, такі як сміх чи смуток, і може відтворювати їх у власних репліках. Вона підтримує кілька мов і вміє динамічно перемикатися між ними, зберігаючи плавність діалогу. На демонстрації OpenAI показала можливості системи, де штучний інтелект декламував вірш з інтонаціями, переходив з однієї мови на іншу та виконував роль асистента підтримки, що коректно спілкувався з наполегливим клієнтом.
Реклама
Модель gpt-realtime вміє аналізувати зображення та використовувати візуальну інформацію під час розмови. Крім того, вона підтримує MCP – інтерфейс, що дозволяє надавати доступ до зовнішніх джерел, включно з базами даних, внутрішніми документами та іншими матеріалами. Це робить пошук інформації безперервним: під час звернення до джерел модель продовжує вести діалог, уникаючи пауз.
Нова розробка доступна виключно через API. Вартість становить 32 долари за мільйон вхідних токенів, 64 долари за мільйон вихідних і 40 центів за мільйон кешованих токенів. При цьому компанія ще не повідомила, коли саме ця технологія з’явиться у вбудованому голосовому асистенті ChatGPT.