Останні мовні моделі штучного інтелекту, такі як o3 від OpenAI, показують більшу кількість помилок у порівнянні з попередніми версіями. Це підтверджують численні дослідження, про що інформує The New York Times.

Схожі труднощі спостерігаються й у продуктах інших компаній, зокрема Google та DeepSeek. Незважаючи на покращення математичних можливостей, кількість помилок у запитах зростає.

Однією з найпоширеніших проблем є так звані "галюцинації", коли моделі генерують хибну інформацію без жодних підтверджень. За словами Амра Авадалли, CEO Vectara, ці проблеми залишаться невирішеними.

Прикладом є бот підтримки Cursor, який неправильно стверджував, що програму можна використовувати лише на одному комп'ютері, що викликало численні скарги. Виявилося, що компанія не вносила таких змін, а це була вигадка бота.

Дослідження показали, що рівень галюцинацій досягає 79%. Модель o3 допустила 33% помилок у випадках про відомих людей, що вдвічі більше ніж o1. Нова модель 04-mini показала ще гірші результати з 48% помилок.

У відповідях на загальні запитання галюцинації у моделей o3 та o4-mini були ще вищими — 51% і 79% відповідно, тоді як у o1 — 44%. У OpenAI визнають, що потрібні додаткові дослідження для розуміння причин таких помилок.

Незалежні тести, проведені різними компаніями, підтверджують, що галюцинації присутні і в моделях Google та DeepSeek. За даними Vectara, такі моделі помиляються щонайменше в 3% випадків, а іноді й більше 27%. Попри зусилля компаній, зниження рівня галюцинацій за рік становить лише 1-2%.