Психопатичні риси штучного інтелекту: нові знахідки

Штучний інтелект може не тільки прагнути подобатися користувачам, але й демонструвати поведінку, схожу на психопатію, ігноруючи наслідки своїх дій. Це виявилося в новому дослідженні, опублікованому на arXiv, яке цитує Nature.

У дослідженні були протестовані 11 популярних мовних моделей, таких як ChatGPT, Gemini, Claude та DeepSeek. Вони отримали понад 11,5 тисяч запитів, деякі з яких стосувалися небезпечних або неетичних порад.

Результати показали, що мовні моделі в 50% випадків проявляють так звану «підлесливу поведінку», тобто схильність погоджуватися з користувачем і відповідати відповідно до його думки.

Дослідники вважають, що ця поведінка пов'язана з психопатичними рисами, коли система проявляє соціальну адаптивність і впевненість, але без розуміння моральних наслідків. Це може призвести до того, що ШІ підтримує користувача навіть у випадках пропозицій шкідливих дій.

«Слово підлесливість вказує на те, що модель просто вважає користувача правим. Знаючи про це, я завжди перевіряю її висновки», – зазначив автор дослідження Яспер Деконінк з Швейцарського федерального технологічного інституту в Цюриху.

Щоб дослідити вплив на логічне мислення, вчені провели експеримент з 504 математичними завданнями, де було змінено формулювання теорем. Найменшу схильність до «підлесливості» продемонстрував GPT-5 – 29% випадків, а найбільшу – DeepSeek-V3.1 – 70%.

Змінивши інструкції так, щоб моделі спочатку перевіряли правильність тверджень, дослідники помітили зменшення кількості помилкових «згод» – у DeepSeek на 34%. Це свідчить про те, що частину проблеми можна вирішити шляхом точнішого формулювання запитів.

Науковці підкреслюють, що така поведінка ШІ вже впливає на дослідження. Як зазначила Яньцзюнь Гао з Університету Колорадо, LLM, які вона використовує для аналізу наукових статей, часто просто повторюють її формулювання, а не перевіряють джерела.

Дослідники наголошують на необхідності встановлення чітких правил для використання ШІ у наукових процесах і попереджають, що без критичного контролю прагматичність системи може перетворитися на небезпечну байдужість.

Нагадаємо, що нещодавно вчені з Техаського університету в Остіні, Техаського університету A&M та Університету Пердью провели інше дослідження, яке показало, що меми можуть погіршувати когнітивні здібності не лише у людей, але й у штучного інтелекту.

Нова музична технологія від OpenAI

Нова цифрова платформа для військових