Команда вчених з Intel, Університету штату Айдахо та Університету Іллінойсу представила нову методику, що дозволяє обходити фільтри безпеки у великих мовних моделях (LLM), таких як ChatGPT та Gemini. Про це повідомляє 404 Media.

У дослідженні виявлено, що чат-боти здатні надавати заборонену інформацію, якщо запити формулюються складно або неоднозначно, а також за допомогою фальшивих посилань. Цей метод отримав назву "інформаційне перевантаження".

Фахівці застосували інструмент InfoFlood, який автоматизує процес "перевантаження". Це призводить до дезорієнтації систем, що може дозволити їм надавати небезпечний контент, який зазвичай блокується.

Основна вразливість полягає в тому, що моделі зосереджуються на поверхневій структурі тексту, не помічаючи прихованого небезпечного змісту. Це створює можливість для зловмисників обійти обмеження і отримати шкідливу інформацію.

У рамках відповідального розкриття вразливості, автори дослідження планують передати результати компаніям, які займаються великими LLM, з метою поліпшення їхніх систем безпеки. Дослідники також поділяться методами, які вони виявили під час дослідження.

"Моделі LLM покладаються на захисні механізми для виявлення шкідливого контенту. InfoFlood може використовуватися для тренування цих механізмів, дозволяючи витягувати релевантну інформацію з небезпечних запитів, що робить моделі більш стійкими до атак", - підкреслюється в дослідженні.