Фахівці виявили серйозні недоліки в численних тестах, які використовуються для оцінки безпеки та ефективності нових розробок штучного інтелекту. Як повідомляє The Guardian,
дослідники з Інституту безпеки штучного інтелекту Великої Британії, а також експерти з університетів Стенфорда, Берклі та Оксфорда проаналізували більше 440 тестів, що перевіряють системи безпеки ШІ.
Вони виявили значні недоліки, які, за їх словами, «підривають достовірність отриманих результатів». Виявилось, що майже всі тести, які були проаналізовані, «мають слабкі місця щонайменше в одній категорії», а результати можуть бути «неадекватними або навіть оманливими».
Багато з цих тестів застосовуються для оцінки нових моделей ШІ, які створюються провідними технологічними компаніями, зауважив дослідник з Оксфорда Ендрю Бін, головний автор дослідження.
В умовах відсутності єдиного національного регулювання ШІ у Великій Британії та США, ці тести використовуються для перевірки безпеки нових моделей, їх відповідності інтересам суспільства, а також для підтвердження заявлених здібностей у таких сферах, як аргументація, математика та програмування.
«Тести є основою майже всіх заяв про досягнення в сфері штучного інтелекту. Проте без єдиного визначення і надійних методів вимірювання важко зрозуміти, чи дійсно моделі вдосконалюються, чи це всього лише ілюзія,» - підкреслив Бін.
У дослідженні були розглянуті лише загальнодоступні тести, незважаючи на те, що провідні компанії в галузі ШІ мають власні внутрішні тести, які не були включені в аналіз.
Бін зазначив, що «шокуючим відкриттям стало те, що лише невелика частина (16%) тестів використовувала оцінки невизначеності або статистичні методи, щоб продемонструвати, наскільки ймовірно, що критерій буде точним. У інших випадках критерії, що використовувалися для оцінки характеристик ШІ, зокрема його «нешкідливості», мали неоднозначні або нечіткі визначення, що знижувало їхню корисність.
У висновках дослідження підкреслюється, що існує «термінова потреба в спільних стандартах і найкращих практиках» в сфері штучного інтелекту.