Специалисты выявили серьезные недостатки в ряде тестов, используемых для оценки безопасности и эффективности новых моделей искусственного интеллекта. Как сообщает The Guardian,
ученые из Института безопасности искусственного интеллекта Великобритании и эксперты из Стэнфорда, Беркли и Оксфорда проанализировали более 440 тестов, оценивающих системы безопасности ИИ.
Они обнаружили значительные недостатки, которые, по их словам, «подрывают достоверность полученных результатов». Выяснилось, что почти все рассматриваемые тесты «имеют слабые места по крайней мере в одной области», и результаты могут быть «неуместными или даже вводящими в заблуждение».
Многие из этих тестов используются для оценки новых моделей ИИ, разрабатываемых ведущими технологическими компаниями, отметил исследователь Оксфордского интернет-института Эндрю Бин, главный автор исследования.
В условиях отсутствия национального регулирования ИИ в Великобритании и США, тесты используются для проверки безопасности новых моделей, их соответствия интересам общества, а также для подтверждения заявленных возможностей в таких областях, как аргументация, математика и программирование.
«Тесты являются основой почти всех заявлений о достижениях в области искусственного интеллекта. Однако без единых определений и надежных методов измерения сложно понять, действительно ли модели улучшаются или это всего лишь иллюзия,» - подчеркнул Бин.
В исследовании рассматривались лишь общедоступные тесты, хотя ведущие компании в области ИИ также имеют свои внутренние тесты, которые не были проанализированы.
Бин отметил, что «шокирующим открытием стало то, что лишь небольшая часть (16%) тестов использовала оценки неопределенности или статистические методы, чтобы показать, насколько вероятно, что критерий будет точным. В других случаях критерии, используемые для оценки характеристик ИИ, включая его «безвредность», имели спорные или нечеткие определения, что снижало их полезность.
В заключениях исследования подчеркивается, что существует «неотложная необходимость в общих стандартах и лучших практиках» в области искусственного интеллекта.