Ученые обнаружили «серьезные недостатки» в тестах для оценки безопасности ИИ

Ученые обнаружили «серьезные недостатки» в тестах для оценки безопасности ИИ В рамках научной работы был проведен анализ сотен оценочных тестов материалов престижных конференций Aybüke İnal Kamacı, Ulviyya Amoyeva  | 05.11.2025 — Обновление : 05.11.2025 АНКАРА Группа ученых выявила «серьезные недостатки» в 445 оценочных тестах, предназначенных для контроля безопасности и эффективности систем искусственного интеллекта. Исследование под названием «Измерение важного: конструктная валидность в бенчмарках больших языковых моделей» провели специалисты по компьютерным наукам из Института безопасности искусственного интеллекта Великобритании совместно с 29 исследователями из 14 ведущих учреждений, среди которых университеты Стэнфорда, Беркли и Оксфорда. В рамках научной работы был проведен систематический анализ 445 оценочных тестов, отобранных из материалов престижных конференций по «обработке естественного языка» и «машинному обучению» — ключевым подотраслям искусственного интеллекта. По заключению экспертов, большинство проанализированных бенчмарков имеют существенные недостатки, которые могут «подорвать обоснованность полученных утверждений» относительно достижений в сфере ИИ. Главный автор исследования Эндрю Бин, представляющий Оксфордский институт интернета заявил The Guardian, что именно эти оценочные тесты активно используются крупнейшими технологическими компаниями для демонстрации возможностей новейших моделей искусственного интеллекта, выводимых на глобальный рынок. Бин особо отметил, что оценочные тесты формируют фундамент всех заявлений и утверждений в сфере ИИ, и без единых определений, а также надежных, научно обоснованных методов измерения становится крайне сложно объективно оценить, действительно ли модели демонстрируют реальный прогресс или же наблюдается лишь иллюзия развития. Source: https://www.aa.com.tr/ru/%D0%BD%D0%B0%D1%83%D0%BA%D0%B0-%D0%B8-%D1%82%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F/%D1%83%D1%87%D0%B5%D0%BD%D1%8B%D0%B5-%D0%BE%D0%B1%D0%BD%D0%B0%D1%80%D1%83%D0%B6%D0%B8%D0%BB%D0%B8-%D1%81%D0%B5%D1%80%D1%8C%D0%B5%D0%B7%D0%BD%D1%8B%D0%B5-%D0%BD%D0%B5%D0%B4%D0%BE%D1%81%D1%82%D0%B0%D1%82%D0%BA%D0%B8-%D0%B2-%D1%82%D0%B5%D1%81%D1%82%D0%B0%D1%85-%D0%B4%D0%BB%D1%8F-%D0%BE%D1%86%D0%B5%D0%BD%D0%BA%D0%B8-%D0%B1%D0%B5%D0%B7%D0%BE%D0%BF%D0%B0%D1%81%D0%BD%D0%BE%D1%81%D1%82%D0%B8-%D0%B8%D0%B8/3735351