Падение бенчмарка ARC стало очередной жертвой неустанной оптимизации ИИ

Блог компании BotHub Искусственный интеллект Будущее здесь Научно-популярное Годами тест ARC считался практически непреодолимым препятствием для нейросетей, настоящим испытанием гибкого интеллекта, а не простого запоминания. Но новые результаты показывают, что даже этот барьер рушится под неустанной оптимизационной работой современных лабораторий искусственного интеллекта. «Корпус абстракции и рассуждений», позже переименованный в ARC-AGI, изначально был разработан для отделения истинного обучения от статистического повторения. Теперь его постигла та же участь, что и многие предыдущие бенчмарки: новые методы его просто подавляют. Новые результаты компании Poetiq, занимающейся разработкой ИИ, свидетельствуют об успешном решении исходного бенчмарка ARC-AGI-1. В недавнем заявлении компания утверждает, что её системы, построенные на моделях OpenAI и Google, достигли максимальной производительности на первом наборе данных. Результаты Poetiq показывают, что исходный тест ARC-AGI-1 был в значительной степени решен, в то время как производительность на более сложном наборе данных ARC-AGI-2 теперь превышает средние человеческие показатели Подход Poetiq сочетает в себе передовые языковые модели, включая Gemini 3 и GPT-5.1, с моделями с открытым исходным кодом, интегрированными в специализированную архитектуру. Согласно Poetiq , система работает по итеративному циклу: генерирует предлагаемые решения, оценивает обратную связь и уточняет ответы посредством самопроверки перед отправкой финального результата. Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News . Source: https://habr.com/ru/companies/bothub/news/971754/