ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2 — Хабр

Искусственный интеллект Машинное обучение * Учебный процесс в IT Программирование * Обзор Вчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он? ARC-AGI-1 История начинается в 2019 году со статьи Франсуа Шолле (François Chollet, создатель библиотеки Keras). В этой работе он ставит задачу определения и оценки способностей искусственного интеллекта. На самом деле это большая трудность: даже в нейронауках нет четкого критерия для оценки уровня интеллекта. С искусственным интеллектом все еще сложнее. Один из подходов — оценивать возможности ИИ в решении различных задач. Но проблема в том, что если взять задачи, требующие только опыта, то мы теряем возможность оценить способность модели к обобщению. В таком случае решение будет сильно зависеть от этого опыта, а не от способности к логическим рассуждениям «здесь и сейчас». В своей работе Франсуа Шолле дает формальное определение интеллекта, основанное на алгоритмической теории информации. Он описывает интеллект как эффективность приобретения навыков, выделяя такие понятия, как масштаб, сложность обобщения, предшествующие знания и опыт, которые необходимо учитывать при характеристике интеллектуальных систем. Итак, ARC-AGI — это бенчмарк для оценки способности модели к абстрактному мышлению и рассуждению. Задачи в нем выглядят примерно так: на вход подается сетка с закрашенными квадратиками, а на выходе нужно нарисовать квадратики, следуя выявленному шаблону. Цель модели — правильно понять визуальные паттерны. Для обучения и тестирования есть по 400 задач в каждом наборе. На выходе при этом размерность сетки может отличаться от сетки на входе. Давайте рассмотрим пример. Перед нами сетка 7×7. На левой картинке (вход) изображены две голубые фигуры. На выходе мы должны закрасить ещё два квадратика синим, чтобы получились два полноценных квадрата 2×2. Source: https://habr.com/ru/articles/976228/