Судьи из кремния: почему оценка ИИ — это не про модели, а про людей

Когда ИИ судит ИИ, иногда кажется, что дневник проверяет сам себя — и, конечно, ставит «как в прошлый раз». Шутка дня: «модель не тупит — мы просто не договорились, за что её хвалить». В Databricks это назвали «проблемой уробороса»: змея, кусающая собственный хвост, выглядит эффектно, но плохо подходит для контроля качества.

Выход — не искать «идеального судью», а измерять расстояние до человеческой экспертизы. Judge Builder превращает вкусы и требования доменных специалистов в воспроизводимые критерии: не абстрактное «норм/не норм», а конкретные шкалы под бизнес-цели. Судьи версионируются, работают поверх любых моделей, интегрируются с MLflow и инструментами оптимизации подсказок, а их качество отслеживается во времени.

Главные уроки с полей: — Эксперты расходятся чаще, чем кажется. Спасают батч-аннотации и метрики согласия: сначала спорим на малых выборках, меряем, почему не сходимся, и только потом масштабируемся. Так IRR поднимают до ~0.6 против ~0.3 у внешней разметки — меньше шума, лучше судьи. — Размытые «релевантно, фактологично и кратко» дробятся на отдельных судей. Тогда ясно, что чинить: тон, корректность или лаконичность. Иногда рождаются и продукционные прокси: например, «цитирует топ‑2 документы» как признак корректности без ручных меток. — Примеров нужно меньше, чем вы думаете: 20–30 тщательно выбранных крайних кейсов. Часто хватает трёх часов с экспертами, чтобы получить рабочий судейский состав.

Результат? Команды после первого воркшопа штампуют десяток судей, переводят пилоты в продакшен и — важнее — осмеливаются на дорогие методы вроде RL, потому что наконец есть метрика эффекта. Деньги и внимание следуют за измеримым прогрессом.

Что делать уже сейчас: — Выберите один регуляторный критический критерий и одну наблюдаемую болячку — это стартовый портфель судей. — Настройте лёгкий цикл с экспертами: батч-разметка, проверка согласия, итерации. — Проводите регулярные ревью на продакшен-данных: системы меняются — судьи тоже.

Хороший судья — не разовая галочка, а живой актив: и метрика, и гарда, и топливо для оптимизации и обучения с подкреплением.