ZS Benchmark — Оценка

3 модели × 5 задач × 3 измерения
Оценщик: Claude Opus 4.6 Дата: 14.03.2026 15 файлов результатов + 3 reflection.zobr
Что такое ZS (Zobr Script)?

Когнитивный скриптовый язык для LLM

ZS предоставляет формальные конструкции для описания процессов рассуждения — не как жёсткие инструкции, а как композируемые когнитивные операции с переменными, управлением потоком и форматированием результатов.

Думайте об этом как о SQL для мышления: вы определяете какие когнитивные шаги предпринять, LLM решает как их выполнить.

Скрипты исполняются LLM в роли интерпретатора: модель читает файл .zobr, выполняет операции шаг за шагом, отслеживает переменные, следует управлению потоком и формирует структурированный вывод.

12 встроенных операций нажмите для подробностей

survey ground assert doubt contrast analogy synthesize reframe assess pivot scope conclude
survey Discovery
Explore a topic and identify key elements (positions, factors, perspectives).
survey(topic, count?: N) → list
positions = survey("main positions on consciousness", count: 3)

Плюс: переменные, управление потоком for/if/loop, пользовательские функции (define), yield, импорт, ссылки @last/@N.

Пример: как выглядит ZS-скрипт

task: "Evaluate risks of AI in education"

risks = survey("main risks of AI in education", count: 4)
evidence = for r in risks {
  concrete = ground(r, extract: [examples, studies])
  yield { risk: r, evidence: concrete }
}
overview = synthesize(evidence, method: "rank by severity and interconnection")

result = conclude {
  top_risks: list
  most_critical: string
  recommendation: string
  confidence: low | medium | high
}
Применимость и сценарии использования

Что даёт ZS

ZS — это усилитель рассуждений, а не тест возможностей. Он не делает слабые модели сильными — он делает все модели структурированными. Выполнение ZS-скрипта моделью Haiku даёт более полезный результат, чем свободный ответ Haiku на тот же вопрос, потому что скрипт заставляет модель декомпозировать рассуждение, показывать ход мысли и форматировать выводы. Бенчмарк подтверждает: даже самая маленькая модель следует ZS-скриптам с 92.5% структурной точностью.

Когда структура рассуждения задана извне скриптом, задача модели смещается от организации мышления к наполнению контейнеров содержанием. Именно поэтому Sonnet достигает почти паритета с Opus (9.3 vs 9.4) — структурированные скрипты сжимают разрыв возможностей между уровнями моделей.

📜 Воспроизводимые паттерны анализа

Закодируйте лучший аналитический процесс один раз как .zobr-скрипт, затем применяйте к новым данным. Скрипт анализа политических новостей работает с любой статьёй. Скрипт due diligence — с любой компанией. Паттерн рассуждения многоразовый — меняется только содержание.

Пример: news-analysis.zobr прогоняет один и тот же 6-фазный пайплайн (ground → стейкхолдеры → мотивы → разрыв нарратива → cui bono → слепые пятна) по каждой статье, гарантируя, что ничего не упущено.

🧪 Контроль качества рассуждений ИИ

ZS-скрипты делают рассуждения аудируемыми. Вместо ответа-чёрного-ящика от LLM вы получаете размеченные операции ([doubt], [contrast]) с видимым потоком переменных. Можно проверить, что модель действительно рассмотрела контраргументы, а не просто сгенерировала односторонний вывод.

Критично для compliance, юридического анализа, медицинских рассуждений — везде, где нужно показать как достигнут вывод, а не только что это за вывод.

🎯 Оптимизация затрат через роутинг моделей

Бенчмарк показывает: разным задачам нужны разные модели. Используйте Haiku для структурных задач (обзоры, извлечение фактов) в 2.5× быстрее, Sonnet для большинства аналитических задач, Opus только для глубоких диалектических рассуждений. ZS-скрипты делают этот роутинг явным: один скрипт работает на любой модели.

Генерируйте скрипты через Sonnet (лучшая архитектура), исполняйте через Haiku в масштабе — валидные структурированные рассуждения за долю стоимости.

💡 Захват знаний из AI-сессий

Когда агент в ходе разговора демонстрирует выдающееся рассуждение, паттерн мышления можно дистиллировать в .zobr-скрипт — многоразовый артефакт. Бенчмарк доказывает: все три модели способны генерировать валидные параметризованные скрипты (задача 05: 0 ошибок у всех моделей).

Двойное назначение: люди пишут скрипты как задания для LLM, агенты экспортируют свои рассуждения в файлы .zobr для повторного использования.

🎓 Образование и критическое мышление

ZS экстернализирует структуру строгого мышления: survey перед утверждением, doubt своих собственных утверждений, contrast с сильнейшим контраргументом, synthesize — а не резюмировать. Студенты и аналитики могут освоить эти паттерны, читая и создавая скрипты.

Шаблон dialectical.zobr учит итеративному уточнению тезиса лучше, чем параграф учебника о диалектике.

🌐 Мультиагентные когнитивные процессы

ZS-скрипты могут служить общими протоколами между агентами. Один агент выполняет survey и ground, другой — doubt и contrast, третий synthesize результаты. Скрипт определяет workflow; агенты наполняют операции.

Часть экосистемы федеративного со-мышления Black Zobr.

Бенчмарк: 5 задач × 3 модели

Задачи

Задача 01
Простой пайплайн
Линейная цепочка: survey → цикл for с ground → synthesize → conclude. Тестирует базовый поток операций, отслеживание переменных, yield.
Задача 02
Диалектическое рассуждение
Итеративное уточнение тезиса: assert → loop 2× {doubt → contrast → assess → if stuck: pivot → reframe}. Тестирует эволюцию тезиса и условное ветвление.
Задача 03
Пользовательские функции
Определяемые функции steelman и devils_advocate с prompt, доступ через точку (attack.damage_level), ветвление if/else.
Задача 04
Анализ новостей
6-фазный пайплайн с веб-поиском: ground → survey(5 стейкхолдеров) → цикл for {assert, doubt, contrast} → reframe(cui bono) → scope(wide). 10+ полей conclude.
Задача 05
Рефлексия и генерация
Модель анализирует тему (регулирование безопасности ИИ), затем генерирует многоразовый .zobr-скрипт, кодирующий паттерн рассуждения, и валидирует его через zobr-check. Тестирует качество содержания и генерации ZS-кода.

Тестируемые модели

  • Claude Opus 4.6 — максимальные возможности, глубочайшее рассуждение
  • Claude Sonnet 4.6 — средний уровень, баланс скорости и качества
  • Claude Haiku 4.5 — самая быстрая, самая экономичная

Измерения оценки

  • Структурное соответствие (0–10) — следует ли модель ZS-скрипту корректно?
  • Качество содержания (0–10) — насколько глубоки, конкретны и содержательны рассуждения?
  • Качество генерации (0–10) — способна ли модель создать валидный, многоразовый .zobr-скрипт?

Методология

  • Каждая модель выполняет каждую задачу независимо через claude -p (headless-режим)
  • Полная изоляция: без контекста проекта, без MCP-серверов, без общего состояния
  • --effort high для единообразной глубины мышления
  • Модели читают спецификацию ZS + системный промпт, затем выполняют .zobr-скрипт
  • Результаты фиксируются как транскрипты инференса + файлы вывода модели
  • Оценка выполнена Opus 4.6 через evaluate-benchmark.zobr — ZS-скрипт, оценивающий результаты ZS (мета-оценка)

15 запусков (5 задач × 3 модели), 0 сбоев. Общее время бенчмарка: ~48 минут.

Композитные оценки моделей
Opus 4.6
9.4
/ 10
Экспертный уровень
Sonnet 4.6
9.3
/ 10
Почти паритет с Opus
Haiku 4.5
7.9
/ 10
Компетентный и структурный
Полная матрица оценок
Задача Измерение Opus 4.6 Sonnet 4.6 Haiku 4.5
01 — Простой пайплайн Структура 10 10 9
Содержание 9 8 7
Итого 9.5 9.0 8.0
02 — Диалектика Структура 10 10 9
Содержание 9 9 6
Итого 9.5 9.5 7.5
03 — Функции Структура 10 10 9
Содержание 9 9 7
Итого 9.5 9.5 8.0
04 — Анализ новостей Структура 10 10 10
Содержание 9 9 7
Итого 9.5 9.5 8.5
05 — Рефлексия Содержание 9 9 7
Генерация 9 9 8
Итого 9.0 9.0 7.5
Оценки по измерениям

Структурное соответствие

Opus
10.0
Sonnet
10.0
Haiku
9.25

Качество содержания

Opus
9.0
Sonnet
8.8
Haiku
6.8

Качество генерации

Opus
9
Sonnet
9
Haiku
8
Профиль по задачам
01 Пайплайн 02 Диалектика 03 Функции 04 Новости 05 Рефлексия 10 9 8 7
Opus 4.6 9.4
Sonnet 4.6 9.3
Haiku 4.5 7.9
Композитная оценка по задаче (среднее структуры, содержания и генерации). Внешнее кольцо = 10, внутреннее = 6.
Разрыв качества содержания (Opus vs Haiku)
01 — Пайплайн
Δ2
02 — Диалектика
Δ3
03 — Функции
Δ2
04 — Новости
Δ2
05 — Рефлексия
Δ2
Наибольший разрыв на диалектических задачах (итеративное уточнение, доменные знания, эмерджентный синтез)
Производительность и эффективность

Среднее время на задачу

Haiku 4.5 110s  (1.8 min)
Opus 4.6 189s  (3.2 min)
Sonnet 4.6 273s  (4.6 min)

Общее время бенчмарка

Haiku 4.5 548s  (9.1 min)
Opus 4.6 946s  (15.8 min)
Sonnet 4.6 1365s  (22.8 min)
Sonnet неожиданно самый медленный (2.5× Haiku, 1.4× Opus) несмотря на средний уровень — возможно, отражает роутинг API, а не свойства модели.
Ключевые выводы
1

ZS структурно модель-агностичен

Все три модели следуют ZS-скриптам с высокой точностью (9.25–10.0). Операции выполняются по порядку, переменные отслеживаются, управление потоком соблюдается. Разрыв в 0.75 балла — косметический, не семантический.

2

Разрыв в содержании концентрируется на диалектических задачах

Разрыв Opus–Haiku достигает 3 баллов на задаче 02 (итеративное уточнение, доменные знания, эмерджентный синтез). Структурные задачи показывают меньший разрыв. ZS усиливает рассуждение там, где оно сложнее всего.

3

Sonnet достигает почти паритета с Opus (9.3 vs 9.4)

Структурированные скрипты сокращают разрыв возможностей между уровнями. Когда структура рассуждения задана извне, задача модели сводится к наполнению контейнеров содержанием — и Sonnet справляется почти так же хорошо.

4

Все модели генерируют валидные ZS-скрипты

Все три файла reflection.zobr проходят zobr-check с 0 ошибками. Способность к генерации масштабируется вместе с интерпретацией — нет «штрафа за генерацию». Генерация ZS-скриптов — практичный рабочий процесс.

Руководство по выбору модели
Сценарий Модель Почему
Структурные задачи (извлечение, классификация, survey) Haiku В 1.7× быстрее Opus; структурное соответствие ~идеальное
Диалектические рассуждения (doubt, contrast, reframe) Opus Наибольший разрыв в глубине на итеративных задачах
Анализ новостей / политический анализ Sonnet Opus Оба на экспертном уровне; Sonnet добавляет критику источника
Генерация скриптов Sonnet Самая сложная архитектура; полная универсальность
Массовая пакетная обработка Haiku В 2.5× быстрее Sonnet; валидные рассуждения в масштабе
Философия / глубокий анализ Opus Широчайшая база ссылок; самые оригинальные фреймворки