Представлен LLM Council: сервис для дебатов нейросетей

Разработчик и сооснователь компании OpenAI Андрей Карпатый представил инструмент для параллельной работы с несколькими большими языковыми моделями одновременно. Внешне LLM Council выглядит как обычный ChatGPT, но под капотом работает целая команда ИИ: GPT-5.1, Gemini 3 Pro, Claude Sonnet 4.5 и Grok 4. Приложение доступно на GitHub и использует сервис OpenRouter — единый шлюз, который позволяет обращаться к разным моделям через один API-ключ без необходимости регистрироваться у каждого провайдера отдельно.​

Процесс состоит из трех этапов. На первом шаге пользователь задает вопрос, и каждая модель готовит свой вариант ответа независимо от остальных. Человек может сразу сравнить все четыре версии бок о бок. Второй этап добавляет интригу: модели получают анонимные ответы коллег (без указания авторства) и должны их ранжировать по качеству, глубине и точности. На финальном шаге в дело вступает «председатель совета» — отдельная модель (Карпатый выбрал для этой роли Gemini 3 Pro), которая видит исходный запрос, все варианты ответов и все оценки. На основе этой информации председатель собирает итоговый, коллективно выверенный ответ.​

Представлен LLM Council: сервис для дебатов нейросетей

Карпати применяет LLM Council для чтения книг: разные ИИ предлагают свои пересказы сложных глав и комментарии, а потом сами объясняют, чей разбор удачнее. По его наблюдениям, совет почти всегда ставит GPT-5.1 на первое место как самую глубокую модель, Claude стабильно оказывается внизу, а Gemini 3 Pro и Grok 4 — где-то посередине. Однако сам разработчик не всегда согласен с таким голосованием: GPT-5.1 кажется ему слишком многословным, Gemini 3 Pro более собранной, а Claude — чрезмерно лаконичным.​

Идея «совета ИИ» перекликается с подходом GPT-5 Pro и Gemini 2.5 Deep Think, где несколько моделей также трудятся параллельно. Однако LLM Council позволяет выбрать ИИ от разных разработчиков, что помогает лучше понять сильные и слабые стороны каждого на живых запросах, а не только по абстрактным бенчмаркам. Одновременно приложение работает как карманный бенчмарк: можно наблюдать, кого совет чаще ставит выше, как модели расходятся в оценках сложных текстов и насколько их рейтинги совпадают с человеческой интуицией. Это практический пример multi-agent workflow без сложной терминологии: каждая модель — параллельный работник, модели-критики оценивают коллег, а менеджер синтезирует финальное решение.​

Также стало известно, что нейросети можно взломать стихами. Подробности в статье.

  • Нейросети
  • Искусственный интеллект

Источник: hi-tech.mail.ru

Like this post? Please share to your friends:
QuestionAI
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: