Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research разработали новый метод, который помогает понять, почему ИИ-модель приняла то или иное решение в процессе вычисления, и при необходимости повлиять на нее, узнал Forbes. По мнению экспертов, этот метод, названный SAE Match, может помочь преодолеть эффект «черного ящика» для бизнеса и потенциально подтолкнуть вперед весь рынок, поскольку компании начнут больше доверять технологии
В лаборатории исследований искусственного интеллекта T-Bank AI Research разработали новый научный метод под названием SAE Match, который позволяет заглянуть внутрь искусственного интеллекта, выяснить, в какой момент ИИ начинает давать неправильные или нежелательные ответы, и вовремя скорректировать их, рассказали Forbes в компании. «Это прорывной шаг на пути к более прозрачным, точным и понятным алгоритмам, что особенно важно при внедрении ИИ в критически важные сферы — такие, как медицина, финансы и безопасность», — утверждают в Т-банке.
Telegram-канал Forbes.Russia Канал о бизнесе, финансах, экономике и стиле жизни Подписаться
В чем суть открытия
Метод SAE Match относится к области интерпретируемости ИИ, главная цель которой — сделать работу ИИ более прозрачной и понятной для человека, чтобы можно было отслеживать, как модель обрабатывает информацию, почему она принимает те или иные решения, и впоследствии повысить точность ответов.
Современные языковые модели состоят из нескольких слоев, каждый из которых использует результат предыдущего: так модель старается улучшить свои предсказания слой за слоем, поясняют в Т-банке: «Однако иногда модель может выдавать недостоверную или даже оскорбительную информацию. Ранее не существовало метода, который позволял бы проследить, как концепции изменяются от слоя к слою. SAE Match стал первым инструментом, который не просто фиксирует концепции на отдельных слоях, а анализирует их эволюцию в процессе вычислений». Эксперименты на ряде моделей показали, что он помогает отслеживать признаки, которые остаются неизменными на нескольких слоях сети, указывают в компании: «Это делает поведение ИИ более предсказуемым и понятным, в том числе дает возможность контролировать процесс генерации текста, а не просто накладывать внешние ограничения или обучать модель на новых данных, что дорого и требует больших вычислительных ресурсов».
Кроме того, как заверяют авторы метода (ими указаны Никита Балаганский, Ян Максимов и Даниил Гаврилов), SAE Match не требует дополнительных данных или дообучения модели, что делает его гораздо более доступным, чем другие методы контроля работы ИИ: «Это особенно важно для небольших команд, которые не могут позволить себе сбор и обработку больших наборов данных». Также метод, по их словам, позволяет отслеживать, когда модель начинает предсказывать нежелательные или потенциально опасные фразы, и предотвращать их появление, это поможет создавать более безопасные и этичные решения на базе ИИ.
«Представьте умного голосового помощника, который рекомендует фильмы. И вдруг он начинает выдавать недостоверную или даже грубую информацию, — говорит руководитель научной группы LLM Foundations в T-Bank AI Research Никита Балаганский. — Сейчас изменить его поведение — сложная задача, ведь существующие методы не дают нам четкого понимания, где именно возникла проблема. Наши исследования в области интерпретируемости ИИ направлены на то, чтобы такие сбои можно было заметить и быстро исправить их без дорогостоящего переобучения модели».
Результаты исследования будут представлены на из главных международных конференций в области машинного обучения и искусственного интеллекта уровня А* ICRL, которая пройдет в Сингапуре 24-28 апреля 2025 года.
Почему это важно
Появление таких решений подталкивает рынок к новому этапу зрелости, указывают эксперты. Прозрачность и интерпретируемость моделей становятся не академической задачей, а реальным конкурентным преимуществом, полагает CEO AI-лаборатории NDT (Neuraldeep.tech, входит в группу компаний red_mad_robot) Валерий Ковальский. «Если бизнесу проще понять, как работает ИИ, — он быстрее принимает решение о его внедрении. Это повышает общую планку требований к разработчикам, особенно в условиях, когда open source-сообщество уже предлагает сопоставимые инструменты. Вопрос будет не только в научной новизне, но и в том, кто быстрее и удобнее адаптирует технологию под реальные задачи», — считает он.
Исследователи предложили оригинальный способ, как можно сделать работу современных больших языковых моделей (Large Language Model, LLM) более прозрачной, чтобы их было легче анализировать, понимать и корректировать, размышляет руководитель разработки больших языковых моделей «Авито» Анастасия Рысьмятова. Такие решения, по ее мнению, могут в будущем дать исследователям и разработчикам мощный инструмент для анализа внутренней логики нейросетей и повышения их прозрачности, помогая создавать более предсказуемые и надежные системы ИИ. «Развитие этого подхода способно сократить затраты на создание моделей, снизить риски возникновения ошибок и галлюцинаций, а значит, повысить доверие к результатам работы нейросетей», — говорит она.
В банковском секторе, промышленности и ряде других областей, где решения влияют на миллиардные активы и безопасность производства, «черный ящик» нейросетей неприемлем, рассуждают в MTS AI. «Компаниям требуется полная объяснимость каждого этапа работы модели: от обработки входных данных до формирования результата. Например, если ИИ рекомендует отказать в кредите или остановить конвейер, специалисты должны понимать, на основании каких параметров принято решение. Это не только снижает риски ошибок, но и позволяет оперативно корректировать логику системы. Чем прозрачнее работа алгоритма, тем выше точность и доверие к его выводам», — объясняют в компании важность SAE Match.
Объем российского рынка LLM‑продуктов для бизнеса по итогам 2024 года составит 35 млрд рублей, подсчитывали ранее в Центре искусственного интеллекта МТС (MTS AI). До 2028 года, когда он увеличится до более чем 85 млрд рублей, этот показатель будет расти в среднем на 25% в год, прогнозировали аналитики центра.
Задача обеспечения безопасности и контроля ИИ очень важна сегодня, некоторые компании в гонке за новыми моделями и показателями в бенчмарках забывают про этот аспект, замечает CTO направления genAI в Just AI Антон Сипачев. «А между тем ИИ внедряется повсеместно, и агентские подходы, в которых ИИ может обращаться к различным сервисам и системам, делает его далеко не просто безобидным текстовым чатом, — продолжает он. — Есть разные подходы к решению этой задачи — предобучение на фильтрованных данных или цензурирование сгенерированных токенов». Предложенный метод позволит как глубже провести анализ проблемных мест, так и улучшить уже существующие методы, считает Сипачев.
Одна из проблем в области интерпретируемого ИИ — так называемая полисемантичность и наложение признаков, поясняет директор лаборатории FusionBrain Института AIRI Андрей Кузнецов. Это значит, что один и тот же участок нейронов в модели может отвечать за несколько разных концепций сразу, например, за понятия «мама» и «женщина», продолжает он, и отследить, как именно эти признаки меняются от слоя к слою внутри модели, довольно сложно. «Коллеги предложили авторский способ сопоставления таких признаков между слоями. Это может быть очень полезным в ситуациях, когда доступ к обучающим данным ограничен или невозможен, — рассуждает Кузнецов. — Основная цель — понять, что происходит с концептами внутри модели, чтобы установить, почему модель отвечает на вопросы определенным образом. Помимо этого, в работе предложен механизм для сокращения размера моделей без потери качества ответов».
Хотя метод решает довольно техническую задачу, направление исследования «крайне актуально» в современной исследовательской повестке, потому что понимание внутренних механизмов работы моделей важно как для безопасности, так и для практического применения, обращает внимание Кузнецов. «Например, чтобы знать, что модель не выдает токсичные или ложные ответы из-за внутренних свойств своей архитектуры. Более того, над тем, как сделать модели более интерпретируемыми, сейчас работает все наше научное сообщество в сфере ИИ, а наука — это коллективный и кумулятивный процесс, в котором масштабные сдвиги происходят в процессе объединения узкоспециализированных результатов», — заключает он.
Источник: www.forbes.ru