Искусственный лжец: можно ли научить нейросети говорить только правду

    В ответах нейронных сетей достоверные факты зачастую перемешаны с нелепым вымыслом. Доверие к искусственному интеллекту уже стоило некоторым людям здоровья и репутации. Научный обозреватель Forbes Анатолий Глянцев рассказывает о новом исследовании, которое показывает, почему разработчики поощряют нейросети фантазировать, и как можно решить эту проблему

    В том, что нейросети с уверенным видом говорят ерунду, виноваты сами разработчики. Однако эту проблему можно решить, если изменить подход к тестированию искусственного интеллекта. Такой вывод сделали специалисты компании OpenAI, одного из мировых лидеров в разработке искусственного интеллекта, известной нейронными сетями серии GPT.

    Telegram-канал Forbes.RussiaКанал о бизнесе, финансах, экономике и стиле жизниПодписаться

    Ложка яда в бочке меда

    Консультироваться с искусственным интеллектом (ИИ) удобно и модно. Кажется, что новейшим версиям GPT или DeepSeek по силам любой вопрос. Однако есть «но»: эти системы с одинаково уверенным видом выдают пользователю правду, полуправду и откровенный вымысел.

    Чем более узкоспециальный вопрос задается искусственному интеллекту, тем выше вероятность ошибки. Для примера спросим нейросеть GPT 4.1 nano, в каком году родился композитор Ефрем Иосифович Подгайц. Ответ системы: 1933 год, правильный ответ — 1949 год. Попробуем вопрос из другой области: «Назови самый большой радиотелескоп в России, работающий в метровом диапазоне волн». Ответ сети совершенно фантастический: по ее мнению, это «радиотелескоп «Сибирь» (РТ-22), расположенный в Карагайской обсерватории (Пермский край)». В Пермском крае есть село Карагай, но там нет никакой обсерватории. Есть и радиотелескопы под названием РТ-22, но ни один из них не находится в Пермском крае, не называется «Сибирь» и не работает на метровых волнах. При попытке задать тот же вопрос еще несколько раз система давала разные ответы — что само по себе показательно, но ни разу не ответила правильно (радиотелескоп БСА, город Пущино).

     

    Человек, доверившийся ответам нейросети по музыковедению или астрономии, рискует оказаться в глупом положении, но и только. Иное дело медицина или юриспруденция. Так, незадачливые адвокаты подсунули судье сгенерированный документ со ссылками на вымышленные судебные процессы. Мужчина 60 лет отравился бромидом натрия, который нейросеть присоветовала в качестве заменителя поваренной соли.

    Специалисты по ИИ называют правдоподобные, но неверные ответы нейросети галлюцинациями. Откуда берутся галлюцинации и можно ли их избежать или хотя бы минимизировать? На этот вопрос и искали ответ исследователи из OpenAI.

     

    Фабрика уверенных фраз

    Один из подходов к использованию ИИ — предоставить ему набор готовых ответов, проверенных человеком. Задача программы — научиться определять, какой из них лучше подходит к запросу пользователя. В худшем случае нейросеть ответит не на тот вопрос, который ей задали. С этим, наверное, сталкивался каждый, кто общался с роботами в системах поддержки клиентов.

    GPT, DeepSeek и тому подобные системы работают иначе. Они генерируют текст с нуля, а не выбирают из готовых вариантов. Такие нейросети называются генеративными. В ботах поддержки их не используют как раз потому, что программа может посоветовать клиенту принять бромид натрия или подогреть ноутбук в микроволновке.

    Как обучается генеративный ИИ? На первом этапе ему показывают терабайты текстов. Система запоминает, какие слова и фразы часто встречаются в связке друг с другом. Благодаря этому она «понимает», что в ответ на вопрос «в каком году родился имярек» надо назвать год, а не любимое блюдо.

     

    Первый источник ошибок — это сами обучающие данные. Учебников и энциклопедий не хватит, чтобы набрать терабайты текста. Приходится обучать ИИ на текстах сомнительной достоверности, взятых из интернета. Но даже если данные безупречны, обученная система все равно будет порой допускать ошибки. 

    Лучше всего сеть обучается на данных, в которых есть закономерности. Зададим той же сети GPT 4.1 nano вопрос: «В какой стране родился Анатолий Владимирович Глянцев?» Вряд ли ИИ мог знать страну рождения автора этих строк. Но он видит русское имя с отчеством и отвечает правильно: «в СССР».

    Другое дело — дата рождения. Ее нельзя вывести из имени, можно только запомнить. Много раз встречая фразы типа «Людвиг ван Бетховен родился в 1770 году», система запоминает, что фрагменты «Бетховен», «год рождения» и «1770» связаны. А вот год рождения Подгайца, очевидно, слишком редко встречался в обучающих данных, и сеть не запомнила его.

    Специалисты из OpenAI рассмотрели этот процесс с точки зрения математики, но использовали не год рождения, а день года. Исследователи показали: если, скажем, для 20% исторических личностей день рождения встречается в обучающих данных только один раз, то система и будет ошибаться в этом вопросе как минимум в 20% случаев. Тому есть две причины. Во-первых, как мы уже отметили, в датах рождения нет никакой закономерности. Во-вторых, вероятность случайно угадать день рождения очень мала: 1 к 365.

    Не уверен — не отвечай

    Почему нейросеть выдумывает даты и факты, вместо того чтобы дать самый естественный ответ: «Я не знаю»? Как показывают авторы, виной тому второй этап обучения.

     

    На этом этапе программу подвергают тестам, которые специалисты называют бенчмарками. Искусственному интеллекту задается множество вопросов, и его ответы оцениваются. Задача системы — максимизировать суммарный балл.

    Ученые проанализировали десять популярных бенчмарков и констатировали, что девять из них делят ответы нейросети только на две категории: правильные и неправильные. Ответы вроде «я не знаю», «я не уверен» и т.д. считаются столь же неправильными, как и прямая ложь. За любой неправильный ответ начисляется одинаковое количество баллов (обычно ноль).

    Вернемся к году рождения Подгайца. Нейросеть его не знает, но оптимальная стратегия — назвать хоть какой-нибудь год. Тогда есть шанс угадать случайно, а в случае ошибки система получит ту же оценку, что и за ответ «я не знаю». Программа напоминает студента, наугад расставляющего галочки в тесте: это все же лучше, чем сдать пустой бланк. Таким образом, схема тестирования поощряет ИИ выдумывать факты, то есть галлюцинировать.

    Авторы предлагают заменить двухступенчатую систему оценки на трехступенчатую. Например, за правильный ответ начислять балл, за ошибку снимать три балла, а за отказ от ответа — ноль баллов. При таком раскладе выгодно отвечать, только если вероятность правильного ответа больше 75%. В остальных случаях лучше сознаться в своем неведении. Если штрафовать за ошибку на девять баллов, то «пороговая вероятность» уже 90%.

     

    Разумеется, нейросеть не может точно знать, с какой вероятностью ее ответ является правильным. Но ее можно научить оценивать степень своей уверенности. Трехступенчатая оценка приучит систему признавать свою некомпетентность, если она недостаточно уверена. Правда, уровень уверенности и вероятность ошибки — это разные вещи. Есть самоуверенные невежды, вдохновенно громоздящие промах на промах. А есть и очень знающие люди, панически боящиеся ошибиться. Задача инженеров сделать так, чтобы нейросеть не напоминала ни тех ни других. Она выглядит не слишком простой, но решаемой. 

    Само собой, для разных задач порог уверенности должен быть разным. Для общедоступных сервисов типа ChatGPT хватит и 75%, но хорошо бы запретить им отвечать на медицинские и юридические запросы. Нейросети, предназначенные для врачей, должны иметь очень высокий порог уверенности. Создать столь компетентного консультанта будет сложно, но менее компетентному нельзя доверять медицинские решения. 

    Невозможно сделать так, чтобы нейросеть никогда не ошибалась. Задача в том, чтобы она ошибалась значительно реже, чем человек-специалист. А пока OpenAI не применила свои новшества к свежим версиям GPT, стоит помнить, как дорого может обойтись доверие к «фабрикам уверенных фраз».

    Мнение редакции может не совпадать с точкой зрения автора

     

    Источник: www.forbes.ru

    Like this post? Please share to your friends:
    QuestionAI
    Добавить комментарий

    ;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: