Развитие медицины — одна из наиболее волнующих тем. На помощь врачам приходят специалисты, чья роль может показаться неочевидной на первый взгляд — лингвисты. Точнее, компьютерные лингвисты. В преддверии Дня науки о связи медицины и компьютерной лингвистики рассказала руководитель научной группы Domain-specific NLP в Институте AIRI, старший научный сотрудник Института системного программирования им. В. П. Иванникова РАН и Казанского федерального университета, доктор компьютерных наук, лауреат Yandex ML Prize — 2024 Елена Тутубалина
Актуальность для науки
Искусственный интеллект постепенно входит во все сферы нашей жизни. Мы ежедневно пользуемся его возможностями, часто даже не задумываясь об этом: нейросети прогнозируют маршруты для такси, оптимизируют процесс доставки продуктов и выполняют множество других функций.
Благодаря машинному обучению и методам компьютерной лингвистики анализ, который вручную мог бы занять месяцы или годы, выполняется за часы. Причем задачи могут быть самыми разными — от анализа больших объемов данных и извлечения смыслов из текста до генерации гипотез, структурирования информации и распознавания образов на картинках. То есть здесь все зависит от потребности конкретного специалиста.
Чем ИИ полезен в медицине
В медицине потенциал ИИ особенно высок. Уже сейчас нейросети применяются в таких задачах, как поиск и генерация новых молекул, что ускоряет процесс разработки новых лекарств. Вполне вероятно, что однажды искусственный интеллект поможет найти способ победить какое-то серьезное заболевание, для лечения которого пока нет эффективного метода. Однако в любом случае требуется верификация предложений ИИ со стороны человека — если нет специалиста, который может проверить гипотезу, сформулированную нейросетью, это будет бессмысленно.
Обработка естественного языка при помощи методов компьютерной лингвистики помогает извлекать из массива текстов полезную информацию. Благодаря этому медикам проще находить нужные данные. Это особенно актуально, когда к врачу пришел пациент с редким заболеванием и необходимо узнать, какие клинические испытания сейчас проходят в этом направлении, куда этого пациента можно записать, или определить подходящее для него лекарство.
Однако ИИ приходит в медицину и в других формах — от перевода научной литературы с иностранных языков и до голосовых помощников, которые помогают пациентам записываться к нужным врачам.
Модельный ряд
Среди ключевых направлений нашей с коллегами работы в научной группе Domain-specific NLP в Институте AIRI — изучение обобщающей способности (генерализации) языковых моделей, то есть их умения адаптироваться к новым задачам и данным. Исследование генерализации нужно для того, чтобы понять ограничения современных языковых моделей, определить сценарии, в которых они работают хорошо, и выявить области, где их эффективность снижается. В тех случаях, где модели справляются плохо, можно либо избегать таких сценариев, либо предложить улучшения через доработку методов обучения или сбор дополнительной информации. Это особенно важно в медицине и фармацевтике, где данные могут сильно различаться по структуре, содержанию и языку.
Например, модели, обученные на текстах о противоинфекционных препаратах, могут сталкиваться с трудностями при анализе данных о лекарствах с другими механизмами действия, таких как антидепрессанты, к примеру.
В рамках наших исследований мы изучали, как языковые модели справляются со сдвигами данных — ситуациями, когда условия применения модели отличаются от тех, на которых она была обучена. Например, при работе с предсказанием медицинских кодов мы сначала обучали нейросеть на англоязычных текстах, а затем проверяли ее работу на данных, представленных на русском языке. Результаты показали, что модель, предварительно обученная на английском, требовала на 30% меньше данных на русском для достижения тех же показателей, что при обучении с нуля. Это открывает возможности для более эффективного использования ресурсов; особенно это касается таких языков, на которых доступно ограниченное количество данных, подходящих для обучения моделей под конкретную задачу. Например, если для английского языка существует множество баз данных, то для некоторых языков с меньшим числом носителей, таких как татарский или суахили, данных значительно меньше. Обучение моделей с учетом таких ограничений помогает сделать технологии более доступными и эффективными.
Еще одним предметом наших исследований стали неточности в кодах, которые врачи используют в медицинских записях. Когда пациент приходит на прием, врач описывает его состояние, ставит диагноз, а затем указывает код по Международной классификации болезней (МКБ), который не всегда соответствует действительности — например, чтобы страховая компания оплатила нужные ему процедуры и обследования. Бывают случаи, когда ставятся коды серьезных заболеваний, чтобы пациент мог получить направление на нужные ему обследования или процедуры. Такие неточности искажают данные и создают сложности для искусственного интеллекта, который обучается на этих записях, чтобы прогнозировать будущее здоровье пациентов.
Чтобы решить эту проблему, мы с коллегами провели ряд исследований и в итоге разработали модель, которая сопоставляет описание диагноза или симптома с наиболее подходящим кодом по МКБ. Таким образом, она автоматически преобразует описания врачей в корректные коды. Такая обработка данных значительно повысила точность прогнозов, сделав их более надежными и полезными для медицинских задач.
Таким образом, искусственный интеллект и компьютерная лингвистика играют все более значимую роль в медицине и фармацевтике, ускоряя процессы анализа данных, генерации гипотез и поиска решений. Однако для эффективного применения ИИ в медицине необходимы дальнейшие исследования, направленные на улучшение методов обучения и адаптации моделей к различным языкам и типам данных. В перспективе это откроет новые возможности для повышения качества медицинской помощи, создания инновационных препаратов и сделает технологии искусственного интеллекта более доступными для врачей и пациентов.
Мнение редакции может не совпадать с точкой зрения автора
Источник: www.forbes.ru