• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Исследователи НИУ ВШЭ выяснили, как нейросети понимают каламбуры

Исследователи НИУ ВШЭ выяснили, как нейросети понимают каламбуры

© iStock

Международная команда с участием исследователей ФКН НИУ ВШЭ представила KoWit-24 — корпус из 2700 русскоязычных заголовков «Коммерсанта» с игрой слов. Корпус позволил оценить, как искусственный интеллект распознает и объясняет языковую игру. Эксперименты с пятью большими языковыми моделями подтвердили: даже передовые системы пока ошибаются, причем интерпретация игры слов является для них более сложной задачей, чем ее выявление. Результаты работы были представлены на конференции RANLP, cтатья доступна в репозитории Arxiv.org, датасет и код для воспроизведения экспериментов — в GitHub.

Игра слов — это прием, когда автор специально ломает норму языка ради эффекта: чтобы привлечь внимание, усилить иронию или вызвать улыбку. В российских новостных заголовках такие приемы встречаются часто и могут выглядеть по-разному. Например, «Особо бумажные персоны» обыгрывает фразу «особо важные персоны»: «важные» рифмуются с «бумажные», и смысл сдвигается к производству бумаги. Или «Код накликал» звучит почти так же, как идиома «кот наплакал» (очень мало), что создает шутливую двусмысленность. 

Для читателя такая игра слов очевидна и заголовки не нуждаются в пояснении. Однако современные большие языковые модели, например ChatGPT или GigaChat Max, часто теряются: им трудно заметить каламбур и тем более объяснить, на чем построена шутка. Одна из причин — это ограниченность наборов данных, на которых обучаются языковые модели. Чаще всего юмор в них представлен короткими шутками из интернета, которые помечены ярлыком «шутка». Этого мало, чтобы алгоритм понял, почему это смешно. Кроме того, у таких наборов почти нет разметки — понятных машине и человеку слоев описания, которые могут показывать, есть ли там игра слов или нет, какой это тип приема, к чему отсылает заголовок и т.д.

Исследователи факультета компьютерных наук НИУ ВШЭ вместе с коллегами из Австрийского университета междисциплинарных трансформаций, а также независимыми исследователями создали набор данных KoWit-24. Он содержит 2700 заголовков «Коммерсанта» за январь 2021 года — декабрь 2023-го с контекстом: к каждому заголовку приложены подводка к статье, название рубрики и краткое описание сюжета. Для примеров с игрой слов авторы вручную отметили тип приема, выделили «якоря» — ключевые слова, где происходит смысловой сдвиг, указали исходные выражения и добавили ссылки на статьи в «Википедии» там, где это возможно.

Авторы работы использовали определение лингвиста Алана Скотта Партингтона: игра слов возникает, когда одна и та же фраза читается минимум двумя способами, и этот эффект не случаен. При этом игра слов может возникать в нескольких случаях. Первый, когда двусмысленность заложена в самом слове или в его звучании. Например, заголовок «“Волгу” не могут заставить течь быстрее»: «Волга» здесь и река, и название федеральной трассы. Второй — легкая переделка известной фразы или названия: автор меняет форму, а читатель узнает исходник и достраивает шутку. Например, «Миссия сократима» отсылает к фильму «Миссия невыполнима» и одновременно намекает, что дипломатическую миссию можно сократить.

Исследователи отдельно выделили окказионализмы (разовые неологизмы под задачу) и оксюмороны (сочетание противоположных смыслов). Все это позволило не только собрать и описать примеры, но и сравнить разные языковые модели между собой.

После разметки авторы проверили корпус на пяти больших языковых моделях: GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo. Моделям давали заголовок и подводку к новости и просили решить две задачи: сначала определить, есть ли в заголовке игра слов, а затем объяснить ее, то есть назвать исходную фразу или отсылку. При этом исследователи сравнивали два режима подсказок: короткий вопрос «Есть ли игра слов?» и расширенную инструкцию, в которой объясняется, что считать игрой слов, и приводятся примеры разных типов. Трем моделям из пяти более подробные инструкции помогали в распознавании игры слов, а лучшую точность показала GPT-4o. При этом интерпретировать источник шутки всем моделям заметно сложнее, чем просто фиксировать, что игра слов есть.

Павел Браславский

«KoWit-24 закрывает две ключевые проблемы прежних наборов — дает контекст к каждому заголовку и многоуровневую разметку. Это превращает подборку примеров в полноценный “тестовый стенд” для ИИ. Теперь можно объективно сравнивать модели между собой: видит ли модель сам факт игры слов, находит ли “якорь”, правильно ли восстанавливает исходную фразу или отсылку. Такие проверяемые метрики помогают не только точнее оценивать текущие системы, но и целенаправленно их улучшать — подбирать формулировки подсказок, обучающие примеры и стратегии проверки фактов. В будущем мы хотим исследовать, можно ли с помощью этого набора улучшить генерацию шуток», — отмечает один из авторов работы, доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский.

Кроме того, корпус задает общий понятный стандарт оценки: исследователи работают с одними и теми же данными и сценариями экспериментов. Это уменьшает «шум» в результатах и помогает создавать модели, которые лучше понимают живой язык, а не просто следят за логикой текста.

Вам также может быть интересно:

Тест «КардиоЖизнь» Вышки — в числе победителей премии Data Fusion Awards 2026

Разработка ученых Центра биомедицинских исследований и технологий Института ИИ и цифровых наук ФКН ВШЭ — генетический тест «КардиоЖизнь» — одержала победу в Общероссийской кросс-отраслевой премии в области технологий работы с данными и ИИ Data Fusion Awards. Проект занял первое место в номинации «Партнерство науки и бизнеса», показав успешную модель трансфера технологий из университетской науки в реальный сектор здравоохранения.

НИУ ВШЭ установил станцию «Геоскана» для космических исследований в Индийском технологическом институте Бомбея

На территории Индийского технологического института Бомбея (IIT Bombay) установили российскую наземную станцию для приема спутниковых данных СОНИКС. Разработка компании «Геоскан» станет частью проекта зеркальной лаборатории Высшей школы экономики и одного из ведущих университетов Индии.

ВШЭ и Positive Technologies оценят последствия кибератак на бизнес и государство

Институт мировой военной экономики и стратегии НИУ ВШЭ совместно с компанией Positive Technologies объявляет о запуске междисциплинарного научно-исследовательского конкурса «Разработка моделей прогнозирования и оценки последствий кибератаки». Молодые ученые смогут предложить свои идеи, модели и подходы к анализу социальных, экономических и иных эффектов от реализованных киберугроз. Грантовый фонд конкурса составит 3 млн рублей.

МИЭМ ВШЭ и МТС запускают мастерскую по инновационным решениям в сетях связи

​​​​​​​Московский институт электроники и математики им. А.Н. Тихонова ВШЭ и МТС запускают совместную мастерскую, в которой студенты будут работать на стыке инженерии сетей связи, анализа данных и цифровых технологий. Совместный проект подразумевает формат практического обучения, где студенты смогут решать реальные задачи индустрии вместе с инженерами компании и специалистами МИЭМ.

«Думать о будущем — сверхусилие»: в ИСИЭЗ обсудили возможности и вызовы корпоративного форсайта

Поиск новых точек роста и снижение неопределенности перед крупными решениями — основные задачи, которые компании стремятся реализовать с помощью форсайта. Среди ключевых вызовов стратегического прогнозирования — высокая степень непредсказуемости будущего. К таким выводам пришли участники круглого стола с ведущими российскими компаниями «Технологии управления будущим», который прошел в ИСИЭЗ 1 апреля 2026 года.

Как адаптироваться к жаре и наводнениям

Разработанное экспертами и партнерами факультета географии и геоинформационных технологий НИУ ВШЭ руководство по адаптации к изменениям климата дает практические рекомендации по системному управлению адаптацией к изменениям климата и природными рисками, которые оказывают значительное влияние на экономику и качество жизни людей. Одновременно авторы предлагают современные технологии, которые способны эффективно справляться с угрозами, вызванными изменениями климата, и снижать негативные последствия опасных природных явлений.

В НИУ ВШЭ показали антропоморфного робота-курьера

С 1 по 3 апреля прошел IV Фестиваль робототехники, главным организатором которого стал факультет компьютерных наук НИУ ВШЭ. Одним из ключевых событий фестиваля стала презентация антропоморфного робота-курьера Аркуса. Разработку представил Институт робототехнических систем, созданный НИУ ВШЭ совместно с Группой компаний «ЭФКО».

Как формируется новая профессия специалиста по безопасности систем машинного обучения

Онлайн-кампус НИУ ВШЭ запускает новую онлайн-магистратуру «Информационная безопасность систем искусственного интеллекта», посвященную подготовке специалистов по защите систем машинного обучения. Программа ориентирована на одну из самых быстро формирующихся профессиональных ниш — безопасность моделей ИИ и инфраструктуры их эксплуатации.

От робототехники до разработки игр: в Вышке проходят Дни компьютерных наук

В апреле 2026 года факультет компьютерных наук НИУ ВШЭ приглашает всех увлеченных компьютерными науками на ежегодный фестиваль Дни компьютерных наук. Многочисленные мероприятия объединят студентов, преподавателей, профессионалов из ИТ-индустрии и всех желающих, чтобы поделиться опытом, идеями и вдохновением.

ВШЭ и БГУ запускают совместную ИТ-программу при поддержке Правительства Бурятии

Высшая школа экономики подписала соглашения о сотрудничестве в сфере подготовки кадров в области искусственного интеллекта и информационных технологий с Правительством республики Бурятия и Бурятским государственным университетом имени Доржи Банзарова. Оба документа закладывают основу для реализации совместной образовательной программы по направлению «Прикладная математика и информатика», а также для системного развития сквозных цифровых компетенций студентов и преподавателей вузов республики (программирование, анализ данных, методы искусственного интеллекта).