1 апреля, 20:17

Удаление знаков препинания из текста снижает до 20% точность ответов нейросетей на запросы

Российские ученые установили, что знаки препинания и служебные части речи, часто воспринимаемые как малозначимые, играют важную роль в обработке данных языковыми моделями. Их удаление снижает точность ответов искусственного интеллекта на запросы до 20%, сообщили в Институте искусственного интеллекта AIRI.

Современные большие языковые модели разбивают текст на токены — блоки, среди которых системе нужно выделить наиболее значимые для понимания. Однако было не вполне ясно, какие типы токенов критичны для корректной работы ИИ и какие данные сохраняются в связке с этими блоками. Для получения этой информации исследователи разработали LLM-микроскоп — набор инструментов, который позволяет анализировать внутренние процессы работы различных типов больших языковых моделей. Инструмент также помогает распознавать промежуточные результаты работы системы. Исходный код и примеры его использования были опубликованы в открытом доступе.
Специалисты изучили, как на работу ИИ влияют мало значащие для человека элементы запроса на английском языке, в том числе знаки препинания и артикли. Больше всего информации о контексте содержится именно в данных элементах текста, а не в существительных, что побудило ученых разобраться, как на качество работы ИИ повлияет удаление всех знаков препинания и служебных частей речи.
Подобная процедура заметно (до 20%) снизила точность ответов большого числа открытых и закрытых систем ИИ на два разных набора тестовых заданий для больших языковых моделей. Это происходило даже когда ученые просили саму систему ИИ удалить наименее значимые токены из текста.

Копировать ссылку