Московские новости
  • Лента
  • Колумнисты
  • Мир в огне
  • Москва
  • Капитал
  • Правила игры
  • Киберпанк
  • Культурный код
  • Кино
  • Telegram
  • Дзен
  • VK
  • Контакты
  • Лента
  • Мир в огне
  • Москва
  • Капитал
  • Правила игры
  • Киберпанк
  • Культурный код
  • Кино

© Сетевое издание «Московские новости»

Свидетельство о регистрации СМИ сетевого издания «Московские новости» выдано федеральной сл ужбой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) 30.10.2014 года номер ЭЛ № ФС 77 — 59721.

Редакция «Московские новости»16+

  • Лента
  • Колумнисты
  • Мир в огне
  • Москва
  • Капитал
  • Правила игры
  • Киберпанк
  • Культурный код
  • Кино

Мы используем файлы cookie, чтобы все работало нормально. Мы верим, что даже в эру побеждающего киберпанка есть место для бережного подхода к данным и конфиденциальности пользователей. Подробности — в нашей Политике конфиденциальности.

pr@mn.ru

Киберпанк
1 апреля, 20:17

Удаление знаков препинания из текста снижает до 20% точность ответов нейросетей на запросы

Российские ученые установили, что знаки препинания и служебные части речи, часто воспринимаемые как малозначимые, играют важную роль в обработке данных языковыми моделями. Их удаление снижает точность ответов искусственного интеллекта на запросы до 20%, сообщили в Институте искусственного интеллекта AIRI.

  • Современные большие языковые модели разбивают текст на токены — блоки, среди которых системе нужно выделить наиболее значимые для понимания. Однако было не вполне ясно, какие типы токенов критичны для корректной работы ИИ и какие данные сохраняются в связке с этими блоками. Для получения этой информации исследователи разработали LLM-микроскоп — набор инструментов, который позволяет анализировать внутренние процессы работы различных типов больших языковых моделей. Инструмент также помогает распознавать промежуточные результаты работы системы. Исходный код и примеры его использования были опубликованы в открытом доступе.
  • Специалисты изучили, как на работу ИИ влияют мало значащие для человека элементы запроса на английском языке, в том числе знаки препинания и артикли. Больше всего информации о контексте содержится именно в данных элементах текста, а не в существительных, что побудило ученых разобраться, как на качество работы ИИ повлияет удаление всех знаков препинания и служебных частей речи.
  • Подобная процедура заметно (до 20%) снизила точность ответов большого числа открытых и закрытых систем ИИ на два разных набора тестовых заданий для больших языковых моделей. Это происходило даже когда ученые просили саму систему ИИ удалить наименее значимые токены из текста.
Копировать ссылкуСкопировано