22 октября, 15:48

ChatGPT, Copilot и другие ИИ-сервисы ошибаются при передаче новостей в 50% случаев

Ведущие помощники на основе искусственного интеллекта искажают новостной контент почти в половине своих ответов. Исследование опубликовал Европейский вещательный союз (EВU). В нем приняли участие 22 общественные медиаорганизации из 18 стран, включая Францию, Германию, Испанию, Украину, Великобританию и США. Специалисты изучили 3 тыс. ответов на вопросы о новостях от ведущих ИИ-сервисов. Так, в рамках проекта проходила оценка таких онлайн-помощников на точность, поиск источников информации и способность отличать мнения от фактов. В замеры попали ChatGPT, Copilot, Gemini и Perplexity.

В целом 45% изученных ответов ИИ содержали по крайней мере одну значимую ошибку. Кроме того, треть ответов помощников на базе ИИ содержали серьезные ошибки в источниках (например, введение в заблуждение или неверная атрибуция).
Около 72% ответов Gemini содержали серьезные проблемы с поиском. Для прочих ИИ-помощников этот показатель составлял менее 25%.
В 20% ответов всех исследованных ИИ-сервисов нашли проблемы с точностью (например, устаревшая информация).
В качестве примеров специалисты приводят сообщения Gemini о некорректном указании изменений в законе об одноразовых вейпах и сообщения ChatGPT о том, что покойный папа Франциск считается нынешним понтификом.

По мнению Европейского вещательного союза, ИИ все чаще заменяет традиционные поисковые системы новостей. Поскольку ИИ-сервисы еще несовершенны, общественное доверие к новостям может быть подорвано. По данным отчета Reuters Institute’s за 2025 год, около 7% всех читателей новостей в интернете и 15% юзеров в возрасте до 25 лет используют именно ИИ-сервисы для получения новостного контента. Составители отчета призвали ИТ-компании повышать качество своих ИИ-сервисов.

Создатели Gemini (ИИ-помощник от Google) ранее заявляли, что приветствует отзывы, которые позволят совершенствовать платформу. OpenAI и Microsoft отмечали, что модель ИИ может «сочинять» неверную информацию часто из-за недостатка данных. Эту проблему компании пытаются решить. Создатели Perplexity утверждают, что один из режимов «Глубокого исследования» точен на 93,9%.

Копировать ссылку