18 декабря 2024

В МФТИ разработали тест для оценки возможностей ИИ понимать мемы

Лингвисты, культурологи и математики представили подход, который позволяет оценивать способность больших языковых моделей понимать интернет-мемы и учитывать культурный контекст.

Ученые выделили восемь систем взглядов, свойственных россиянам. Далее на основе цитат из книг, фраз из фильмов и популярных мемов они подготовили 400 тестовых заданий для искусственного интеллекта. Нейросети среди прочего спрашивали: «Что сделал дядя самых честных правил, когда не в шутку занемог?» На большинство вопросов ученых лучше всего ответила GPT-4. Языковая модель Claude 3.5 заняла второе место с отрывом всего на 1%. Замыкает тройку LLaMA.
Существенно хуже справились с идентификацией мемов и языковых стереотипов остальные зарубежные системы, в их числе Google Gemini, Qwen, Command-R, GPT-3.5 и Mistral.

Копировать ссылку