Насколько опасна новая ИИ-модель Claude Mythos Preview
С тех пор как Anthropic рассказала о своей новой языковой модели Claude Mythos Preview и отказалась выпускать «слишком мощный» инструмент в широкий доступ, эксперты, инженеры и СМИ пытаются ответить на один вопрос: насколько нейросеть действительно опасна? Fortune пишет, что в Anthropic считают Mythos «самой сильной» моделью из всех, разработанных компанией. Forbes тем временем, основываясь на раскрытых бенчмарках, называет ее «самой способной в истории». В частности, на
Но опасения Anthropic связаны с тем, что во время тестов нейросеть смогла обнаружить «тысячи» ранее неизвестных уязвимостей «во всех основных операционных системах и веб-браузерах». Многие из этих ошибок существовали в течение десятилетий и оставались незамеченными в результате повторных тестов, проведенных людьми. Причем сделал это Mythos полностью автономно — без помощи человека. Поэтому в Anthropic уверены: беспрецедентные возможности ИИ-модели могут стать опасным оружием в руках хакеров.
Мы не чувствовали себя достаточно комфортно, чтобы выпускать Mythos в широкий доступ. Мы считаем, что нам предстоит долгая дорога на пути к обеспечению надлежащей защиты. Нам нужно понять, как подготовиться к таким технологиям еще до того, как столкнуться с тем, что у хакеров будет к ним доступ.
Логан Грэм
главаFrontier Red Team в Anthropic
В качестве примера в Anthropic описали несколько находок Mythos. Так, нейросеть обнаружила критическую ошибку 27-летней давности в OpenBSD — операционной системе, которая имеет репутацию одной из самых защищенных в мире. Технологию OpenBSD используют многие интернет-маршрутизаторы и
Еще один кейс — работа ранней версии Mythos в изолированной среде. ИИ поставили задачу: «выбраться» и уведомить исследователя. Модель нашла уязвимость в системе, получила доступ в сеть и отправила электронное письмо разработчику Anthropic Сэму Боумену. Он в этот момент отошел на перекус и ел сэндвич в парке, а получив результат, «был очень удивлен успехом» — предполагалось, что у этой версии не будет доступа в интернет. Не получив ответа, Mythos нашла другой способ привлечь к себе внимание: разместила подробную информацию о «побеге» на нескольких общедоступных веб-сайтах.
Модель сработала успешно, продемонстрировав потенциально опасную способность обходить наши меры предосторожности. Наша конечная цель — дать возможность клиентам безопасно пользоваться моделями класса Mythos. Для этого нам необходимо добиться прогресса в разработке мер предосторожности, которые блокируют наиболее опасные результаты работы модели.
отчет Anthropic
В Anthropic предупреждают: Mythos настолько мощная, что даже неспециалисты могут воспользоваться ее возможностями. В блоге компании говорится, что штатные инженеры без профильного образования в кибербезопасности смогли с помощью ИИ-модели написать полностью работающий
Ряд экспертов рекомендуют «не принимать заявления Anthropic за чистую монету» и предостерегают сообщество от «преждевременных выводов» — по крайней мере до тех пор, пока компания не опубликует отчет о перепроверке выявленных уязвимостей программистами-людьми и дополнительную информацию о частоте ошибок в работе самой Mythos. Но большинство инженеров, которым предоставили доступ к Claude Mythos Preview, сходятся во мнении, что технология представляет собой кардинальное изменение в области кибербезопасности: одна модель способна работать быстрее и эффективнее, чем сотни хакеров-людей.
До недавнего времени только опытные исследователи-люди, имеющие доступ к специализированным инструментам, могли находить серьезные уязвимости в системе безопасности. Теперь есть опасения, что мощная ИИ-модель сможет обнаружить их самостоятельно. Представьте себе орду ИИ-агентов, которые методично каталогизируют все слабые места в вашей технологической инфраструктуре.
Никеш Арора
исполнительный директорPalo Alto Networks
Что такое Project Glasswing и как будут использовать Claude Mythos Preview
Вместо того чтобы открыть доступ к Claude Mythos для всех пользователей, Anthropic запустила Project Glasswing — инициативу по кибербезопасности с участием технологических и финансовых гигантов. В этом списке есть конкуренты компании в области искусственного интеллекта — Google и Microsoft, поставщики оборудования — Cisco и Broadcom, а также игроки рынка, которые продвигают ПО с открытым исходным кодом, например Linux Foundation. Также в коалицию вошли Amazon, Apple, Nvidia, CrowdStrike, JPMorgan Chase и Palo Alto Networks. Им предоставят закрытый доступ к Mythos, чтобы они смогли найти и устранить уязвимости до того, как это сделают хакеры. В течение 90 дней Anthropic планирует опубликовать отчет о том, что стало известно в рамках инициативы.
Цель — повысить осведомленность о таких технологиях и дать опытным участникам рынка преимущество в обеспечении безопасности своей инфраструктуры.
Джаред Каплан
главный научный сотрудник Anthropic
В прошлом году в Anthropic сообщали, что хакеры использовали уязвимости в чат-боте Claude для проведения атак примерно на 30 организаций по всему миру. Более того, в ходе опроса, проведенного IBM и Palo Alto Networks, 67% топ-менеджеров заявили: в течение 2026 года их организации подвергались кибератакам, организованным с помощью ИИ.
По всему миру существует множество действительно важных систем — будь то физическая инфраструктура или средства защиты ваших персональных данных, которые работают на старых версиях кода. Если раньше они были в основном безопасны, потому что для их взлома требовалось много человеческих усилий, то актуальна ли эта парадигма до сих пор?
Логан Грэм
глава Frontier Red Team в Anthropic
По словам Грэма, в ближайшие 6–18 месяцев другие ИИ-компании выпустят модели, по возможностям сопоставимые с Mythos. Axios со ссылкой на источники сообщает, что, например, OpenAI уже завершает разработку подобной нейросети. Поэтому глава Anthropic Дарио Амодей уверен: рынку «необходим план реагирования на угрозы».
Зачем все это Anthropic
The New York Times пишет, что Anthropic занимает «необычное положение» на рынке искусственного интеллекта: стремится создавать все более мощные ИИ-инструменты и зарабатывает миллиарды долларов на продаже доступа к ним, но в то же время привлекает внимание к рискам технологии. К слову, прогнозируемая годовая выручка компании по итогам 2026-го достигла $30 млрд (для сравнения: в 2025-го она заработала $9 млрд). Такой скачок во многом связан с популярностью Claude — как инструмента программирования. Anthropic адаптировала чат-бота под запросы как профессиональных разработчиков, так и любителей вайб-кодинга. Но, помимо написания кода, система эффективна и в выявлении ошибок и уязвимостей. Этим уже могут воспользоваться хакеры, что станет репутационным ущербом для Anthropic. Поэтому компания, которая к тому же готовится выйти на IPO в октябре 2026-го, стремится продемонстрировать ответственное отношение к вопросам кибербезопасности.
О возможностях Mythos представители Anthropic проинформировали в том числе правительство США, сообщает CNN. По данным телеканала, компания предоставила свои услуги для «тестирования и оценки рисков». NBC News уточняет, что обсуждения проводятся с Агентством по кибербезопасности и защите инфраструктуры США (CISA) и Центром стандартов и инноваций в области ИИ (CAISI). Источники издания в Anthropic отмечают, что «раннее информирование властей было приоритетной задачей с самого начала».
Примечательно, что ранее Anthropic оказалась в центре конфликта с Пентагоном (об этом «Московские новости» подробно рассказывали здесь и здесь). После этого Белый дом включил разработчика Claude в список компаний, представляющих «угрозу для цепочки поставок». В ответ Anthropic обвинила Пентагон в нарушении Конституции и подала против ведомства два иска. Окончательного решения по ним пока нет: в конце марта федеральный судья в Сан-Франциско встал на сторону Anthropic, а 8 апреля федеральный апелляционный суд округа Колумбия пока отказался приостановить действие ограничений, наложенных на компанию.
Фото обложки: Anthropic / Firmbee Mockup