КиберпанкДеталиТехнологии

Офисная рутина, программирование и функции ИИ-агента: на что способны новые версии ChatGPT, DeepSeek и Claude

За последнюю неделю свои флагманские ИИ-модели обновили три крупных игрока — DeepSeek, OpenAI и Anthropic. Они натаскивают нейросети на написание кода и агентские функции — главные тренды в мире искусственного интеллекта на сегодняшний день. Разбираемся, что нового разработчики предлагают пользователям и кто лидирует в этой гонке.

Что умеет DeepSeek-V4

Китайский разработчик представил предварительную версию DeepSeek-V4. Reuters называет обновление «долгожданным» — предыдущая нашумевшая версия V3 вышла в декабре 2024 года. А в DeepSeek утверждают, что это самая мощная ИИ-модель с открытым исходным кодом среди существующих. 

У DeepSeek-V4 есть две версии — V4-Pro и V4-Flash. 

  • V4-Pro усилили в решении логических и агентных задач. В тестах на общие знания о мире эта версия не дотягивает только до уровня Gemini-Pro-3.1 от Google. В тестах по математике, STEM и кодированию она превосходит все существующие опенсорсные ИИ и «соперничает» с лучшими в мире моделями с закрытым исходным кодом (ChatGPT, Claude и другими), утверждают разработчики. А по производительности она «не уступает» закрытым. 
  • V4-Flash — более легкая версия, ориентированная на массового пользователя и выполнение простых задач. Она «рассуждает» почти на уровне V4-Pro, но обеспечивает более высокую скорость отклика при меньших затратах, отмечают в DeepSeek. 

The New York Times отмечает, что DeepSeek «отлично справляется» с написанием кода — все более и более важным навыком в мире ИИ. По оценкам Vals AI, эта модель действительно значительно превосходит все другие опенсорсные нейросети — по крайней мере в программировании. Но главным преимуществом DeepSeek по-прежнему остается открытый исходный код. Это значит, что сторонние разработчики могут свободно использовать и модифицировать ее — дорабатывать и настраивать под свои цели либо создавать новые ИИ-модели. Для этого не требуется больших финансовых вложений и вычислительных ресурсов, поэтому такой путь часто выбирают небольшие компании и стартапы. Так, к китайской модели обращаются инженеры и программисты с ограниченными бюджетами от Малайзии до Нигерии. 

Обновленная версия DeepSeek вышла на следующий день после того, как Белый дом обвинил Китай в краже технологий ИИ в «промышленных масштабах». Правительство США якобы располагает информацией, указывающей на то, что иностранные организации с базой в КНР участвуют в целенаправленных масштабных кампаниях по «дистилляции» американских систем. Ранее Microsoft и OpenAI обвиняли конкретно DeepSeek в краже данных и использовании работы других языковых моделей.

Что умеет GPT-5.5

В OpenAI считают GPT-5.5 «самой умной и интуитивно понятной в использовании моделью» на сегодняшний день. Она уже доступна платным подписчикам сервиса и пользователям приложения для разработчиков Codex. Ее предшественница, GPT-5.4, вышла совсем недавно — в начале марта. Тем не менее в компании утверждают, что обновленная версия значительно превосходит предыдущую в написании и отладке кода, онлайн-исследованиях, анализе данных и офисной работе, например в создании документов и электронных таблиц. 

Главный акцент в GPT-5.5 сделали на агентских функциях — способности ИИ не просто отвечать на запросы, а самостоятельно управлять компьютером, планировать свои действия и выполнять сложные задачи без участия человека.

Вместо того чтобы тщательно контролировать и расписывать каждый шаг, вы можете поручить GPT-5.5 сложную задачу, состоящую из нескольких этапов, и доверить модели планирование, использование дополнительных инструментов и финальную проверку ее работы. 

OpenAI 

В бенчмарке GDPval, который оценивает производительность и качество работы ИИ-моделей в 44 профессиональных областях, GPT-5.5 превзошла людей-сотрудников или сравнялась с ними в 84,9% случаев. У GPT-5.4 был результат в 83%, а у конкурента от Anthropic (Claude Opus 4.7) — 80,3%. Соучредитель и президент OpenAI Грег Брокман отмечает, что новая модель «мыслит быстрее и острее», при этом тратит меньше токенов, то есть клиенты могут активнее использовать нейросеть и платить меньше за тот же результат. По словам Брокмана, выход GPT-5.5 приближает компанию к созданию «суперприложения» — десктопного сервиса, объединяющего ChatGPT, ИИ-браузер Atlas и платформу для программирования Codex. Предполагается, что его можно будет использовать в самом широком спектре задач — от написания кода до анализа больших объемов данных. 

Обновление чат-бота — последний шаг в борьбе между OpenAI и Anthropic, которая становится все ожесточеннее с приближением срока выхода обеих компаний на IPO, пишет The Verge. Они конкурируют за лидерство на рынке корпоративных инструментов и ПО для искусственного интеллекта. Причем OpenAI недавно даже отказалась от «побочных» проектов (объявила о закрытии Sora и приостановила разработку эротического режима для ChatGPT) в пользу более прибыльных для бизнеса. 

Что умеет Claude Opus 4.7

Anthropic выпустила новую версию флагманской ИИ-модели 16 апреля. Claude Opus 4.7 научили обрабатывать сложные и комплексные запросы и перепроверять собственный результат. Нейросеть теперь точнее следует инструкциям и лучше запоминает информацию на протяжении длительных проектов, состоящих из нескольких сессий. Более того, она может использовать старый контекст для решения новой задачи. 

В тестах Opus 4.7 обогнала Opus 4.6 по всем показателям. В частности, обновленная версия прошла бенчмарк CursorBench (позволяет оценить эффективность ИИ в написании кода) с показателем успешности в 70%. Для сравнения: у Opus 4.6 было 58%. 

Компания Anthropic уже установила стандарт моделей для написания кода, а Claude Opus 4.7 — как самая современная модель на рынке — значительно повышает его. В наших внутренних тестах Claude Opus 4.7 выделяется не только своими возможностями, но и тем, насколько хорошо он справляется с реальными асинхронными рабочими процессами — автоматизацией, CI/CD и так далее. Модель также более глубоко задумывается о проблемах и предлагает более уверенную, самостоятельную точку зрения, а не просто соглашается с пользователем.

Игорь Островский
соучредитель Augment Code 

По результатам 10 тестов, которые фигурируют в отчетах Anthropic и OpenAI, Opus 4.7 лидирует в шести из них, а GPT-5.5 — в четырех. Эксперты рекомендуют выбирать инструмент в зависимости от задач: GPT-5.5 использовать для глубокого ресерча, офисной рутины и агентских функций, а Opus 4.7 — для написания и оптимизации кода. 

Фото обложки: Solen Feyissa / Unsplash

Копировать ссылкуСкопировано