Что умеет DeepSeek-V4
Китайский разработчик представил предварительную версию
У DeepSeek-V4 есть две версии — V4-Pro и V4-Flash.
- V4-Pro усилили в решении логических и агентных задач. В тестах на общие знания о мире эта версия не дотягивает только до уровня Gemini-Pro-3.1 от Google. В тестах по математике, STEM и кодированию она превосходит все существующие опенсорсные ИИ и «соперничает» с лучшими в мире моделями с закрытым исходным кодом (ChatGPT, Claude и другими), утверждают разработчики. А по производительности она «не уступает» закрытым.
- V4-Flash — более легкая версия, ориентированная на массового пользователя и выполнение простых задач. Она «рассуждает» почти на уровне V4-Pro, но обеспечивает более высокую скорость отклика при меньших затратах, отмечают в DeepSeek.
The New York Times отмечает, что DeepSeek «отлично справляется» с написанием кода — все более и более важным навыком в мире ИИ. По оценкам Vals AI, эта модель действительно значительно превосходит все другие опенсорсные нейросети — по крайней мере в программировании. Но главным преимуществом DeepSeek по-прежнему остается открытый исходный код. Это значит, что сторонние разработчики могут свободно использовать и модифицировать ее — дорабатывать и настраивать под свои цели либо создавать новые ИИ-модели. Для этого не требуется больших финансовых вложений и вычислительных ресурсов, поэтому такой путь часто выбирают небольшие компании и стартапы. Так, к китайской модели обращаются инженеры и программисты с ограниченными бюджетами от Малайзии до Нигерии.
Обновленная версия DeepSeek вышла на следующий день после того, как Белый дом обвинил Китай в краже технологий ИИ в «промышленных масштабах». Правительство США якобы располагает информацией, указывающей на то, что иностранные организации с базой в КНР участвуют в целенаправленных масштабных кампаниях по
Что умеет GPT-5.5
В OpenAI считают GPT-5.5 «самой умной и интуитивно понятной в использовании моделью» на сегодняшний день. Она уже доступна платным подписчикам сервиса и пользователям приложения для разработчиков Codex. Ее предшественница, GPT-5.4, вышла совсем недавно — в начале марта. Тем не менее в компании утверждают, что обновленная версия значительно превосходит предыдущую в написании и отладке кода, онлайн-исследованиях, анализе данных и офисной работе, например в создании документов и электронных таблиц.
Главный акцент в GPT-5.5 сделали на агентских функциях — способности ИИ не просто отвечать на запросы, а самостоятельно управлять компьютером, планировать свои действия и выполнять сложные задачи без участия человека.
Вместо того чтобы тщательно контролировать и расписывать каждый шаг, вы можете поручить GPT-5.5 сложную задачу, состоящую из нескольких этапов, и доверить модели планирование, использование дополнительных инструментов и финальную проверку ее работы.
OpenAI
В бенчмарке GDPval, который оценивает производительность и качество работы ИИ-моделей в 44 профессиональных областях, GPT-5.5 превзошла людей-сотрудников или сравнялась с ними в 84,9% случаев. У GPT-5.4 был результат в 83%, а у конкурента от Anthropic (Claude Opus 4.7) — 80,3%. Соучредитель и президент OpenAI Грег Брокман отмечает, что новая модель «мыслит быстрее и острее», при этом тратит меньше токенов, то есть клиенты могут активнее использовать нейросеть и платить меньше за тот же результат. По словам Брокмана, выход GPT-5.5 приближает компанию к созданию «суперприложения» — десктопного сервиса, объединяющего ChatGPT, ИИ-браузер Atlas и платформу для программирования Codex. Предполагается, что его можно будет использовать в самом широком спектре задач — от написания кода до анализа больших объемов данных.
Обновление чат-бота — последний шаг в борьбе между OpenAI и Anthropic, которая становится все ожесточеннее с приближением срока выхода обеих компаний на IPO, пишет The Verge. Они конкурируют за лидерство на рынке корпоративных инструментов и ПО для искусственного интеллекта. Причем OpenAI недавно даже отказалась от «побочных» проектов (объявила о закрытии Sora и приостановила разработку эротического режима для ChatGPT) в пользу более прибыльных для бизнеса.
Что умеет Claude Opus 4.7
Anthropic выпустила новую версию флагманской ИИ-модели 16 апреля. Claude Opus 4.7 научили обрабатывать сложные и комплексные запросы и перепроверять собственный результат. Нейросеть теперь точнее следует инструкциям и лучше запоминает информацию на протяжении длительных проектов, состоящих из нескольких сессий. Более того, она может использовать старый контекст для решения новой задачи.
В тестах Opus 4.7 обогнала Opus 4.6 по всем показателям. В частности, обновленная версия прошла бенчмарк CursorBench (позволяет оценить эффективность ИИ в написании кода) с показателем успешности в 70%. Для сравнения: у Opus 4.6 было 58%.
Компания Anthropic уже установила стандарт моделей для написания кода, а Claude Opus 4.7 — как самая современная модель на рынке — значительно повышает его. В наших внутренних тестах Claude Opus 4.7 выделяется не только своими возможностями, но и тем, насколько хорошо он справляется с реальными асинхронными рабочими процессами — автоматизацией,
Игорь ОстровскийCI/CD и так далее. Модель также более глубоко задумывается о проблемах и предлагает более уверенную, самостоятельную точку зрения, а не просто соглашается с пользователем.
соучредитель Augment Code
По результатам 10 тестов, которые фигурируют в отчетах Anthropic и OpenAI, Opus 4.7 лидирует в шести из них, а GPT-5.5 — в четырех. Эксперты рекомендуют выбирать инструмент в зависимости от задач: GPT-5.5 использовать для глубокого ресерча, офисной рутины и агентских функций, а Opus 4.7 — для написания и оптимизации кода.
Фото обложки: Solen Feyissa / Unsplash












