1 мая 2026
📘 Worth-knowing (2)
models-llm
Baidu выпустил ERNIE-5.1-Preview — №1 среди китайских моделей на LMArena
Baidu30 апреля 2026 Baidu представил предварительную версию ERNIE-5.1-Preview. Модель дебютировала на 13-м месте глобального рейтинга LMArena Text Arena со счётом 1476 и стала №1 среди китайских моделей, обогнав DeepSeek-V4-Pro. По заявлению Baidu, модель использует около трети от общих параметров и половину активных параметров ERNIE-5.0 при ~6% затрат на pre-training сопоставимых моделей. Полная версия ERNIE 5.1 ожидается на конференции Baidu Create.
Почему это важно
Подтверждает резкое ускорение китайской гонки вслед за DeepSeek V4: Baidu заявляет лидерство среди китайских лабораторий на LMArena при существенно меньшей стоимости обучения.
tools
OpenAI Codex CLI 0.128.0 — persisted /goal-воркфлоу и расширенные permission-профили
OpenAIOpenAI выпустила stable-релиз Codex CLI v0.128.0 после серии alpha-версий 0.126.x. Главное нововведение — persisted /goal workflows: long-running цели хранятся через app-server API, доступны как model tools, поддерживают runtime-continuation и имеют отдельные TUI-контролы. Расширены permission-профили со встроенными defaults и выбором sandbox-профиля прямо из CLI; флаг --full-auto deprecated в пользу явных permission-профилей. Улучшены plugin-воркфлоу (установка из marketplace, кэш remote-bundle), добавлен импорт сессий внешних агентов с background-import. MultiAgentV2 получил настраиваемые thread caps и wait-time.
Почему это важно
Persisted /goal превращает Codex CLI из stateless-помощника в платформу для долгоживущих автономных задач, конкурируя с Claude Code и Cursor за background-агентов.
📎 Reference (3)
research
AutoResearchBench — бенчмарк автономного поиска научной литературы для AI-агентов
BAAIОпубликован новый бенчмарк для оценки агентов на задаче автономного поиска и обзора научных публикаций. Содержит две комплементарные постановки: Deep Research (multi-step расследование, ведущее к конкретной целевой статье) и Wide Research (полный сбор публикаций по заданным критериям, метрика — IoU). Даже сильнейшие LLM-агенты выбивают лишь 9.39% accuracy на Deep Research и 9.31% IoU на Wide Research.
Почему это важно
Закрывает методологическую дыру между общими web-агентами и реальной работой исследователя; цифры в районе 9% задают потолок, от которого можно мерить прогресс research-агентов в 2026.
tools
Claude Code 2.1.126 — project purge, model picker через gateway, security-фиксы
AnthropicAnthropic выпустила Claude Code 2.1.126. Появилась команда `claude project purge [path]` для полной очистки состояния (transcripts, tasks, file history, config). Model picker теперь подтягивает список моделей из эндпоинта /v1/models совместимого gateway, если задан ANTHROPIC_BASE_URL. Флаг --dangerously-skip-permissions теперь действительно обходит подтверждения для записи в защищённые пути (.claude/, .git/, .vscode/). Закрыты регрессии в allowManagedDomainsOnly/allowManagedReadPathsOnly, картинки больше 2000px автоматически уменьшаются при вставке.
Почему это важно
Накопительный фикс-релиз закрывает несколько security-регрессий в permission-allowlist и упрощает работу через корпоративные gateway.
OpenCode v1.14.31 — интерактивный Azure setup и наследование permissions у task-сессий
SSTSST выпустила opencode v1.14.31 (1 мая 2026). Добавлен интерактивный Azure setup с запросом resource-name и сохранением API-key. Task child-сессии теперь наследуют permissions от родительской сессии. Введены понятные ошибки для невалидных remote MCP URL. Починен краш Desktop-приложения при восстановлении сессий с отсутствующими моделями.
Почему это важно
Один из немногих open-source coding-агентов, активно догоняющий Claude Code и Codex по фичам; релизы выходят день-в-день.