1 мая 2026

5 пунктов · ⏱ ~5 мин · неделя 2026-W18

📘 Worth-knowing (2)

models-llm

Baidu выпустил ERNIE-5.1-Preview — №1 среди китайских моделей на LMArena

Baidu
✓ verified 2 src ⏱ 1 мин models-llm

30 апреля 2026 Baidu представил предварительную версию ERNIE-5.1-Preview. Модель дебютировала на 13-м месте глобального рейтинга LMArena Text Arena со счётом 1476 и стала №1 среди китайских моделей, обогнав DeepSeek-V4-Pro. По заявлению Baidu, модель использует около трети от общих параметров и половину активных параметров ERNIE-5.0 при ~6% затрат на pre-training сопоставимых моделей. Полная версия ERNIE 5.1 ожидается на конференции Baidu Create.

Почему это важно

Подтверждает резкое ускорение китайской гонки вслед за DeepSeek V4: Baidu заявляет лидерство среди китайских лабораторий на LMArena при существенно меньшей стоимости обучения.

tools

OpenAI Codex CLI 0.128.0 — persisted /goal-воркфлоу и расширенные permission-профили

OpenAI
✓ official 2 src ⏱ 1 мин tools

OpenAI выпустила stable-релиз Codex CLI v0.128.0 после серии alpha-версий 0.126.x. Главное нововведение — persisted /goal workflows: long-running цели хранятся через app-server API, доступны как model tools, поддерживают runtime-continuation и имеют отдельные TUI-контролы. Расширены permission-профили со встроенными defaults и выбором sandbox-профиля прямо из CLI; флаг --full-auto deprecated в пользу явных permission-профилей. Улучшены plugin-воркфлоу (установка из marketplace, кэш remote-bundle), добавлен импорт сессий внешних агентов с background-import. MultiAgentV2 получил настраиваемые thread caps и wait-time.

Почему это важно

Persisted /goal превращает Codex CLI из stateless-помощника в платформу для долгоживущих автономных задач, конкурируя с Claude Code и Cursor за background-агентов.

📎 Reference (3)

research

AutoResearchBench — бенчмарк автономного поиска научной литературы для AI-агентов

BAAI
✓ verified 2 src ⏱ 1 мин research

Опубликован новый бенчмарк для оценки агентов на задаче автономного поиска и обзора научных публикаций. Содержит две комплементарные постановки: Deep Research (multi-step расследование, ведущее к конкретной целевой статье) и Wide Research (полный сбор публикаций по заданным критериям, метрика — IoU). Даже сильнейшие LLM-агенты выбивают лишь 9.39% accuracy на Deep Research и 9.31% IoU на Wide Research.

Почему это важно

Закрывает методологическую дыру между общими web-агентами и реальной работой исследователя; цифры в районе 9% задают потолок, от которого можно мерить прогресс research-агентов в 2026.

tools

Claude Code 2.1.126 — project purge, model picker через gateway, security-фиксы

Anthropic
✓ official 2 src ⏱ 1 мин tools

Anthropic выпустила Claude Code 2.1.126. Появилась команда `claude project purge [path]` для полной очистки состояния (transcripts, tasks, file history, config). Model picker теперь подтягивает список моделей из эндпоинта /v1/models совместимого gateway, если задан ANTHROPIC_BASE_URL. Флаг --dangerously-skip-permissions теперь действительно обходит подтверждения для записи в защищённые пути (.claude/, .git/, .vscode/). Закрыты регрессии в allowManagedDomainsOnly/allowManagedReadPathsOnly, картинки больше 2000px автоматически уменьшаются при вставке.

Почему это важно

Накопительный фикс-релиз закрывает несколько security-регрессий в permission-allowlist и упрощает работу через корпоративные gateway.

OpenCode v1.14.31 — интерактивный Azure setup и наследование permissions у task-сессий

SST
✓ official 1 src ⏱ 1 мин tools

SST выпустила opencode v1.14.31 (1 мая 2026). Добавлен интерактивный Azure setup с запросом resource-name и сохранением API-key. Task child-сессии теперь наследуют permissions от родительской сессии. Введены понятные ошибки для невалидных remote MCP URL. Починен краш Desktop-приложения при восстановлении сессий с отсутствующими моделями.

Почему это важно

Один из немногих open-source coding-агентов, активно догоняющий Claude Code и Codex по фичам; релизы выходят день-в-день.