-
xAI выпустила Grok 4.3 с контекстом 1M токенов, снижением цен на 40–60% и улучшенными результатами в агентных бенчмарках
xAI
models-llm
-
Codex-Spark (GPT-5.3-Codex-Spark) Research Preview: модель для кодирования с 1000+ токенов/сек
OpenAI
tools
-
Gemini 3.5 Flash Released at Google I/O 2026: Frontier Coding + Agentic at Flash Speed
Google DeepMind
models-llm
-
NVIDIA Nemotron 3 Ultra: открытая модель 550B MoE теперь доступна для агентных задач
NVIDIA
models-llm
-
Zyphra выпускает ZAYA1-8B: открытая рассуждающая MoE-модель, обученная на оборудовании AMD
Zyphra
models-llm
-
JetBrains публикует исходный код Mellum2: 12B MoE-модель для кодирования в мульти-модельных пайплайнах
JetBrains
models-llm
-
Kimi K2.7-Code HighSpeed: рост производительности в 6× для продакшн-пайплайнов агентов по коду
Moonshot AI
models-llm
-
AWS Summit New York 2026: общая доступность Bedrock AgentCore, iOS-предпросмотр Kiro и анонс AWS Context
Amazon
tools
-
LongLive-2.0: параллельная инфраструктура NVFP4 для генерации длинных видео (NVIDIA, 1220 апвоутов на HF)
NVIDIA
research
-
MiniMax Sparse Attention: сокращение вычислений в 28 раз при контексте 1M токенов без потери качества
MiniMax
research
-
SGLang v0.5.11: Speculative Decoding V2 по умолчанию и поддержка восьми новых архитектур
tools
-
vLLM v0.20.2: TurboQuant 2-bit KV Cache и FlashAttention 4 по умолчанию для MoE-инференса
tools
-
Hugging Face Transformers: асинхронный continuous batching даёт прирост скорости инференса на 22%
Hugging Face
tools
-
Orthrus: 7,8-кратное ускорение инференса для Qwen3 за счёт совместного использования KV-кеша AR и диффузии
research
-
vLLM v0.21.0: MLA-бэкенд для Blackwell, KV-выгрузка через HMA, speculative decoding для reasoning-моделей
vLLM Project
tools
-
vLLM v0.22.0: производственное укрепление DeepSeek V4, Rust-фронтенд, снижение задержки на 28,9%
tools
-
vLLM Semantic Router v0.3 Themis: производственная маршрутизация с сохранением состояния и Session-Aware Agentic Routing
tools
-
vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов
MiniMax
tools
-
vLLM v0.23.0: Model Runner V2 по умолчанию для Llama и Mistral, Transformers v5, многоуровневый KV-кэш
tools
-
vLLM v0.20.0 — третий релиз за две недели
vLLM
tools
-
TIDE: кросс-архитектурная дистилляция для диффузионных LLM
Peking University
research
-
ESamp: LLM исследуют через latent distilling для семплирования по семантической новизне
ShanghaiTech University
research
-
AutoTTS: LLM-агенты автоматически открывают стратегии test-time scaling за $40
research
-
BadHost (CVE-2026-48710): обход аутентификации через Host-заголовок в Starlette затрагивает vLLM, LiteLLM и MCP-серверы
tools
-
Ollama v0.23.0 добавляет поддержку Claude Desktop через Ollama Launch
Ollama
tools
-
vLLM v0.20.1 устраняет критическую нестабильность DeepSeek V4 под производственными нагрузками
vLLM Project
tools
-
vLLM v0.20.1: стабилизация DeepSeek V4 на CUDA 13 и PyTorch 2.11
tools
-
Ollama v0.23.1: MTP-спекулятивное декодирование Gemma 4 даёт ускорение в 2× на Apple Silicon
tools
-
ИИ-распознавание персонажей в VK Video увеличило время просмотра на 9% с помощью каскадного определения лиц
VK AI
tools
-
LongSeeker: эластичная оркестрация контекста для агентов долгосрочного поиска
Shanghai Jiao Tong University
research
-
llama.cpp b9085: flash attention для MiMo-V2.5 и поддержка Vertex AI Server
tools
-
vLLM v0.21.0rc1: поддержка Python 3.14, CUDA 13.0 и Transformers v5
tools
-
TMAS: масштабирование тестового вычисления через синергию мультиагентов с иерархической памятью
research
-
vLLM v0.21.0rc1: поддержка PyTorch 2.11, HuggingFace Transformers v5 и Python 3.14
tools
-
Ollama v0.24.0: интеграция с Codex App и улучшения MLX-семплера
Ollama
tools
-
llama.cpp b9161/b9169: совместимость с Codex CLI и мультимодальная поддержка Qwen3A
ggml-org
tools
-
BetaPRM: process rewards с учётом неопределённости сокращают расход reasoning-токенов на 33%
research
-
Code2LoRA: гиперсеть генерирует репозиторно-специфичные адаптеры для code LM без накладных расходов на инференс
University of Waterloo
research
-
Ollama v0.30.7: поддержка Hermes Desktop, Gemma 4 QAT и Nemotron-3-Ultra
Ollama
tools
-
llama.cpp b9589–b9592: исправление синхронизации CUDA SSM и оптимизация памяти Mamba
tools
-
llama.cpp b9603: OpenCL-ядра Qualcomm Adreno для инференса на устройстве
ggml-org
tools
-
Ollama v0.30.9: поддержка Cohere2Moe, исправлен баг с одиночным токеном в coding-агентах
tools
-
llama.cpp, сборки от 16 июня: спекулятивное декодирование Eagle3, память Vulkan UMA, исправления NVFP4
tools
-
llama.cpp b9716: мультимодальный батчинг InternVL, CUDA col2im и исправление SSE для Nginx
tools
-
llama.cpp добавляет поддержку gpt-oss-20b в сборке от 12 мая
tools
-
Ollama v0.23.3: исправления MLX runner и совместимость с Metal в macOS 26
Ollama
tools