RoPE доказуемо не справляется с длинными контекстами: locality bias и согласованность токенов нарушаются

исследования официальный 1 ист. ~1 мин

Работа, поданная на NeurIPS 2026 (arXiv:2605.15514), формально доказывает два фундаментальных сбоя Rotary Positional Embeddings (RoPE) при больших контекстах: locality bias разрушается (модель не может надёжно отдавать предпочтение ближайшим токенам), а согласованность токенов нарушается (оценки attention для одного и того же токена различаются в зависимости от позиции). Авторы доказывают, что эти сбои находятся в прямом противоречии: изменение базового параметра RoPE устраняет один сбой ценой другого, не решая ни один из них.

Почему это важно

RoPE — это позиционное кодирование, используемое почти во всех крупных open-weight LLM (Llama, Mistral, Qwen, Gemma). Формальное доказательство теоретических сбоев при длинных контекстах мотивирует разработку альтернативных механизмов и объясняет наблюдаемые провалы производительности на задачах с длинными документами.

Важность: 4/5

Работа на NeurIPS 2026, формально доказывающая теоретический сбой позиционного кодирования, применяемого практически во всех крупных open-weight LLM

Источники