Насколько прозрачна DiffusionGemma? Исследование интерпретируемости сокращает разрыв с авторегрессионными моделями

Google DeepMind

исследования офиц. + СМИ 2 ист. ~1 мин

Статья исследует, сложнее ли интерпретировать DiffusionGemma — маскированную дискретно-диффузионную языковую модель с рассуждением в непрерывном латентном пространстве — по сравнению с авторегрессионными моделями. Пропуская промежуточные состояния денойзинга через интерпретируемое токенное узкое место, авторы сократили кажущийся разрыв в прозрачности с 28,6× до 1,1× относительно Gemma 4, а также выявили специфичные для диффузии феномены: нехронологическое рассуждение и смазывание токенов. Среди соавторов — Neel Nanda и Rohin Shah.

Почему это важно

Первое систематическое исследование механистической интерпретируемости диффузионной языковой модели производственного масштаба с прямыми последствиями для мониторинга безопасности ИИ по мере распространения диффузионных LM.

Важность: 3/5

Первое mech-interp исследование производственной диффузионной LM; авторы — Neel Nanda и Rohin Shah; закрывает критический пробел в исследованиях мониторируемости диффузионного инференса.

interpretability mech-interp safety monitorability diffusion-gemma

Источники

официальный How Transparent is DiffusionGemma?

вторичный How transparent is DiffusionGemma (and why it matters) — LessWrong