Насколько прозрачна DiffusionGemma? Исследование интерпретируемости сокращает разрыв с авторегрессионными моделями
Google DeepMind
Статья исследует, сложнее ли интерпретировать DiffusionGemma — маскированную дискретно-диффузионную языковую модель с рассуждением в непрерывном латентном пространстве — по сравнению с авторегрессионными моделями. Пропуская промежуточные состояния денойзинга через интерпретируемое токенное узкое место, авторы сократили кажущийся разрыв в прозрачности с 28,6× до 1,1× относительно Gemma 4, а также выявили специфичные для диффузии феномены: нехронологическое рассуждение и смазывание токенов. Среди соавторов — Neel Nanda и Rohin Shah.
Почему это важно
Первое систематическое исследование механистической интерпретируемости диффузионной языковой модели производственного масштаба с прямыми последствиями для мониторинга безопасности ИИ по мере распространения диффузионных LM.
Важность: 3/5
Первое mech-interp исследование производственной диффузионной LM; авторы — Neel Nanda и Rohin Shah; закрывает критический пробел в исследованиях мониторируемости диффузионного инференса.