#transformers
- Hugging Face Transformers: асинхронный continuous batching даёт прирост скорости инференса на 22% Hugging Face tools
- Структурное происхождение attention sink: расхождение дисперсий, суперн ейроны и исправление research
- Агентные трансформеры доказуемо обучаются поиску через обучение с подкреплением research