#quantization
- Google DeepMind публикует QAT-чекпоинты Gemma 4: модель E2B занимает менее 1 ГБ на устройстве Google DeepMind models-llm
- LongLive-2.0: параллельная инфраструктура NVFP4 для генерации длинных видео (NVIDIA, 1220 апвоутов на HF) NVIDIA research
- llama.cpp b9603: OpenCL-ядра Qualcomm Adreno для инференса на устройстве ggml-org tools