quantization — AI Digest

8 июн Google DeepMind публикует QAT-чекпоинты Gemma 4: модель E2B занимает менее 1 ГБ на устройстве Google DeepMind models-llm
19 мая LongLive-2.0: параллельная инфраструктура NVFP4 для генерации длинных видео (NVIDIA, 1220 апвоутов на HF) NVIDIA research
12 июн llama.cpp b9603: OpenCL-ядра Qualcomm Adreno для инференса на устройстве ggml-org tools