Gemma 4 QAT: Google стиснула ШІ-моделі для смартфонів
Компанія Google продовжує розширювати можливості своїх моделей штучного інтелекту. Нещодавно вона анонсувала нові версії сімейства Gemma 4, які тепер оптимізовані за допомогою QAT (Quantization-Aware Training — Навчання з урахуванням квантування). Ця модель Gemma 4 QAT суттєво зменшує вимоги до памʼяті та максимізує продуктивність безпосередньо на пристроях.
За словами Олівʼє Лакомба (Olivier Lacombe), директора з управління продуктами Google DeepMind, та Омара Сансевʼєро (Omar Sanseviero), члена технічного персоналу Google DeepMind, нові моделі призначені для локального запуску на повсякденних периферійних пристроях та споживчих графічних процесорах. Це важливий крок у напрямку доступності високопродуктивного ШІ для широкого кола користувачів та розробників.
Переваги QAT
Квантування є ключовою технологією для запуску моделей на споживчому обладнанні. Воно дозволяє зменшити обсяг памʼяті та прискорити швидкість декодування. Стандартне PTQ (Post-Training Quantization — Квантування після навчання) часто призводить до зниження якості моделі, оскільки квантування відбувається вже після завершення навчання.
Натомість QAT інтегрує процес квантування безпосередньо у навчання, симулюючи його ще на етапі тренування. Такий підхід мінімізує втрату якості при стисненні моделі. Результати QAT демонструють значно вищу загальну якість порівняно зі стандартними PTQ-базовими показниками. Розробники застосували цей метод до популярного формату Q4_0, щоб максимізувати продуктивність для всіх моделей Gemma 4. Для периферійних моделей E2B та E4B було переосмислено підхід до квантування, застосувавши спеціалізовану мобільну схему.

Деталі мобільної оптимізації Gemma 4
Стандартні формати стиснення часто створюють труднощі для ефективної роботи мобільних процесорів. Щоб забезпечити безперебійну роботу Gemma 4 на мобільних пристроях, інженери Google розробили спеціальну схему мобільного квантування, призначену для периферійного обладнання. Така Gemma 4 QAT передбачає кілька ключових аспектів:
Оскільки аудіо- та відеокодери не потрібні у багатьох випадках використання, можна додатково оптимізувати памʼять, розгортаючи лише необхідні модальності. Наприклад, текстова модель Gemma 4 E2B (без Per-Layer Embeddings) вимагає менш як 1 ГБ памʼяті. Це справді помітно зменшує вимоги до ресурсів.
Доступність та інтеграція оптимізованих моделей
Щоб полегшити використання моделей Gemma 4 QAT у звичних робочих процесах, Google співпрацює з популярними інструментами розробників у всій екосистемі. Це забезпечує безперешкодну підтримку контрольних точок Gemma 4 QAT:
Загалом, нова модель Gemma 4 QAT відкриває ширші можливості для розробників, дозволяючи створювати більш продуктивні та енергоефективні застосунки зі штучним інтелектом. Це також означає, що передові можливості ШІ стають доступнішими для виконання безпосередньо на користувацьких пристроях, зменшуючи залежність від хмарних обчислень.
