Passer au contenu principal
← Blog

Gemma 4 en local sur Apple Silicon : le guide sans bullshit

Gemma 4 tourne à 300 tokens/sec sur M2 Ultra. Apache 2.0, MoE 26B, dense 31B — comment installer et utiliser Gemma 4 en local via Ollama sur Mac.

Radnoumane Mossabely · · 10 min read · 8 vues
Gemma 4GoogleApple SiliconOllamaLLM localOpen Source

TL;DR

  • Gemma 4 (sortie 2 avril 2026) est la nouvelle famille de modèles open source de Google : E2B, E4B, 26B MoE et 31B Dense.
  • Licence Apache 2.0 — enfin du vrai open source, pas du "open weights avec restrictions".
  • Installation en 2 commandes via Ollama. Ça tourne sur n'importe quel Mac Apple Silicon.
  • Le 26B MoE atteint ~300 tokens/sec sur M2 Ultra (benchmark ggerganov). C'est absurde.
  • Pour du dev local, du RAG, de l'automatisation — Gemma 4 rend les APIs cloud de plus en plus optionnelles.

Google sort (enfin) un modèle qu'on peut vraiment utiliser

Bon, soyons honnêtes. La réputation de Google en open source IA, c'est pas terrible. Gemma 1 était sympa mais limité. Gemma 2 avait de bonnes perf mais la licence "pas-vraiment-open" refroidissait tout le monde.

Gemma 4, c'est différent. Et pas juste un peu.

Sortie le 2 avril 2026, la famille Gemma 4 arrive avec quatre variantes, une licence Apache 2.0 (la vraie, sans astérisques), et des performances qui mettent la pression à tout le monde — Qwen3, Mistral, Llama inclus.

Le truc qui m'a fait tilter : Georgi Gerganov (le créateur de llama.cpp) a benchmarké le modèle 26B MoE à ~300 tokens/seconde sur un M2 Ultra. Trois cents. Par seconde. C'est plus rapide que ce que la plupart des gens obtiennent via des APIs cloud.

La famille Gemma 4 : qui fait quoi

Gemma 4 n'est pas un modèle unique. C'est une famille de quatre modèles avec des trade-offs différents.

ModèleParamsTypeRAM minUsage principal
Gemma 4 E2B2BDense~4 GoEmbarqué, mobile, edge
Gemma 4 E4B4BDense~6 GoLaptop, tâches légères
Gemma 4 26B26BMoE~18 GoSweet spot local — le meilleur ratio perf/ressources
Gemma 4 31B31BDense~22 GoMax qualité, raisonnement complexe

Le 26B MoE (Mixture of Experts) est le modèle star. 26 milliards de paramètres au total, mais seule une fraction est activée à chaque inférence. Résultat : la qualité d'un modèle beaucoup plus gros, avec la vitesse d'un modèle beaucoup plus petit. C'est pour ça que ggerganov mesure 300 t/s — le MoE active seulement les experts pertinents, le reste dort.

Le 31B Dense est le choix quand tu veux la meilleure qualité brute et que t'as la RAM. Tous les paramètres activés à chaque token. Plus lent mais plus consistant.

Les E2B et E4B sont pour l'embarqué et les cas où chaque méga de RAM compte. Si t'as un MacBook Air avec 8 Go de RAM, le E4B tourne confortablement. Sur un iPhone ou un Raspberry Pi, le E2B fait le job.

Apache 2.0 : pourquoi c'est important

C'est le détail qui change tout. Les modèles précédents de Google (et de Meta avec Llama) venaient avec des licences restrictives : pas d'usage commercial au-dessus de X millions d'utilisateurs, pas de fine-tuning pour certains cas, pas de redistribution sans conditions.

Apache 2.0, c'est :

  • Usage commercial : sans restriction, sans plafond d'utilisateurs.
  • Modification : fine-tune, merge, distill — fais ce que tu veux.
  • Redistribution : intègre-le dans ton produit, vends-le, distribue-le.
  • Pas de reporting : tu n'as rien à déclarer à Google.

Pour les devs et les startups, c'est énorme. Tu peux construire un produit commercial sur Gemma 4 sans demander la permission à personne. Essaie de faire ça avec GPT-4 ou Claude.

Installation sur Mac en 2 minutes

Prérequis : un Mac avec Apple Silicon (M1 ou plus récent). C'est tout.

Étape 1 : Installer Ollama

Si t'as pas encore Ollama :

hljs bash
brew install ollama

Ou télécharge depuis ollama.com. Lance l'app ou le service :

hljs bash
ollama serve

Étape 2 : Tirer le modèle

Pour le 26B MoE (recommandé si tu as 32 Go+ de RAM) :

hljs bash
ollama pull gemma4:26b

Pour le 31B Dense (si tu veux le max de qualité et que t'as la RAM) :

hljs bash
ollama pull gemma4:31b

Pour le E4B (MacBook Air / 8-16 Go de RAM) :

hljs bash
ollama pull gemma4:4b

Le téléchargement prend quelques minutes selon ta connexion. Le 26B pèse environ 15 Go en quantifié Q4.

Étape 3 : Lancer et tester

hljs bash
ollama run gemma4:26b

Tu es dans le chat. Teste :

>>> Explique-moi les Mixture of Experts en 3 phrases simples.

Pour l'utiliser via API (pour tes scripts, apps, etc.) :

hljs bash
curl http://localhost:11434/api/generate -d '{
  "model": "gemma4:26b",
  "prompt": "Explique le pattern MoE en 3 phrases.",
  "stream": false
}'

C'est tout. Pas de compte, pas de clé API, pas de facturation. Le modèle tourne sur ta machine, tes données restent chez toi.

Benchmarks Apple Silicon : les chiffres

Voici ce que la communauté mesure depuis la sortie. Les chiffres varient selon la quantification et la charge mémoire, mais l'ordre de grandeur est fiable.

MachineModèleTokens/secNotes
M2 Ultra (192 Go)26B MoE Q4~300 t/sBenchmark ggerganov
M4 Max (64 Go)26B MoE Q4~180 t/sUsage normal
M3 Pro (36 Go)26B MoE Q4~90 t/sCorrect pour du dev
M2 MacBook Air (16 Go)E4B Q4~45 t/sFluide pour du chat
M1 MacBook Air (8 Go)E2B Q8~30 t/sLe minimum viable

Le 26B MoE à 300 t/s sur M2 Ultra est le chiffre qui fait les gros titres, et à raison. Pour contexte, GPT-4o via l'API te donne environ 80-100 t/s. Gemma 4 en local est littéralement plus rapide que les APIs cloud pour la plupart des gens.

Sur un setup plus courant — M3 Pro ou M4 — t'es à 90-180 t/s avec le 26B. C'est largement suffisant pour du développement interactif, du RAG, ou de l'automatisation.

Gemma 4 vs la concurrence

Comparons honnêtement avec les autres modèles open source de la même catégorie.

CritèreGemma 4 26B MoEQwen3 32BMistral MediumLlama 3.3 70B
LicenceApache 2.0Qwen LicenseApache 2.0Llama Community
Params actifs~8B (MoE)32B~32B70B
Vitesse M4 Max~180 t/s~60 t/s~55 t/s~25 t/s
RAM minimale~18 Go~22 Go~22 Go~42 Go
CodeTrès bonExcellentBonTrès bon
RaisonnementBonTrès bonBonExcellent
MultilingueTrès bonExcellent (CJK)BonBon

Le verdict :

  • Gemma 4 26B MoE gagne sur la vitesse et l'efficacité mémoire. Le ratio qualité/ressources est le meilleur du marché. Si tu veux un modèle rapide qui tourne sur un Mac "normal", c'est lui.
  • Qwen3 32B gagne sur la qualité brute, surtout en code et en raisonnement. Mais il est 3x plus lent et demande plus de RAM.
  • Llama 3.3 70B est le meilleur en raisonnement pur, mais il faut 42+ Go de RAM et c'est lent. Pas pratique en local sauf sur un Ultra ou un Studio.
  • Mistral Medium est un bon all-rounder mais n'a pas d'avantage clair face à Gemma 4.

Quand utiliser Gemma 4 vs une API cloud

La question que tout le monde se pose : "Est-ce que je peux remplacer ChatGPT/Claude par Gemma 4 en local ?"

Oui, pour :

  • Du développement assisté (complétion, refactoring, explication de code).
  • Du RAG (Retrieval-Augmented Generation) sur tes documents.
  • De l'automatisation (scripts, pipelines, traitement de texte).
  • Du prototypage et de l'expérimentation.
  • Tout ce qui touche à la vie privée (données sensibles, code propriétaire).
  • Les cas où la latence réseau est un problème.

Non, pas encore pour :

  • Du raisonnement long et complexe (planning multi-étapes, analyse de codebase entière). Claude Opus 4 reste supérieur ici.
  • Du coding sur des codebases géantes avec 100+ fichiers. La fenêtre de contexte des modèles locaux est encore limitée.
  • Des tâches où la qualité maximale absolue est critique (production, médical, légal).
  • Du multimodal avancé (analyse d'images complexes, génération).

Mon setup actuel : Gemma 4 26B en local pour 80% du quotidien, Claude via API pour les 20% de tâches complexes qui nécessitent le meilleur modèle disponible. Le ratio coût/valeur est imbattable.

Mon avis : le local AI vient de franchir un cap

Je vais être direct : Gemma 4 est le premier modèle open source que j'utiliserais en production sans hésiter pour des tâches standard.

Pas parce qu'il est meilleur que GPT-4o ou Claude sur tous les critères — il ne l'est pas. Mais parce que le combo performances + vitesse + licence + coût (zéro) rend le calcul évident pour 80% des use cases.

Il y a un an, faire tourner un LLM en local c'était un compromis permanent : soit c'était lent, soit c'était nul, soit les deux. Le E4B de Gemma 4 sur un MacBook Air de base te donne une expérience fluide et des résultats corrects. Le 26B MoE sur un Mac avec 32+ Go de RAM te donne une expérience qui rivalise avec les APIs cloud.

Ce qui me rend optimiste pour la suite :

  • Apple pousse le local : les puces M continuent de gagner en bande passante mémoire, et c'est le bottleneck pour l'inférence LLM.
  • Le MoE change la donne : activer seulement les experts pertinents, c'est le hack qui permet d'avoir la qualité sans le coût computationnel.
  • L'écosystème mûrit : Ollama, llama.cpp, vLLM — les outils pour faire tourner des modèles locaux sont de plus en plus plug-and-play.
  • La licence Apache 2.0 ouvre la porte à un écosystème de fine-tuning et de spécialisation que les licences restrictives bloquaient.

Le vibe coding avec un modèle local qui te coûte zéro en inférence, qui ne rate-limit jamais, et qui garde tes données en local — c'est là qu'on en est en avril 2026. Et franchement, ça envoie.

Ressources