TL;DR
- Gemma 4 (sortie 2 avril 2026) est la nouvelle famille de modèles open source de Google : E2B, E4B, 26B MoE et 31B Dense.
- Licence Apache 2.0 — enfin du vrai open source, pas du "open weights avec restrictions".
- Installation en 2 commandes via Ollama. Ça tourne sur n'importe quel Mac Apple Silicon.
- Le 26B MoE atteint ~300 tokens/sec sur M2 Ultra (benchmark ggerganov). C'est absurde.
- Pour du dev local, du RAG, de l'automatisation — Gemma 4 rend les APIs cloud de plus en plus optionnelles.
Google sort (enfin) un modèle qu'on peut vraiment utiliser
Bon, soyons honnêtes. La réputation de Google en open source IA, c'est pas terrible. Gemma 1 était sympa mais limité. Gemma 2 avait de bonnes perf mais la licence "pas-vraiment-open" refroidissait tout le monde.
Gemma 4, c'est différent. Et pas juste un peu.
Sortie le 2 avril 2026, la famille Gemma 4 arrive avec quatre variantes, une licence Apache 2.0 (la vraie, sans astérisques), et des performances qui mettent la pression à tout le monde — Qwen3, Mistral, Llama inclus.
Le truc qui m'a fait tilter : Georgi Gerganov (le créateur de llama.cpp) a benchmarké le modèle 26B MoE à ~300 tokens/seconde sur un M2 Ultra. Trois cents. Par seconde. C'est plus rapide que ce que la plupart des gens obtiennent via des APIs cloud.
La famille Gemma 4 : qui fait quoi
Gemma 4 n'est pas un modèle unique. C'est une famille de quatre modèles avec des trade-offs différents.
| Modèle | Params | Type | RAM min | Usage principal |
|---|---|---|---|---|
| Gemma 4 E2B | 2B | Dense | ~4 Go | Embarqué, mobile, edge |
| Gemma 4 E4B | 4B | Dense | ~6 Go | Laptop, tâches légères |
| Gemma 4 26B | 26B | MoE | ~18 Go | Sweet spot local — le meilleur ratio perf/ressources |
| Gemma 4 31B | 31B | Dense | ~22 Go | Max qualité, raisonnement complexe |
Le 26B MoE (Mixture of Experts) est le modèle star. 26 milliards de paramètres au total, mais seule une fraction est activée à chaque inférence. Résultat : la qualité d'un modèle beaucoup plus gros, avec la vitesse d'un modèle beaucoup plus petit. C'est pour ça que ggerganov mesure 300 t/s — le MoE active seulement les experts pertinents, le reste dort.
Le 31B Dense est le choix quand tu veux la meilleure qualité brute et que t'as la RAM. Tous les paramètres activés à chaque token. Plus lent mais plus consistant.
Les E2B et E4B sont pour l'embarqué et les cas où chaque méga de RAM compte. Si t'as un MacBook Air avec 8 Go de RAM, le E4B tourne confortablement. Sur un iPhone ou un Raspberry Pi, le E2B fait le job.
Apache 2.0 : pourquoi c'est important
C'est le détail qui change tout. Les modèles précédents de Google (et de Meta avec Llama) venaient avec des licences restrictives : pas d'usage commercial au-dessus de X millions d'utilisateurs, pas de fine-tuning pour certains cas, pas de redistribution sans conditions.
Apache 2.0, c'est :
- Usage commercial : sans restriction, sans plafond d'utilisateurs.
- Modification : fine-tune, merge, distill — fais ce que tu veux.
- Redistribution : intègre-le dans ton produit, vends-le, distribue-le.
- Pas de reporting : tu n'as rien à déclarer à Google.
Pour les devs et les startups, c'est énorme. Tu peux construire un produit commercial sur Gemma 4 sans demander la permission à personne. Essaie de faire ça avec GPT-4 ou Claude.
Installation sur Mac en 2 minutes
Prérequis : un Mac avec Apple Silicon (M1 ou plus récent). C'est tout.
Étape 1 : Installer Ollama
Si t'as pas encore Ollama :
brew install ollama
Ou télécharge depuis ollama.com. Lance l'app ou le service :
ollama serve
Étape 2 : Tirer le modèle
Pour le 26B MoE (recommandé si tu as 32 Go+ de RAM) :
ollama pull gemma4:26b
Pour le 31B Dense (si tu veux le max de qualité et que t'as la RAM) :
ollama pull gemma4:31b
Pour le E4B (MacBook Air / 8-16 Go de RAM) :
ollama pull gemma4:4b
Le téléchargement prend quelques minutes selon ta connexion. Le 26B pèse environ 15 Go en quantifié Q4.
Étape 3 : Lancer et tester
ollama run gemma4:26b
Tu es dans le chat. Teste :
>>> Explique-moi les Mixture of Experts en 3 phrases simples.
Pour l'utiliser via API (pour tes scripts, apps, etc.) :
curl http://localhost:11434/api/generate -d '{
"model": "gemma4:26b",
"prompt": "Explique le pattern MoE en 3 phrases.",
"stream": false
}'
C'est tout. Pas de compte, pas de clé API, pas de facturation. Le modèle tourne sur ta machine, tes données restent chez toi.
Benchmarks Apple Silicon : les chiffres
Voici ce que la communauté mesure depuis la sortie. Les chiffres varient selon la quantification et la charge mémoire, mais l'ordre de grandeur est fiable.
| Machine | Modèle | Tokens/sec | Notes |
|---|---|---|---|
| M2 Ultra (192 Go) | 26B MoE Q4 | ~300 t/s | Benchmark ggerganov |
| M4 Max (64 Go) | 26B MoE Q4 | ~180 t/s | Usage normal |
| M3 Pro (36 Go) | 26B MoE Q4 | ~90 t/s | Correct pour du dev |
| M2 MacBook Air (16 Go) | E4B Q4 | ~45 t/s | Fluide pour du chat |
| M1 MacBook Air (8 Go) | E2B Q8 | ~30 t/s | Le minimum viable |
Le 26B MoE à 300 t/s sur M2 Ultra est le chiffre qui fait les gros titres, et à raison. Pour contexte, GPT-4o via l'API te donne environ 80-100 t/s. Gemma 4 en local est littéralement plus rapide que les APIs cloud pour la plupart des gens.
Sur un setup plus courant — M3 Pro ou M4 — t'es à 90-180 t/s avec le 26B. C'est largement suffisant pour du développement interactif, du RAG, ou de l'automatisation.
Gemma 4 vs la concurrence
Comparons honnêtement avec les autres modèles open source de la même catégorie.
| Critère | Gemma 4 26B MoE | Qwen3 32B | Mistral Medium | Llama 3.3 70B |
|---|---|---|---|---|
| Licence | Apache 2.0 | Qwen License | Apache 2.0 | Llama Community |
| Params actifs | ~8B (MoE) | 32B | ~32B | 70B |
| Vitesse M4 Max | ~180 t/s | ~60 t/s | ~55 t/s | ~25 t/s |
| RAM minimale | ~18 Go | ~22 Go | ~22 Go | ~42 Go |
| Code | Très bon | Excellent | Bon | Très bon |
| Raisonnement | Bon | Très bon | Bon | Excellent |
| Multilingue | Très bon | Excellent (CJK) | Bon | Bon |
Le verdict :
- Gemma 4 26B MoE gagne sur la vitesse et l'efficacité mémoire. Le ratio qualité/ressources est le meilleur du marché. Si tu veux un modèle rapide qui tourne sur un Mac "normal", c'est lui.
- Qwen3 32B gagne sur la qualité brute, surtout en code et en raisonnement. Mais il est 3x plus lent et demande plus de RAM.
- Llama 3.3 70B est le meilleur en raisonnement pur, mais il faut 42+ Go de RAM et c'est lent. Pas pratique en local sauf sur un Ultra ou un Studio.
- Mistral Medium est un bon all-rounder mais n'a pas d'avantage clair face à Gemma 4.
Quand utiliser Gemma 4 vs une API cloud
La question que tout le monde se pose : "Est-ce que je peux remplacer ChatGPT/Claude par Gemma 4 en local ?"
Oui, pour :
- Du développement assisté (complétion, refactoring, explication de code).
- Du RAG (Retrieval-Augmented Generation) sur tes documents.
- De l'automatisation (scripts, pipelines, traitement de texte).
- Du prototypage et de l'expérimentation.
- Tout ce qui touche à la vie privée (données sensibles, code propriétaire).
- Les cas où la latence réseau est un problème.
Non, pas encore pour :
- Du raisonnement long et complexe (planning multi-étapes, analyse de codebase entière). Claude Opus 4 reste supérieur ici.
- Du coding sur des codebases géantes avec 100+ fichiers. La fenêtre de contexte des modèles locaux est encore limitée.
- Des tâches où la qualité maximale absolue est critique (production, médical, légal).
- Du multimodal avancé (analyse d'images complexes, génération).
Mon setup actuel : Gemma 4 26B en local pour 80% du quotidien, Claude via API pour les 20% de tâches complexes qui nécessitent le meilleur modèle disponible. Le ratio coût/valeur est imbattable.
Mon avis : le local AI vient de franchir un cap
Je vais être direct : Gemma 4 est le premier modèle open source que j'utiliserais en production sans hésiter pour des tâches standard.
Pas parce qu'il est meilleur que GPT-4o ou Claude sur tous les critères — il ne l'est pas. Mais parce que le combo performances + vitesse + licence + coût (zéro) rend le calcul évident pour 80% des use cases.
Il y a un an, faire tourner un LLM en local c'était un compromis permanent : soit c'était lent, soit c'était nul, soit les deux. Le E4B de Gemma 4 sur un MacBook Air de base te donne une expérience fluide et des résultats corrects. Le 26B MoE sur un Mac avec 32+ Go de RAM te donne une expérience qui rivalise avec les APIs cloud.
Ce qui me rend optimiste pour la suite :
- Apple pousse le local : les puces M continuent de gagner en bande passante mémoire, et c'est le bottleneck pour l'inférence LLM.
- Le MoE change la donne : activer seulement les experts pertinents, c'est le hack qui permet d'avoir la qualité sans le coût computationnel.
- L'écosystème mûrit : Ollama, llama.cpp, vLLM — les outils pour faire tourner des modèles locaux sont de plus en plus plug-and-play.
- La licence Apache 2.0 ouvre la porte à un écosystème de fine-tuning et de spécialisation que les licences restrictives bloquaient.
Le vibe coding avec un modèle local qui te coûte zéro en inférence, qui ne rate-limit jamais, et qui garde tes données en local — c'est là qu'on en est en avril 2026. Et franchement, ça envoie.
Ressources
- Gemma 4 — Google AI — page officielle et documentation
- Ollama — le moyen le plus simple de faire tourner des LLM en local
- ggerganov/llama.cpp — le moteur d'inférence derrière la magie
- Benchmark Apple Silicon — ggerganov — discussions benchmarks communautaires
- Claude Opus 4 : le meilleur modèle de code ? — pour comprendre quand le cloud reste supérieur
- Le vibe coding est-il l'avenir du développement ? — le contexte sur l'IA dans le workflow dev