Guide : Installer Llama 3 en local pas a pas (Windows et Linux)

Ce guide vous accompagne de A a Z pour installer et faire tourner Llama 3 sur votre propre machine. Aucune experience requise — suivez simplement les etapes.

Prerequis materiel

Minimum : 16 Go de RAM et un processeur recent (Intel 12e gen+ ou AMD Ryzen 5000+). Recommande : une carte graphique NVIDIA RTX 4070 ou superieure pour des performances optimales. Sans GPU, ca fonctionne sur CPU mais 10x plus lentement.

Etape 1 — Installer Ollama (methode la plus simple)

Windows : Telechargez Ollama depuis ollama.com. Lancez l installeur. C est tout.

Linux : Ouvrez un terminal et tapez :

curl -fsSL https://ollama.com/install.sh | sh

Ollama s installe et demarre automatiquement en arriere-plan.

Etape 2 — Telecharger Llama 3

Dans votre terminal (PowerShell sur Windows, Terminal sur Linux) :

ollama pull llama3.1:8b

Le modele fait environ 4.7 Go. Le telechargement prend 5 a 15 minutes selon votre connexion. Pour la version plus performante (necessite 16+ Go de VRAM) :

ollama pull llama3.1:70b

Etape 3 — Discuter avec Llama

Tapez simplement :

ollama run llama3.1:8b

Vous etes maintenant en conversation avec Llama 3 ! Tapez vos questions, le modele repond. Tapez /bye pour quitter.

Etape 4 — Interface graphique (optionnel)

Pour une interface type ChatGPT, installez Open WebUI :

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main

Ouvrez votre navigateur sur http://localhost:3000. Vous avez votre propre ChatGPT prive.

Methode alternative — llama.cpp (plus de controle)

Pour les utilisateurs avances qui veulent un controle total :

# Cloner le repo
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# Compiler (Linux/Mac)
make -j

# Ou avec support GPU CUDA (NVIDIA)
make -j GGML_CUDA=1

# Telecharger un modele GGUF depuis huggingface.co
# Lancer
./llama-cli -m votre-modele.gguf -p "Bonjour, comment vas-tu ?" -n 256

Methode Python — llama-cpp-python

Pour integrer dans vos scripts Python :

pip install llama-cpp-python

# Dans votre script :
from llama_cpp import Llama
llm = Llama(model_path="./modele.gguf", n_ctx=2048, n_gpu_layers=0)
response = llm("Explique-moi le machine learning", max_tokens=512)
print(response["choices"][0]["text"])

Performances attendues

Sur CPU (pas de GPU) : 5-10 tokens/seconde — utilisable mais lent. Sur RTX 4070 : 40-60 tokens/seconde — fluide. Sur RTX 5090 : 120+ tokens/seconde — instantane.

Quel modele choisir

Llama 3.1 8B : le meilleur rapport taille/qualite, tourne sur n importe quel PC recent. Qwen 2.5 7B : excellent en francais. Mistral 7B : rapide et polyvalent. Pour essayer : ollama pull qwen2.5:7b

👉 GPU recommande : RTX 4070 Ti | SSD pour stocker les modeles | RAM 32 Go DDR5

Article rédigé par

Marc Vallée

Analyste IA & Tech

Ancien ingénieur en systèmes distribués, Marc décrypte les annonces tech avec rigueur et chiffres à l'appui. Il privilégie les faits aux effets d'annonce.

🛒 Sélection de la rédaction