
Ce guide vous accompagne de A a Z pour installer et faire tourner Llama 3 sur votre propre machine. Aucune experience requise — suivez simplement les etapes.
Prerequis materiel
Minimum : 16 Go de RAM et un processeur recent (Intel 12e gen+ ou AMD Ryzen 5000+). Recommande : une carte graphique NVIDIA RTX 4070 ou superieure pour des performances optimales. Sans GPU, ca fonctionne sur CPU mais 10x plus lentement.
Etape 1 — Installer Ollama (methode la plus simple)
Windows : Telechargez Ollama depuis ollama.com. Lancez l installeur. C est tout.
Linux : Ouvrez un terminal et tapez :
curl -fsSL https://ollama.com/install.sh | sh
Ollama s installe et demarre automatiquement en arriere-plan.
Etape 2 — Telecharger Llama 3
Dans votre terminal (PowerShell sur Windows, Terminal sur Linux) :
ollama pull llama3.1:8b
Le modele fait environ 4.7 Go. Le telechargement prend 5 a 15 minutes selon votre connexion. Pour la version plus performante (necessite 16+ Go de VRAM) :
ollama pull llama3.1:70b
Etape 3 — Discuter avec Llama
Tapez simplement :
ollama run llama3.1:8b
Vous etes maintenant en conversation avec Llama 3 ! Tapez vos questions, le modele repond. Tapez /bye pour quitter.
Etape 4 — Interface graphique (optionnel)
Pour une interface type ChatGPT, installez Open WebUI :
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main
Ouvrez votre navigateur sur http://localhost:3000. Vous avez votre propre ChatGPT prive.
Methode alternative — llama.cpp (plus de controle)
Pour les utilisateurs avances qui veulent un controle total :
# Cloner le repo
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# Compiler (Linux/Mac)
make -j
# Ou avec support GPU CUDA (NVIDIA)
make -j GGML_CUDA=1
# Telecharger un modele GGUF depuis huggingface.co
# Lancer
./llama-cli -m votre-modele.gguf -p "Bonjour, comment vas-tu ?" -n 256
Methode Python — llama-cpp-python
Pour integrer dans vos scripts Python :
pip install llama-cpp-python
# Dans votre script :
from llama_cpp import Llama
llm = Llama(model_path="./modele.gguf", n_ctx=2048, n_gpu_layers=0)
response = llm("Explique-moi le machine learning", max_tokens=512)
print(response["choices"][0]["text"])
Performances attendues
Sur CPU (pas de GPU) : 5-10 tokens/seconde — utilisable mais lent. Sur RTX 4070 : 40-60 tokens/seconde — fluide. Sur RTX 5090 : 120+ tokens/seconde — instantane.
Quel modele choisir
Llama 3.1 8B : le meilleur rapport taille/qualite, tourne sur n importe quel PC recent. Qwen 2.5 7B : excellent en francais. Mistral 7B : rapide et polyvalent. Pour essayer : ollama pull qwen2.5:7b
👉 GPU recommande : RTX 4070 Ti | SSD pour stocker les modeles | RAM 32 Go DDR5
