Déployez et opérez des **Large Language Models** en production de manière fiable, scalable et sûre.
Déployez et opérez des **Large Language Models** en production de manière fiable, scalable et sûre. Ce cours expert couvre l'écosystème complet 2026 : APIs LLM (OpenAI, Anthropic Claude, Mistral, Google Gemini) et open-source (Llama 3, Mixtral, Qwen 2.5), déploiement via **vLLM / TGI / Ollama**, **RAG** fondamentaux et avancés, **fine-tuning** LoRA/QLoRA/DPO, **evals** rigoureuses (LangSmith, Ragas), et stratégies de **safety** (prompt injection, guardrails, hallucinations).
Ce cours s'adresse aux ML engineers, LLM engineers, AI engineers, data scientists et architectes solutions souhaitant passer du POC à la production. Une bonne maîtrise de **Python intermédiaire**, **FastAPI** et **Docker** est attendue. Les leçons précédentes du parcours ITAG IA (ML expert, Deep Learning) sont recommandées comme prérequis. Un compte Anthropic / OpenAI / Hugging Face Pro pour les TP (~50 USD au total) facilite la pratique.
Au terme du parcours, vous saurez choisir et **comparer les LLMs** (closed vs open, modèles 8B vs 70B), déployer un modèle open-source avec **vLLM** (paged attention, continuous batching) ; construire un **RAG** robuste (chunking, embeddings, vector DB Qdrant/Pinecone/Weaviate, hybrid search BM25+dense, re-ranking Cohere) ; mettre en place du **RAG avancé** (query rewriting, parent-child chunking, GraphRAG, agents ReAct) ; **fine-tuner** un modèle 7B sur GPU 24 GB via **QLoRA + axolotl/Unsloth** avec **RLHF/DPO** ; et instrumenter le tout avec **LangSmith, Ragas, hallucination detection, prompt injection defense** et patterns de production (caching sémantique, streaming, guardrails NeMo).
L'examen blanc compte 25 questions de mi-parcours et l'examen final 50 questions, format QCM, seuil 70 %, simulant les attendus des évaluations Anthropic Builder Day, OpenAI DevDay et le **Confluent Apache Kafka Developer** (pour le streaming LLM). Les questions s'appuient sur la documentation officielle python.langchain.com, anthropic.com/research, openai.com/research, vllm.ai, Hugging Face Hub.
La durée estimée est de **60 heures** (3 600 minutes), réparties sur 8 à 10 semaines à raison de 6 h par semaine. Le format alterne théorie (30 %), TP pratiques (55 %, build d'un RAG complet + fine-tuning LoRA + evals LangSmith) et lecture de papiers (15 %, Lewis 2020 RAG, Hu 2021 LoRA, Rafailov 2023 DPO). Chaque leçon contient des snippets Python LangChain/LlamaIndex/Anthropic SDK et des liens vers les papiers fondateurs. Sources principales : python.langchain.com, docs.llamaindex.ai, docs.vllm.ai, docs.anthropic.com, docs.smith.langchain.com, "Building LLM Applications" (Chip Huyen, 2024), Hugging Face Course.
Mettez en pratique ce cours avec une simulation d'examen blanc au format officiel.
Choisis quels cookies tu acceptes — modifiable à tout moment.