← Retour au cours

Chap 5 — Construire un agent IA pour ton entreprise

⏱ 50 min · 🎬 Video · 🏆 30 XP
🎬
Vidéo en production
Notre équipe pédagogique tourne actuellement cette leçon avec un·e formateur·rice expert·e. Le contenu textuel ci-dessous est complet et utilisable dès maintenant.

🤖 Étape 1 — Définir un cas d'usage métier

Ne commence jamais par la techno. Commence par un problème concret :

  • RH : pré-tri de CVs, réponses aux candidats, FAQ interne
  • Support client : réponse aux questions niveau 1 (24/7), routage vers humain si besoin
  • SAV : diagnostic produit, suivi de commande, génération de tickets
  • Prospection : qualification leads, personnalisation emails, recherche entreprise
💡 Astuce : commence par un MVP qui automatise 20% des cas couvrant 80% du volume.

✨ Étape 2 — Choisir le modèle

  • Claude 4 Sonnet : rédaction longue, contexte 200K, raisonnement
  • GPT-5 : code, multimodal, function calling
  • Mistral Large 2 : excellent en français, hébergeable en Europe (RGPD)
  • Llama 4 : open source, déployable on-premise (souveraineté)

🤖 Étape 3 — API : premier appel

import anthropic

client = anthropic.Anthropic(api_key="sk-ant-...")

message = client.messages.create(
    model="claude-sonnet-4",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Réponds en français : qu'est-ce qu'un LLM ?"}
    ]
)
print(message.content[0].text)

✨ Étape 4 — Orchestration (LangChain / LlamaIndex)

  • LangChain : framework pour chaîner LLM + outils + mémoire (Python, JS).
  • LlamaIndex : focus sur RAG et indexation de documents.
  • Anthropic SDK + tool use : alternative plus simple pour agents Claude.

🤖 Étape 5 — RAG (Retrieval Augmented Generation)

Permet à ton agent de répondre avec tes données privées sans fine-tuning :

  1. Découper tes docs en chunks (500-1000 tokens)
  2. Calculer un embedding pour chaque chunk (vecteur 1536D ou 3072D)
  3. Stocker dans une base vectorielle
  4. À chaque question : retrouver les 5 chunks les plus pertinents
  5. Injecter dans le prompt comme contexte

✨ Vector DB en 2026

  • Pinecone : SaaS, simple, ~70 USD/mois pour démarrer
  • Weaviate : open source ou cloud, hybride dense+sparse
  • ChromaDB : open source, idéal pour prototyper en local
  • Qdrant : open source Rust, ultra-performant
  • pgvector : extension PostgreSQL (pratique si tu as déjà du Postgres)

🤖 Étape 6 — Outils (function calling)

Donne des superpouvoirs à ton agent :

  • Web search : Tavily, Serper, Brave Search API
  • Calculatrice : pour calculs précis (les LLMs hallucinent en math)
  • Base de données : MySQL, PostgreSQL via tools dédiés
  • API métier : ton CRM, ton ERP, Stripe, etc.

✨ Étape 7 — Frontend

  • Streamlit : Python, prototype en 50 lignes
  • Gradio : Python, chat UI prêt à l'emploi
  • React + Vercel AI SDK : production, UX premium
  • Next.js + shadcn/ui : stack moderne complet
💰 Coût mensuel estimé (1000 conversations/mois, 5K tokens chacune) :
  • API Claude / GPT : ~30-100 USD
  • Vector DB (Pinecone) : ~70 USD
  • Hébergement (Vercel Pro) : 20 USD
  • Embeddings (OpenAI text-embedding-3) : ~5 USD
  • Total : 125-200 USD/mois pour un agent en production légère.

🤖 Étape 8 — Déploiement

  • Vercel : idéal pour Next.js / React
  • Render : Python / Node, base de données incluse
  • AWS : Lambda + API Gateway + DynamoDB (scalable)
  • Cloudflare Workers : edge computing ultra-rapide
  • Railway : alternative simple à Heroku

✨ Étape 9 — Monitoring

  • LangSmith (LangChain) : trace chaque appel, debug
  • OpenAI Eval / Anthropic Eval : benchmarks qualité
  • Helicone : analytics et coûts par utilisateur
  • Sentry : erreurs en production
🚀 Roadmap suggérée pour ton premier agent :
  1. Semaine 1 : choisir cas d'usage et collecter les docs
  2. Semaine 2 : prototype Streamlit + Claude API + ChromaDB
  3. Semaine 3 : tests utilisateurs internes, itérations prompts
  4. Semaine 4 : passage en production (Vercel + Pinecone + monitoring)
  5. Mois 2-3 : itérer sur métriques (taux de résolution, satisfaction)