L'IA générative
L'IA générative pour la rédaction de texte ou de code source
-
L’IA est un tuteur exceptionnel : elle explique des concepts compliqués avec des mots simples, donne des analogies, propose des exemples concrets, reformule quand vous ne comprenez pas.
-
Mais l'IA ne doit pas devenir votre assistant personnel. Si vous lui demandez de faire tout le TP, tout le projet ou tout l’examen à votre place, vous ne progressez pas.
-
Dans le monde professionnel et lors de l'examen, on vous demandera de comprendre le code que vous n’avez jamais vraiment écrit.
Utilisez l’IA pour apprendre, pas pour remplacer votre réflexion.
Notions théoriques
L’IA générative est une branche de l’intelligence artificielle capable de créer du contenu original (texte, image, son, vidéo, code…) à partir d’une simple instruction que l’on appelle prompt.
Contrairement à une IA « classique » qui classe, prédit ou reconnaît, l’IA générative produit quelque chose qui n’existait pas auparavant.
Les technologies dominantes en 2026 reposent principalement sur :
- Les Transformers : l’architecture de base depuis 2017. Grâce au mécanisme d’attention, le modèle peut relier des mots très éloignés dans une phrase longue et en comprendre le contexte.
- Le pré-entraînement massif : milliards de mots → apprentissage auto-supervisé (deviner le mot suivant).
- Le fine-tuning et RLHF (Reinforcement Learning from Human Feedback) : ajustement sur des réponses de qualité évaluées par des humains.
Un peu de vocabulaire
- Modèle de langage (LLM) : un modèle entraîné pour comprendre et générer du texte naturel.
- Token : une unité de texte (mot, partie de mot, caractère) que le modèle traite.
- Prompt : l’instruction textuelle donnée à l’IA générative.
- Inference : le processus de génération de texte par le modèle à partir du prompt.
- Fine-tuning : ajustement d’un modèle pré-entraîné sur un ensemble de données spécifique.
- Zero-shot / Few-shot learning : capacité du modèle à effectuer une tâche sans (zero-shot) ou avec très peu (few-shot) d’exemples.
- GAN (Generative Adversarial Network) : architecture composée de deux réseaux (générateur et discriminateur) qui s’affrontent pour produire des images réalistes.
- Diffusion : technique de génération d’images en partant d’un bruit aléatoire et en affinant progressivement l’image.
Explication détaillée du GAN
Un GAN (prononcé « gan ») signifie Generative Adversarial Network en anglais, ou Réseau Antagoniste Génératif (parfois appelé Réseau Adversaire Génératif) en français.
C’est l’une des inventions les plus célèbres et les plus puissantes en IA générative, inventée en 2014 par Ian Goodfellow et son équipe.
Principe ultra-simple (analogie du faussaire et du policier)
Imaginez deux personnes qui s’affrontent dans un jeu :
- Le faussaire (le Générateur) : il essaie de fabriquer de faux billets (ou de fausses photos, de fausses voix, etc.) qui soient les plus réalistes possible.
- Le policier (le Discriminateur) : il regarde un billet et doit dire « vrai » ou « faux ».
Au début :
- Le faussaire fait des dessins très moches → le policier les repère facilement.
- Le faussaire s’entraîne et fait mieux → le policier s’améliore aussi pour ne pas se faire avoir.
Ils progressent tous les deux en même temps, en se battant l’un contre l’autre :
- Le générateur veut tromper le discriminateur à 100 %.
- Le discriminateur veut ne jamais se tromper.
Au bout d’un moment, le faussaire devient tellement fort que ses faux billets sont indiscernables des vrais → le policier dit « vrai » presque à chaque fois, même pour les faux.
C’est exactement ce qui se passe dans un GAN : à la fin de l’entraînement, le générateur produit des images, des visages, des voix, des vidéos, etc. tellement réalistes qu’on ne peut plus faire la différence avec du vrai contenu.
Les 2 parties d’un GAN
| Partie | Rôle | Objectif principal |
|---|---|---|
| Générateur | Prend du bruit aléatoire → produit une image/son/texte | Tromper le discriminateur (sortir du « vrai ») |
| Discriminateur | Regarde une image → dit « vrai » ou « faux » | Bien distinguer vrai du faux |
Ils s’entraînent en alternance (souvent plusieurs milliers/millions de fois) jusqu’à un équilibre où le discriminateur est à ~50 % de réussite (il devine au hasard).
Exemples très concrets de ce que font les GAN (2026)
- Visages de personnes qui n’existent pas (ThisPersonDoesNotExist.com)
- Deepfakes (changer un visage dans une vidéo)
- Améliorer la résolution d’une photo floue (super-résolution)
- Coloriser automatiquement des photos en noir et blanc
- Créer des tableaux dans le style de Van Gogh ou Picasso
- Générer des vêtements sur un mannequin virtuel (essayage virtuel)
- Synthétiser de la voix (cloner une voix avec quelques minutes d’enregistrement)
- Créer des textures 3D, des paysages pour jeux vidéo, etc.
Différence avec les modèles actuels (2026)
Aujourd’hui, les GAN restent très utilisés pour les images et vidéos ultra-réalistes, mais pour du texte pur ou du multimodal (texte → image comme DALL·E, Midjourney, Flux, etc.), les architectures transformers + diffusion (modèles de diffusion) ont souvent pris le dessus depuis 2022–2023 car ils sont plus stables à entraîner.
Mais les GAN (et surtout leurs évolutions : StyleGAN, StyleGAN-XL, BigGAN, etc.) restent la référence pour tout ce qui demande un réalisme photographique extrême.
Un GAN, c’est un duel entre un faussaire et un expert en détection de faux → le faussaire finit par créer des faux si parfaits qu’ils passent pour du vrai. C’est l’une des techniques les plus impressionnantes (et parfois les plus inquiétantes) de l’IA générative.
Explication détaillée de la diffusion
En génération d’images, la “diffusion” désigne une famille de modèles d’IA appelés modèles de diffusion (diffusion models).
L’idée de base
La diffusion est une méthode où une IA apprend à créer des images en retirant progressivement du bruit.
Il y a 2 phases clés :
1. Phase d’apprentissage (diffusion directe)
- On prend une image réelle
- On ajoute progressivement du bruit (comme de la neige sur une TV ancienne)
- À la fin, l’image devient presque totalement du bruit
- Le modèle apprend comment enlever ce bruit étape par étape
2. Phase de génération (diffusion inverse)
- On part d’un bruit aléatoire
- Le modèle enlève le bruit petit à petit
- À chaque étape, il améliore l’image
- À la fin, on obtient une image cohérente
Si on fournit un texte (prompt), le modèle est guidé pour produire une image correspondant à ce texte.
Exemples de modèles de diffusion
- Stable Diffusion
- DALL·E
- Imagen (Google)
- Midjourney
- Flux
Explication détaillée des Transformers
Un Transformer est un type de modèle d’intelligence artificielle (réseau de neurones) conçu pour comprendre et générer des données séquentielles (texte, images, audio…), en se basant sur un mécanisme clé appelé l’attention.
C’est l’architecture derrière :
- ChatGPT / GPT
- BERT
- T5
- les modèles de diffusion modernes (pour le texte)
- les Vision Transformers (ViT) pour les images
L’idée fondamentale
Un Transformer est une architecture d’IA basée sur l’attention, capable de comprendre le contexte global d’une séquence et de générer des données complexes.
Un Transformer regarde tous les éléments d’une séquence en même temps et apprend quels éléments sont importants par rapport aux autres.
Le cœur du Transformer : l’attention
Pour chaque mot (ou token), le modèle calcule :
- Query (Q) : ce que je cherche
- Key (K) : ce que je peux offrir
- Value (V) : l’information à transmettre
Le modèle apprend à pondérer les mots importants.
Exemple :
“Le chat qui dort sur le canapé est mignon” Le mot “est” doit prêter attention à “chat”, pas à “canapé”.
Self-attention
- Chaque mot regarde tous les autres mots
- Le poids d’attention est appris automatiquement
- Permet de capturer :
- contexte long
- relations complexes
- grammaire et sens
Pourquoi ça s’appelle “Transformer” ?
Parce qu’il transforme une séquence d’entrées en une séquence de sorties, en réorganisant l’information via l’attention.
Différence GAN vs Diffusion ?
GAN et Diffusion sont 2 grandes familles dominent actuellement la génération d’images (et de vidéo/audio).
| Critère | GAN (Generative Adversarial Networks) | Modèles de Diffusion (DDPM, Stable Diffusion, Flux, etc.) | Gagnant actuel (2026) |
|---|---|---|---|
| Principe de base | Deux réseaux qui se battent : Générateur vs Discriminateur (le faussaire vs le policier) | On ajoute progressivement du bruit → on apprend à le retirer étape par étape (processus de débruitage inverse) | — |
| Qualité / Réalisme | Très bon (surtout textures, détails fins, visages photoréalistes) – StyleGAN reste référence pour le photoréalisme pur | Excellent, souvent supérieur en diversité et cohérence globale (moins d’artefacts bizarres) | Diffusion (léger avantage) |
| Diversité des outputs | Souvent limitée (risque de mode collapse : le générateur ne produit que quelques variantes) | Très bonne diversité naturelle grâce au bruit aléatoire à chaque génération | Diffusion |
| Stabilité de l’entraînement | Très difficile : instable, sensible aux hyperparamètres, mode collapse fréquent, vanishing gradients | Beaucoup plus stable, objectif de perte simple (L2 sur le bruit), pas de duel adversarial | Diffusion |
| Vitesse de génération (inférence) | Très rapide : 1 forward pass → image en quelques millisecondes | Lente par défaut (20–1000 étapes de débruitage) – mais fortement accélérée en 2025-2026 (Distillation, Latent Consistency, Turbo, etc.) | GAN (mais l’écart se réduit fortement) |
| Contrôle / Conditionnement | Possible mais plus compliqué (Condition GAN, ControlNet-like sur GAN existe mais moins naturel) | Excellent contrôle : text-to-image, image-to-image, inpainting, outpainting, ControlNet, IP-Adapter, etc. très matures | Diffusion |
| Consommation VRAM / Ressources | Plus léger une fois entraîné | Plus gourmand (surtout pendant l’entraînement et les longues chaînes d’inférence) – mais modèles distillés/quantifiés très efficaces | GAN (léger avantage) |
- Pour la génération d’images grand public (text-to-image, édition créative, diversité, contrôle fin) → les modèles de diffusion dominent très largement depuis 2023–2024 et continuent de creuser l’écart.
- Pour la vitesse pure, le photoréalisme extrême sur des cas très spécifiques (visages, textures), les applications temps réel / low-latency → les GAN gardent un avantage (et des travaux récents montrent que des GAN bien entraînés peuvent encore rivaliser ou battre la diffusion en super-résolution ou dans certains benchmarks contrôlés).
- Tendance forte : beaucoup de chercheurs combinent les deux mondes (diffusion + GAN-like adversarial loss, GAN distillés à partir de diffusion, etc.) pour prendre le meilleur des 2.
Modèles populaires en 2026
Aujourd’hui, les modèles les plus performants sont multimodaux : texte + image + son + vidéo. Parmi les noms connus : GPT-4o, Claude 3.5 Sonnet, Gemini 2, Mistral Large 2, Grok 3, Llama 4…
Prompt engineering : l’art de rédiger une consigne claire, structurée, avec un rôle bien défini et des exemples quand c’est utile.
Chaînage de raisonnement et agents : les meilleurs usages consistent à faire raisonner l’IA étape par étape ou à lui donner accès à des outils.
Limites importantes à connaître :
- Hallucinations (inventions crédibles mais fausses)
- Biais hérités des données
- Coût énergétique élevé
- Absence de compréhension réelle du monde physique
- Risque de fuite de données sensibles
Quand l’IA vous donne une réponse très convaincante… vérifiez toujours. Une hallucination technique peut sembler parfaitement juste pendant plusieurs lignes avant de s’effondrer sur un détail.
Posez-lui systématiquement : « Peux-tu me donner le lien vers l'information officielle qui confirme ce que tu viens de dire ? »
Exemple pratique
Objectif : obtenir un composant React propre, en TypeScript + Tailwind, avec accessibilité et un petit test Jest.
Prompt que vous pouvez copier-coller :
Tu es un développeur React senior, expert TypeScript et TailwindCSS.
Crée un composant fonctionnel nommé AlertBanner avec les spécifications suivantes :
Props : type ("success" | "error" | "warning" | "info"), message (string), onClose? (fonction optionnelle)
Apparence : barre horizontale pleine largeur, couleur selon le type (vert, rouge, orange, bleu), icône à gauche, texte blanc, bouton croix à droite si onClose est fourni
Accessibilité : aria-live="polite", role="alert"
- Utilise uniquement des classes Tailwind (pas de CSS custom)
- Ajoute un useEffect qui ferme automatiquement la bannière après 6 secondes si onClose existe
- Fournis également un exemple d’utilisation
- Écris un test Jest simple qui vérifie l’affichage du message
Réponds uniquement avec le code + l’exemple + le test, sans texte superflu avant.
Une fois que vous avez le code généré :
- Lisez-le ligne par ligne
- Expliquez (mentalement) ce que fait chaque partie
- Modifiez volontairement une petite chose (couleur, délai, prop) et vérifiez que vous comprenez l’impact
- Essayez de le réécrire vous-même sans regarder la version IA
Si vous sautez ces étapes, vous risquez de rester dépendant de l’IA pour le moindre composant.
Test de mémorisation/compréhension
TP pour réfléchir et résoudre des problèmes
Objectif : Apprendre à utiliser l’IA comme un tuteur plutôt que comme un assistant.
-
Ouvrez l’interface d’une IA de votre choix (ChatGPT, Claude, Gemini, Grok, etc).
-
Ne collez pas directement le prompt de l’exemple.
Commencez par lui poser des questions d’apprentissage :- « Peux-tu m’expliquer en termes très simples ce que fait
useEffect - « Comment faire pour fermer une notification après 6 secondes ? (ne le fait pas à ma place, mais explique moi) »
- « Pourquoi est-ce important d’avoir aria-live="polite" sur une alerte ? »
- « Quelles sont les 3–4 meilleures pratiques d’accessibilité pour un composant de notification ? »
- « Peux-tu m’expliquer en termes très simples ce que fait
-
Une fois le code obtenu :
- Lisez-le entièrement sans aide
- Trouvez au moins deux améliorations que l’IA n’a pas proposées (ergonomie, nommage, performance, test manquant…)
- Implémentez une de ces améliorations vous-même
- L’objectif n’est pas d’avoir le plus beau toast animé du monde en 20 minutes.
- L’objectif est de comprendre profondément ce que vous mettez dans votre projet.
- Si on vous demande « Pourquoi as-tu mis
useEffectici ? », vous devez pouvoir répondre sans rouvrir l’historique de chat.
- Vous pouvez demander à l’IA d’expliquer, de proposer, de critiquer, de déboguer, de donner des alternatives, etc. Mais vous devez toujours être capable de réécrire le code principal de zéro si on vous le demande.
- Seul un code de mise en forme de votre application (CSS, Tailwind, etc.) peut être copié-collé tel quel.
- Du code que vous ne comprenez pas ne doit jamais être intégré dans un projet réel ou à l’examen.
- C’est cette discipline qui fera la différence entre un développeur qui utilise l’IA et un développeur qui en dépend.
Exemple de prompt
Après avoir intégré le code proposé par l’IA, posez-lui ces trois questions supplémentaires :
- « Quelles sont les faiblesses potentielles de cette implémentation en termes de performance sur mobile ? »
- « Si je veux que l’animation soit désactivée pour les personnes qui ont prefers-reduced-motion, comment dois-je modifier le code ? »
- « Réécris la partie useEffect sans setTimeout, en utilisant requestAnimationFrame. Est-ce que c’est vraiment mieux ici ? Pourquoi ? »
Ces trois questions vous obligent à rester actif et critique face au code généré.
Faites travailler votre cerveau avant de faire travailler l’IA.
Précautions à prendre
L’IA générative permet d'accélérer le développement de logiciels, mais son utilisation doit être encadrée par des précautions afin d’en tirer pleinement parti tout en évitant les risques potentiels.
Lors des évaluations et lors de l'examen du BTS, un code qu'on ne peut pas expliquer ne donnera pas de points.