Glossaire IA – Kitcreanet

Adobe FireFly: Adobe Firefly est la suite d’intelligence artificielle générative développée par Adobe, intégrée dans ses logiciels Creative Cloud (Photoshop, Illustrator, etc.).

Agent GUI (Graphical User Interface): Une IA capable d’interagir avec un ordinateur en utilisant directement son interface graphique (icônes, boutons, fenêtres), comme le ferait un humain avec une souris.

Agent IA: Un programme d’intelligence artificielle qui non seulement traite l’information, mais peut aussi effectuer des actions de manière autonome dans un environnement défini (ex: créer des fichiers, lancer des commandes).

Agentic (Agentique): Qualifie une IA conçue pour être un « agent » autonome, capable non seulement de raisonner, mais aussi de planifier des actions et d’utiliser des outils externes (API, lignes de commande, etc.) pour atteindre un objectif.

AGI: Voir IA Forte

AI (Intelligence Artificielle): Domaine de l’informatique visant à créer des machines capables de simuler l’intelligence humaine.

AI Canvas: Interface d’édition de Leonardo AI qui permet de modifier, d’étendre et de peaufiner les images générées de manière intuitive.

Ancrage: Voir « grounding »

Anthropic: Anthropic est une société de recherche en intelligence artificielle spécialisée dans la sécurité de l’IA, fondée en 2021 par d’anciens membres d’OpenAI, notamment Dario Amodei (CEO) et Daniela Amodei (présidente).

API (Application Programming Interface): Interface de Programmation d’Application. Une « prise » logicielle qui permet à deux applications de communiquer entre elles. C’est via les API que les développeurs peuvent intégrer DeepSeek dans leurs propres sites ou logiciels.

API (Application Programming Interface): Un ensemble de définitions et de protocoles utilisés pour construire et intégrer des logiciels d’application. En d’autres termes, c’est ce qui permet à deux programmes informatiques de communiquer entre eux.

Apprentissage non supervisé: L’apprentissage non supervisé est une méthode d’entraînement d’IA où l’algorithme apprend à partir de données sans étiquettes ou réponses correctes fournies. L’IA doit découvrir seule les patterns (schémas), structures ou groupes cachés dans les données. C’est utilisé pour le clustering, la détection d’anomalies, ou la réduction de dimensionnalité des données.

Architecture modulaire: Un système composé de plusieurs modules indépendants qui peuvent être développés, testés et déployés séparément, puis combinés pour former un système plus grand et plus complexe.

ASR (Automatic Speech Recognition): Voir : Speech recognition (reconnaissance vocale)

Attention à Fenêtre Glissante (Sliding Window Attention – SWA): L’Attention à Fenêtre Glissante (Sliding Window Attention – SWA) est une technique utilisée dans les modèles de transformateurs qui limite la portée d’attention de chaque jeton à une fenêtre de taille fixe autour de lui, réduisant ainsi la complexité computationnelle de O(n²) à O(n×w) et permettant le traitement efficace de séquences longues. Cette approche fonctionne comme un projecteur étroit qui se déplace séquentiellement à travers le texte, permettant au modèle de se concentrer sur un contexte local tout en construisant progressivement une compréhension plus large grâce à l’empilement de plusieurs couches d’attention, chacune élargissant indirectement le champ réceptif du modèle.

Autoencodeur: Un type de réseau de neurones utilisé pour compresser des données (comme une vidéo) en une représentation simplifiée (espace latent) puis la décompresser, afin d’en apprendre les caractéristiques essentielles.

Benchmark: Un test standardisé utilisé pour comparer les performances de différents systèmes ou modèles.

BERTologie: La BERTologie est un domaine de recherche scientifique émergent qui se consacre à l’étude approfondie du fonctionnement interne des modèles de langage basés sur l’architecture BERT (Bidirectional Encoder Representations from Transformers)

Biais Cognitifs: Les biais cognitifs sont des erreurs systématiques de raisonnement qui influencent nos jugements et décisions de manière prévisible. Ils résultent de raccourcis mentaux (heuristiques) que notre cerveau utilise pour traiter rapidement l’information, mais qui peuvent nous tromper. Exemples : biais de confirmation (chercher uniquement les infos qui confirment nos croyances) ou biais d’ancrage (se fier trop à la première information reçue).

Bidirectionnalité profonde: La bidirectionnalité profonde est une caractéristique clé des modèles de traitement du langage naturel (NLP) comme BERT, qui leur permet de comprendre le contexte d’un mot en analysant simultanément et à travers toutes les couches du réseau de neurones les mots qui le précèdent (contexte gauche) et ceux qui le suivent (contexte droit)

Chatbot: Un chatbot est un programme informatique conçu pour simuler une conversation avec des utilisateurs humains via du texte ou de la voix. Il peut répondre automatiquement aux questions, fournir des informations ou effectuer des tâches simples en utilisant des règles prédéfinies ou de l’intelligence artificielle. Les exemples incluent les assistants clients sur les sites web, Siri, Alexa, ou des IA conversationnelles comme ChatGPT.

Colossus: Colossus est un supercalculateur d’intelligence artificielle développé par xAI, la société d’Elon Musk, et est actuellement considéré comme l’un des systèmes d’entraînement pour l’IA les plus puissants au monde. Sa fonction principale est d’entraîner le modèle de langage Grok en utilisant des centaines de milliers de GPU NVIDIA, cette infrastructure massive ayant été construite et mise en service en un temps record de 122 jours à Memphis, Tennessee.

Contexte (fenêtre de): La quantité d’information (mesurée en tokens) qu’un modèle d’IA peut prendre en compte en même temps pour générer une réponse. Une grande fenêtre permet d’analyser de longs documents ou de conserver une mémoire de la conversation plus longtemps.

Corpus: Dans le contexte de l’intelligence artificielle, un corpus est une vaste collection structurée de données, le plus souvent textuelles, qui sert de matière première pour l’entraînement et l’évaluation des modèles d’IA. Il constitue le « corps » de connaissances à partir duquel un système d’apprentissage automatique (machine learning) va apprendre à reconnaître des schémas, comprendre des contextes et générer des réponses pertinentes.

DALL-E: DALL-E est un système d’intelligence artificielle développé par OpenAI qui génère des images à partir de descriptions textuelles. Le nom combine « DALL » (en référence à l’artiste surréaliste Salvador Dalí) et « E » (pour WALL-E, le robot de Pixar), symbolisant la fusion entre art et technologie.

Data center, Datacenter, Centre de données: Un data center (ou centre de données en français) est une infrastructure physique conçue pour stocker, gérer et traiter de grandes quantités de données numériques. Il regroupe des serveurs, des équipements de stockage, des réseaux, des systèmes de refroidissement et d’alimentation électrique, ainsi que des dispositifs de sécurité physique et informatique.

Dataset: L’immense collection de données (par exemple pour Midjourney, des milliards de paires image-texte) sur laquelle l’IA a été entraînée pour « apprendre » les liens entre les mots et les concepts visuels

DeepFake: Un deepfake est une technique d’intelligence artificielle qui permet de créer de fausses vidéos ou images ultra-réalistes en remplaçant le visage d’une personne par celui d’une autre.

DFT (Density Functional Theory -Théorie de la Fonctionnelle de la Densité): Dans le domaine de l’IA, DFT fait généralement référence à la Density Functional Theory (Théorie de la Fonctionnelle de la Densité). Il s’agit d’une méthode de calcul quantique utilisée pour prédire les propriétés électroniques et structurelles des matériaux et molécules. En IA, la DFT est souvent employée pour :
Générer des données d’entraînement pour des modèles d’apprentissage automatique en chimie et science des matériaux
Prédire des propriétés moléculaires comme l’énergie, la stabilité ou la réactivité
Accélérer la découverte de nouveaux matériaux en combinant calculs DFT et algorithmes d’IA
Les modèles d’IA peuvent soit remplacer les calculs DFT coûteux en temps de calcul, soit les améliorer en prédisant des propriétés plus rapidement. C’est un domaine en pleine expansion appelé « AI for Science » où l’intelligence artificielle accélère la recherche scientifique.

Diffusion (modèle de): Un type d’IA qui génère des images en partant d’un bruit aléatoire et en le raffinant progressivement pour qu’il corresponde à une description textuelle (prompt)

Discord: Discord est une plateforme de communication numérique lancée en 2015, initialement conçue pour les gamers mais aujourd’hui utilisée par de nombreuses communautés. Discord permet de créer des « serveurs » (espaces communautaires) avec différents canaux de discussion. On peut y communiquer par messages texte, appels vocaux ou vidéo, partager des fichiers et des écrans.

Droit d’auteur: Le droit d’auteur est un ensemble de droits juridiques qui protègent les créations intellectuelles originales et leurs auteurs. Le droit d’auteur naît automatiquement dès la création d’une œuvre originale, sans formalité d’enregistrement. Il protège l’expression d’une idée, pas l’idée elle-même.
L’IA générative soulève des questions complexes sur l’usage d’œuvres protégées pour l’entraînement et la propriété des créations IA.

Encodeur (Transformer): Partie d’une architecture d’IA (le Transformeur) spécialisée dans la « lecture » et la compréhension d’une séquence d’informations (comme une phrase) en la codant dans une représentation numérique riche de sens.

Entraînement: Dans le contexte de l’intelligence artificielle (IA), l’entraînement désigne le processus par lequel un modèle d’IA, comme un grand modèle de langage (LLM) ou un générateur d’images, apprend à effectuer des tâches en analysant d’énormes quantités de données.

Espace Latent: Représentation compressée et de faible dimension des données. Travailler dans cet espace est beaucoup plus efficace pour une IA que de manipuler les données brutes (comme les pixels d’une vidéo HD).

Espace latent: Une représentation compressée et abstraite de données complexes. C’est dans cet espace que les modèles de diffusion opèrent, car il est beaucoup plus simple et rapide à manipuler que les données brutes (pixels, ondes sonores).

Explicabilité: L’explicabilité en intelligence artificielle désigne la capacité à rendre compréhensibles les raisonnements, choix et mécanismes internes du système d’IA ayant mené à un résultat, une prédiction ou une décision

Fact Checking: Le fact-checking (vérification des faits) est le processus qui consiste à vérifier l’exactitude d’informations, déclarations ou affirmations en les confrontant à des sources fiables et vérifiables. Cette pratique journalistique et citoyenne vise à lutter contre la désinformation en établissant la véracité des faits. Elle est devenue cruciale à l’ère des réseaux sociaux et des IA génératives qui peuvent propager des informations erronées.

Fenêtre de contexte (Context Window): La quantité d’information (mesurée en mots ou en « tokens ») qu’un modèle d’IA peut prendre en compte en même temps pour générer une réponse. Une grande fenêtre permet de traiter des documents plus longs et plus nombreux.

Fine tuning (ajustement fin): Le « fine tuning » est le processus d’ajustement d’un modèle pré-entraîné pour améliorer sa performance sur une tâche spécifique en continuant l’entraînement sur un ensemble de données plus ciblé.

Garbage in, garbage out (GIGO): Cette expression informatique signifie que si on fournit des données de mauvaise qualité en entrée d’un système, on obtiendra nécessairement des résultats de mauvaise qualité en sortie. Elle s’applique parfaitement aux IA dont les performances dépendent directement de la qualité des données d’entraînement.

Geek: Un « geek » désigne une personne passionnée par des domaines technologiques, scientifiques ou de culture populaire, souvent perçus comme spécialisés ou « nichés ». Initialement péjoratif (années 1980-90), le terme désignait quelqu’un de socialement maladroit, obsédé par des sujets techniques. Aujourd’hui, c’est devenu largement positif, synonyme d’expertise et de passion.

Générative (IA): Type d’intelligence artificielle capable de créer du contenu original (texte, image, son, musique) à partir d’une instruction (prompt).

GNN: Voir : Réseaux neuronaux de graphes

Google I/O: Google I/O est une conférence annuelle de deux jours organisée par Google, principalement destinée aux développeurs. Elle se tient généralement à l’amphithéâtre Shoreline, en Californie. Le nom « I/O » a plusieurs significations : il fait référence au concept informatique « input/output » (entrée/sortie), et peut aussi être interprété comme « innovation in the open » (innovation ouverte). Une autre explication humoristique suggère que le « I » et le « O » représentent le « 1 » et le « 0 » du nombre « googol ».

GPT: GPT signifie « Generative Pre-trained Transformer » (Transformateur Génératif Pré-entraîné). C’est une architecture d’intelligence artificielle spécialisée dans la génération et la compréhension de texte. GPT utilise l’architecture Transformer, révolutionnaire en NLP, qui permet :
• Attention : Focus sur les mots les plus pertinents dans le contexte
• Parallélisation : Traitement simultané de plusieurs éléments
• Mémoire contextuelle : Prise en compte de l’ensemble du texte
Principe de fonctionnement
• Pré-entraînement : Le modèle apprend sur d’énormes corpus de textes (livres, articles, sites web) pour comprendre la structure et les patterns du langage.
• Génération prédictive : GPT prédit le mot suivant le plus probable dans une séquence, mot par mot, créant ainsi des textes cohérents.
• Fine-tuning : Ajustement spécialisé pour des tâches particulières (conversation, code, etc.).
GPT a démocratisé l’IA générative et inspiré de nombreux concurrents (Claude, Gemini, LLaMA), transformant notre rapport à l’information et à la création de contenu.
GPT représente l’une des avancées les plus significatives en intelligence artificielle moderne.

GPT (Generative Pre-trained Transformer): Architecture de modèle de langage développée par OpenAI. « Generative » car il génère du texte, « Pre-trained » car il est pré-entraîné sur des données et « Transformer » est le nom de l’architecture neuronale qu’il utilise.

GPU (Graphics Processing Unit): Dans le cadre de l’intelligence artificielle (IA), une carte graphique (GPU) est un composant matériel essentiel. Initialement conçue pour accélérer le rendu des graphiques, des vidéos et des animations, (dans les jeux vidéo notamment) sa capacité à effectuer des calculs parallèles fait des GPU un outil indispensable pour les tâches de calcul intensif dans le domaine de l’IA. Ils sont largement utilisés pour accélérer les opérations matricielles et les calculs vectoriels, essentiels dans l’apprentissage automatique (machine learning) et l’apprentissage profond (deep learning). Ainsi, les GPU jouent un rôle clé en rendant l’entraînement et le traitement des modèles d’IA plus rapides et efficaces.

GPU NVIDIA H100: Le GPU NVIDIA H100 est un accélérateur de calcul surpuissant pour centres de données, fonctionnant comme un cerveau massivement parallèle doté de milliers de cœurs spécialisés. C’est le moteur indispensable qui permet aujourd’hui d’entraîner et de faire fonctionner les intelligences artificielles les plus avancées, comme ChatGPT, et d’accélérer la recherche scientifique.

GPU NVIDIA H200: Le GPU NVIDIA H200 est la génération suivante du H100, toujours basé sur l’architecture Hopper, mais avec une mémoire ultra-rapide HBM3e de 141 Go, presque le double de capacité et une bande passante de 4,8 To/s, ce qui permet de gérer des modèles d’IA encore plus grands et complexes à des vitesses d’inférence doublées par rapport au H100. Il est conçu pour accélérer massivement les charges de travail d’IA générative et de calcul haute performance, offrant une meilleure efficacité énergétique et une capacité à traiter des volumes de données bien plus importants, idéal pour l’entraînement et le déploiement des modèles de langage de nouvelle génération.

Grounding (Ancrage): Le processus technique qui consiste à forcer un modèle d’IA à baser ses réponses exclusivement sur un ensemble de données fourni par l’utilisateur (les « sources »), afin d’améliorer la fiabilité et d’éviter les hallucinations.

GUI: GUI (Graphical User Interface)

Hacker: Le terme « hacker » a plusieurs significations qui ont évolué au fil du temps :
Sens originel (années 1960-70)
À l’origine, un hacker était un programmeur passionné et créatif qui explorait les systèmes informatiques par curiosité intellectuelle. C’était un terme positif désignant quelqu’un qui :
• Comprenait profondément le fonctionnement des systèmes
• Trouvait des solutions ingénieuses à des problèmes complexes
• Partageait ses connaissances avec la communauté
Évolution du terme
Avec la médiatisation dans les années 80-90, le terme a pris une connotation plus négative dans le grand public, souvent confondu avec « cracker » (celui qui casse les protections).
Classifications modernes
— White Hat (chapeau blanc) : Hackers éthiques qui testent la sécurité avec permission pour améliorer les systèmes.
— Black Hat (chapeau noir) : Hackers malveillants qui s’introduisent illégalement dans les systèmes pour voler, détruire ou nuire.
— Gray Hat (chapeau gris) : Entre les deux, ils découvrent des failles sans autorisation mais sans intention malveillante.
Usage général
Aujourd’hui, « hacker » peut aussi signifier quelqu’un qui détourne l’usage normal d’un objet ou système de manière créative (life hacking, growth hacking).
La communauté informatique préfère souvent distinguer « hacker » (explorateur créatif) de « cracker » (pirate malveillant), mais cette nuance s’est perdue dans l’usage populaire.

Hallucination: Les hallucinations en IA désignent la génération d’informations fausses, inventées ou incohérentes présentées avec confiance par le système. L’IA « hallucine » quand elle produit des faits inexistants, des citations fictives, ou des références inventées sans signaler son incertitude. C’est un défi majeur des IA génératives actuelles qui peuvent sembler très convaincantes même en donnant des informations erronées. Ça existe aussi chez les humains ! On appelle ça l’ultracrépidarianisme (tendance à donner son avis sur des sujets qu’on ne maîtrise pas). Dans les deux cas, il y a production d’informations avec assurance malgré un manque de connaissance réelle. La différence principale est que l’IA n’a pas conscience de ses limites, tandis que l’ultracrépidarien humain choisit souvent d’ignorer les siennes.

HAT (Hierarchical Autoregressive Transformer): Type d’architecture de modèle de langage utilisée par Aleph Alpha, optimisée pour une meilleure compréhension du contexte dans les langues complexes.

IA Constitutionnelle (Constitutional AI): Une méthode d’entraînement où l’IA apprend à aligner ses réponses sur un ensemble de principes éthiques explicites (une « constitution ») pour garantir des comportements sûrs et utiles.

IA Faible: L’IA faible (ou IA étroite) désigne les systèmes d’intelligence artificielle actuels qui sont spécialisés dans des tâches spécifiques comme la reconnaissance d’images, la traduction ou les jeux. Ces IA excellent dans leur domaine de spécialisation mais ne peuvent pas s’adapter à d’autres tâches sans être reprogrammées. ChatGPT, Siri, ou les voitures autonomes sont des exemples d’IA faible.

IA Forte (AGI): L’IA forte (ou AGI – Artificial General Intelligence) désigne une intelligence artificielle capable de comprendre, apprendre et réaliser n’importe quelle tâche intellectuelle qu’un humain peut accomplir. Contrairement aux IA actuelles qui sont spécialisées dans des domaines précis, l’AGI aurait une intelligence généraliste et autonome. Cette technologie n’existe pas encore et reste un objectif de recherche à long terme.

IDE (Integrated Development Environment): Environnement de Développement Intégré. Un logiciel qui regroupe un ensemble d’outils pour les développeurs, comme un éditeur de code, un débogueur et des outils de compilation.

IMAGEN 4: Imagen 4 est le dernier modèle de génération d’images à partir de texte développé par Google DeepMind, faisant partie de la série de modèles Imagen. Il a été lancé le 20 mai 2025, lors de la conférence Google I/O 2025

Inférence: Phase d’utilisation d’un modèle d’IA déjà entraîné pour faire des prédictions ou générer du contenu. C’est ce qui se passe quand vous posez une question à un chatbot.

Langage Naturel: Le langage naturel désigne les langues humaines telles qu’elles sont naturellement parlées et écrites par les humains, par opposition aux langages formels créés artificiellement. Le traitement automatique du langage naturel (NLP) est un domaine de l’IA qui vise à faire comprendre et traiter le langage humain par les machines.

LLM (Large Language Model / Grand Modèle de Langage): Type d’IA entraîné sur d’immenses quantités de texte pour comprendre et générer le langage humain. ChatGPT est basé sur un LLM.

LPU: Le LPU (Language Processing Unit) de Groq est un processeur spécialisé, un circuit intégré spécifique à une application (ASIC), conçu dès le départ pour accélérer de manière spectaculaire l’inférence (l’exécution) des modèles d’intelligence artificielle, et plus particulièrement des grands modèles de langage (LLM). Il ne s’agit pas d’une simple amélioration d’une puce existante, mais d’une nouvelle catégorie de processeur, fondamentalement différente des CPU et des GPU, pensée pour répondre aux exigences uniques du traitement du langage

Midjourney: Midjourney est une intelligence artificielle générative spécialisée dans la création d’images à partir de descriptions textuelles (prompts).

MLA (Multi-Head Latent Attention): Le Multi-Head Latent Attention (MLA) est un mécanisme d’attention innovant conçu pour améliorer l’efficacité des grands modèles de langage, notamment lors de l’inférence, tout en maintenant ou même en améliorant leurs performances12. Introduit par DeepSeek dans leur modèle V2, ce mécanisme représente une évolution du mécanisme d’attention classique (Multi-Head Attention ou MHA) utilisé dans les architectures Transformer.

Modèle de Diffusion (Latente): Voir « Diffusion ». Une technique d’IA qui génère une image ou une vidéo en partant d’un « bruit » aléatoire et en le raffinant progressivement pour qu’il corresponde à une description textuelle (prompt). La version « latente » effectue ce processus dans un espace de données compressé pour être plus efficace.

Modèle Multi-modal: Un modèle d’IA capable de comprendre et de traiter simultanément plusieurs types de données, comme le texte et le son, pour générer une sortie cohérente.

MoE (Mixture-of-Experts): Mélange d’Experts. Une architecture de modèle d’IA où, au lieu d’un seul grand réseau de neurones, on utilise plusieurs petits réseaux « experts » spécialisés, activés uniquement lorsque c’est nécessaire pour gagner en efficacité.

Moteur de réponse: Contrairement à un moteur de recherche qui renvoie une liste de liens, un moteur de réponse analyse ces liens pour fournir directement une réponse synthétique et rédigée.

Multimodal: Une IA multimodale peut traiter et comprendre simultanément plusieurs types de données : texte, images, audio, vidéo. Par exemple, GPT-4 peut analyser une photo et répondre à des questions textuelles à son sujet. Cette capacité permet des interactions plus riches et naturelles que les IA qui ne traitent qu’un seul type de média.

Negative Prompt: Une instruction textuelle indiquant à l’IA les éléments à ne PAS inclure dans l’image générée.

NeRF (Neural Radiance Field): Une technologie avancée qui permet à une IA de comprendre une scène en 3D à partir d’images 2D, améliorant le rendu de la lumière, des ombres et de la profondeur

NLP (Natural Language Processing): Le NLP (Natural Language Processing) ou Traitement Automatique du Langage Naturel (TALN) en français, est une branche de l’intelligence artificielle qui permet aux machines de comprendre, interpréter et générer le langage humain.

open Source: Se dit d’un logiciel ou d’un programme dont le code source est public et librement modifiable par quiconque. C’est un gage de transparence et de collaboration.

Open-Weight: Fait référence à un modèle d’IA dont les « poids » (les paramètres qui contiennent toute sa connaissance acquise lors de l’entraînement) sont rendus publics. Cela permet à quiconque de télécharger, d’exécuter et de modifier le modèle sur sa propre infrastructure.

OpenAI: OpenAI est une société de recherche en intelligence artificielle fondée en 2015 avec pour mission de développer une intelligence artificielle générale (AGI) sûre et bénéfique pour l’humanité.

Orchestration de modèles: La technique qui consiste à utiliser et combiner plusieurs modèles d’IA différents, en choisissant le plus adapté pour une tâche spécifique, un peu comme un chef d’orchestre choisit ses musiciens.

Paramètres: Dans un réseau de neurones, les paramètres sont les valeurs internes qui ont été ajustées pendant l’entraînement. On peut les voir comme les « connaissances » du modèle. Leur nombre est souvent utilisé comme une mesure de la « taille » d’un modèle.

Patch Spatio-Temporel: Unité de base utilisée par Sora. C’est un « morceau » de vidéo qui contient à la fois des informations spatiales (une partie de l’image) et temporelles (comment cette partie évolue dans le temps).

Perplexité: La perplexité mesure la capacité d’un modèle de langage à prédire la suite logique d’une séquence de mots. Plus précisément, elle indique à quel point le modèle est « surpris » par le mot suivant dans une phrase : une faible perplexité signifie que le modèle fait des prédictions précises, tandis qu’une perplexité élevée montre qu’il est souvent « perdu » ou incertain. Pour la petite histoire, c’est l’origine du nom de l’IA Perplexity !

Pharia Stack: Plateforme logicielle développée par Aleph Alpha qui permet d’intégrer, de contrôler et d’assurer la transparence des LLM pour des usages en entreprise.

Photoréalisme: Le photoréalisme en IA désigne la capacité d’un système de génération d’images à créer des visuels indiscernables de vraies photographies.

Pré-entraînement: Phase initiale d’entraînement d’un grand modèle sur un très vaste corpus de données non étiquetées (ex: tout Wikipédia). C’est durant cette phase que le modèle « apprend à apprendre ».

Prompt: Prompt : Instruction textuelle donnée en langage naturel à une IA générative pour lui demander d’effectuer une tâche. La qualité du prompt influence grandement la qualité du résultat.

Prompt : Arbre de Pensées – « Tree of Thoughts (ToT) »: C’est une version avancée de la Chaîne de Pensée. Au lieu de suivre une seule ligne de raisonnement, le modèle explore plusieurs « branches » de pensée en parallèle. Il peut évaluer la pertinence de chaque chemin, abandonner les impasses et approfondir les pistes les plus prometteuses, ce qui est idéal pour les problèmes complexes nécessitant de la créativité ou de la stratégie.

Prompt : Auto-cohérence – « Self-Consistency »: Au lieu de poser la question une seule fois, vous la posez plusieurs fois (souvent avec une instruction de type Chaîne de Pensée). Vous obtiendrez plusieurs raisonnements et réponses. La réponse finale est celle qui apparaît le plus souvent (par un « vote majoritaire »), ce qui augmente la fiabilité du résultat.

prompt : Chaînage de Prompts – « Prompt Chaining »: Vous décomposez une tâche complexe en une série de prompts plus simples. La sortie d’un prompt devient l’entrée du suivant, créant une séquence ou un « workflow ». C’est utile pour les tâches en plusieurs étapes.
Exemple : 1) « Résume ce texte. » 2) « Maintenant, extrais les entités clés du résumé. » 3) « Rédige un tweet basé sur ces entités. »

Prompt : Chaîne de Pensée – « Chain-of-Thought (CoT) »: Vous demandez explicitement au modèle de décomposer son raisonnement étape par étape avant de donner la réponse finale. Cette technique est très efficace pour les problèmes de logique, de mathématiques ou de planification, car elle oblige le modèle à suivre un cheminement logique, ce qui réduit les erreurs.
Exemple : « Quelle est la somme des nombres de 1 à 5 ? Réfléchis étape par étape. »

Prompt : Prompt à Quelques Exemples – « Few-Shot Prompting »: Vous donnez au modèle quelques exemples du format ou du type de réponse que vous attendez avant de lui soumettre votre véritable requête. Cela guide l’IA et améliore considérablement la précision pour des tâches spécifiques.
Exemple : « Français: pomme -> Anglais: apple. Français: voiture -> Anglais: car. Français: maison -> Anglais: ? »

Prompt : Prompt de Personnage / Jeu de Rôle – « Persona Prompting / Role-playing »: Vous demandez à l’IA d’adopter un rôle ou une personnalité spécifique. Cela contraint le modèle à puiser dans un domaine de connaissance particulier et à adopter le ton, le style et le vocabulaire de l’expert demandé.
Exemple : « Tu es un critique de cinéma. Rédige une critique de 100 mots sur le dernier film de science-fiction à la mode. »

Prompt : Raisonnement et Action (ReAct) – « ReAct (Reasoning and Acting) »: Cette technique pousse le modèle à alterner entre des phases de raisonnement (penser à la prochaine étape) et des phases d’action (comme effectuer une recherche sur internet, consulter un outil, etc.). Le modèle verbalise son plan, exécute une action, observe le résultat, puis ajuste son plan, créant une boucle interactive pour résoudre des questions complexes nécessitant des informations externes.

Prompt : Requête Directe – « Zero-Shot Prompting »: C’est la forme la plus simple de prompt. Vous posez une question ou donnez une instruction directement, sans fournir d’exemples préalables. Le modèle doit répondre en se basant uniquement sur sa formation générale.

Pruning (élagage): Dans le domaine de l’intelligence artificielle (IA), le pruning (terme anglais que l’on peut traduire par élagage) est une technique d’optimisation qui consiste à supprimer les parties non essentielles ou redondantes d’un réseau de neurones pré-entraîné. L’objectif est de réduire la taille, la complexité et le coût computationnel du modèle, tout en minimisant la perte de performance.

Quantification (Quantization): Dans le contexte de l’IA, la quantification est une technique d’optimisation visant à réduire la taille et la consommation de ressources d’un modèle (comme un grand modèle de langage ou LLM). Les poids et les calculs d’un modèle sont généralement stockés avec une grande précision, utilisant des nombres flottants sur 32 bits. La quantification réduit cette précision, par exemple en convertissant ces nombres en entiers de 8 bits.

Réseaux neuronaux de graphes (GNN): Les réseaux neuronaux de graphes (GNN) sont des modèles d’apprentissage automatique conçus pour analyser des données structurées sous forme de graphes – c’est-à-dire des ensembles de nœuds (points) reliés par des arêtes (liens).
Contrairement aux réseaux de neurones classiques qui traitent des données tabulaires ou des images, les GNN peuvent capturer les relations complexes entre les éléments d’un graphe. Ils propagent et agrègent l’information entre les nœuds voisins pour apprendre des représentations qui tiennent compte à la fois des caractéristiques individuelles des nœuds et de leur structure relationnelle.
Les GNN sont particulièrement utiles pour des applications comme l’analyse des réseaux sociaux, la découverte de médicaments, ou la prédiction de propriétés moléculaires.

RLHF (Reinforcement Learning from Human Feedback): RLHF (Reinforcement Learning from Human Feedback) est une technique d’entraînement où l’IA apprend à partir des préférences humaines plutôt que de données étiquetées. Des humains évaluent et classent les réponses de l’IA, qui ajuste ensuite son comportement pour maximiser les réponses préférées. Cette méthode est cruciale pour rendre les IA comme ChatGPT plus utiles, sûres et alignées avec les attentes humaines.

Scraping: Le scraping (ou web scraping) consiste à extraire automatiquement des données depuis des sites web ou applications en utilisant des programmes informatiques. Ces « robots » parcourent les pages, récupèrent le contenu structuré (textes, images, prix, etc.) et le stockent pour analyse ou réutilisation. C’est largement utilisé pour collecter des données d’entraînement IA, surveiller les prix, ou analyser des contenus en masse.

Scraping (ou Web Scraping): Le processus automatisé qui consiste à envoyer des « robots » pour extraire du contenu et des données depuis des sites web. C’est ce qui permet à Perplexity (par exemple) d’avoir des informations en temps réel.

Seed: Le seed (graine en français) est un nombre utilisé pour initialiser et contrôler la génération aléatoire dans les systèmes d’IA générative. Les IA génératives utilisent de la randomisation pour créer des images variées. Le seed est le point de départ de cette randomisation : Même prompt + même seed = résultat identique, Même prompt + seed différent = résultats différents

Shadow AI: Le Shadow AI est l’utilisation non autorisée ou non déclarée d’outils d’intelligence artificielle par les employés dans leur travail quotidien, sans l’approbation ou la supervision du département IT ou de la direction. C’est le petit frère du Shadow IT.

Shadow IT: Le Shadow IT (informatique fantôme) désigne l’utilisation d’applications, services ou systèmes informatiques au sein d’une organisation sans l’autorisation ou la connaissance du département IT officiel.

SMoE (Sparse Mixture of Experts): SMoE (Sparse Mixture of Experts) est l’implémentation moderne et efficace du concept MoE. C’est elle qui est utilisée dans les grands modèles actuels comme Mixtral ou (selon les rumeurs) GPT-4. Le « S » de Sparse (éparse) signifie que pour chaque morceau d’information à traiter (un « token »), le routeur n’active qu’un petit sous-ensemble d’experts, les plus pertinents pour la tâche.

Voici la différence fondamentale illustrée par une analogie :
Imaginez un comité de 8 experts. Vous avez une question sur la physique quantique.
Approche Dense (MoE théorique) : Le routeur demande aux 8 experts de donner leur avis, puis fait une moyenne pondérée de leurs réponses. C’est complet, mais très coûteux en temps et en énergie, car tout le monde travaille sur chaque question.
Approche Éparse (SMoE pratique) : Le routeur identifie que seuls l’expert en physique et l’expert en mathématiques sont pertinents. Il n’envoie la question qu’à ces 2 experts et ignore les 6 autres. C’est beaucoup plus rapide et efficace.

Souveraineté Numérique: Principe selon lequel les États, les organisations ou les individus doivent conserver le contrôle sur leurs propres données numériques et les systèmes qui les traitent.

Speech recognition (reconnaissance vocale): La reconnaissance vocale, également connue sous le nom de reconnaissance automatique de la parole (ASR, pour Automatic Speech Recognition), est une technologie informatique qui permet à une machine d’analyser la voix humaine et de la transcrire en un format exploitable, le plus souvent du texte.

SREF (Code): Le code SREF (Style Reference) est une fonctionnalité spécifique à Midjourney qui permet de référencer et réutiliser un style visuel particulier. Chaque image créée peut recevoir un code SREF unique. Réutilisation : En ajoutant –sref [code] à un prompt, on applique le même style à une nouvelle génération, ce qui permet de maintenir une cohérence visuelle entre plusieurs créations

Stable Diffusion: Stable Diffusion est un modèle d’intelligence artificielle open-source de génération d’images développé par Stability AI, en collaboration avec des chercheurs de l’Université de Munich et Runway.

SWA: Voir : Attention à Fenêtre Glissante (Sliding Window Attention – SWA)

Synthèse vocale: Technologie permettant de créer une voix humaine artificielle à partir d’un texte. Le modèle Bark de Suno en est un exemple très avancé, capable de « chanter ».

SynthID: Le nom de la technologie de « watermarking » (tatouage numérique) de Google, conçue pour marquer de manière invisible les contenus (images, vidéos, audio) générés par une IA afin d’en assurer la traçabilité.

SynthID: Une technologie développée par Google DeepMind qui intègre un marquage numérique (watermark) invisible à l’œil nu directement dans les pixels d’une image ou vidéo générée par une IA, afin d’en assurer la traçabilité.

TALN (Traitement Automatique du Langage Naturel ): Voir NLP

Token: Un « jeton » en français. Un token est l’unité de base de traitement du texte par les modèles d’IA comme les LLM (Large Language Models). Il peut correspondre à un mot complet, une partie de mot, un caractère spécial ou même un espace, selon la façon dont le modèle découpe et analyse le texte. Les tokens servent à mesurer la longueur des entrées et sorties, et déterminent souvent les coûts d’utilisation des API d’IA.

TPU: Les TPU (Tensor Processing Units) sont des processeurs spécialisés développés par Google spécifiquement pour accélérer les calculs d’intelligence artificielle et d’apprentissage automatique. Contrairement aux GPU classiques, les TPU sont optimisés pour les opérations matricielles et les calculs de tenseurs utilisés dans les réseaux de neurones, offrant des performances supérieures et une efficacité énergétique améliorée pour l’entraînement et l’inférence des modèles d’IA. Google utilise ces puces dans ses propres services (comme la recherche, Google Translate, ou ses modèles Gemini) et les propose également via Google Cloud Platform pour les développeurs et entreprises.

Transformer (architecture): L’architecture Transformer est un modèle de réseau de neurones révolutionnaire introduit en 2017, basé sur le mécanisme d’attention qui permet de traiter tous les éléments d’une séquence simultanément. Elle élimine le besoin de traitement séquentiel, permettant une parallélisation efficace et une meilleure compréhension du contexte. C’est la base de GPT, BERT, et de la plupart des IA modernes de traitement du langage.
L’architecture Transformer a été conçue par une équipe de huit chercheurs qui ont publié le célèbre article « Attention Is All You Need » en 2017. Les auteurs sont : Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser, et Illia Polosukhin. Ce qui est remarquable, c’est que tous les huit auteurs étaient considérés comme des « contributeurs égaux » au papier, et l’ordre de leurs noms a été randomisé. Cela souligne le caractère collaboratif de cette invention révolutionnaire. Cette publication de 2017 est maintenant considérée comme un moment charnière dans l’apprentissage profond. L’architecture Transformer, avec son mécanisme d’attention innovant, a révolutionné non seulement le traitement du langage naturel mais aussi de nombreux autres domaines de l’intelligence artificielle.
Ashish Vaswani, souvent mis en avant comme le premier auteur, est un informaticien d’origine indienne né en 1986, qui était alors chercheur chez Google Brain et qui est maintenant co-fondateur et PDG d’Essential AI depuis 2022.

Transformer (U-Net): Une architecture de réseau de neurones très performante, devenue la norme dans de nombreux domaines de l’IA. Elle est particulièrement douée pour comprendre le contexte global d’une donnée (comme une phrase ou une scène vidéo). L’architecture U-Net est une variante efficace pour les tâches de génération d’images.

Uncanny Valley (Vallée de l’Étrange): Un concept selon lequel un robot ou une image de synthèse qui ressemble presque parfaitement à un être humain provoque un sentiment de malaise ou de répulsion, car ses petites imperfections deviennent très dérangeantes.

Upscale: L’action d’augmenter la résolution et le niveau de détail d’une image générée par l’IA que vous avez sélectionnée.

Upscale – Upscaling: Processus qui consiste à augmenter la résolution (le nombre de pixels) d’une image pour l’agrandir sans perdre en qualité.

VAE (Variational Autoencoder): Type de réseau neuronal utilisé pour compresser des données (encodage) dans un espace latent de manière efficace, puis les décompresser (décodage) en essayant de perdre le moins d’information possible.