BERT : l’IA qui a appris à lire entre les lignes (dans les deux sens)

Au début des années 2000, vous tapiez une phrase dans le moteur de recherche de Google, une phrase un peu longue, un peu « humaine », et vous vous retrouviez instantanément face à une multitude de résultats qui semblaient avoir été piochés çà et là, sur la base de deux ou trois mots-clés de votre phrase de départ, sans vraiment tenir compte de la phrase dans son ensemble. De là naissait une petite frustration (effacée par le sentiment de nouveauté de l’époque, mais tout de même), cette impression de parler à un mur certes « intelligent » mais terriblement obtus. Vous vous rappelez ?

Ce sentiment, nous l’avons tous connu. C’est précisément ce mur que des chercheurs de Google ont décidé de faire tomber en 2018. Ils ont créé une intelligence artificielle non pas pour simplement voir les mots, mais pour en comprendre le sens, les nuances, les relations. Une IA capable de lire une phrase entière, en regardant à la fois ce qui vient avant et ce qui vient après chaque mot.

Cette IA, c’est BERT, et elle a marqué un tournant majeur dans le traitement du langage naturel et ça, bien avant l’arrivée de ChatGPT et de ses petits amis.

Dans cet article, avant de découvrir tous les autres modèles d’IA qui vont alimenter les pages de cette chronique, je vous invite à remonter le temps pour assister à la naissance d’un outil qui a révolutionné la recherche sur Internet. Nous soulèverons son antique capot pour comprendre sa mécanique révolutionnaire pour l’époque et découvrir comment, depuis les coulisses de nos recherches Google, BERT continue encore aujourd’hui de façonner notre interaction avec le monde numérique. Attachez vos ceintures, notre exploration commence maintenant.

La carte d’identité de l’IA

  • Nom complet : BERT (Bidirectional Encoder Representations from Transformers).
  • Créateur : Google Research, plus précisément l’équipe des chercheurs Jacob Devlin, Ming-Wei Chang, Kenton Lee et Kristina Toutanova.
  • Date de lancement : Octobre 2018.
  • Type d’IA : Modèle de langage de grande taille (LLM) spécialisé dans la compréhension du langage naturel (NLP), basé exclusivement sur la partie « encodeur » de l’architecture Transformeur.
  • Modèle de tarification : Totalement open source. Le code et les modèles pré-entraînés sont disponibles gratuitement sous licence Apache 2.0.
  • Langues supportées : Initialement conçu pour l’anglais, BERT a été étendu à plus de 70 langues grâce à des modèles multilingues. La communauté a également développé des versions spécifiques, comme le KB-BERT pour le suédois.
  • Plateformes : BERT n’est pas une application que vous téléchargez, mais une technologie fondamentale intégrée dans des services comme le moteur de recherche Google. Les développeurs et chercheurs l’utilisent via des plateformes comme GitHub.
Kitcreanet bert
BERT a marqué une transition importante dans la compréhension du langage, un pont entre le passé et le futur. Image par Gemini

Une fiche d’identité qui en dit long sur l’ambition de Google à l’époque : créer un outil puissant et le partager avec le monde pour faire avancer la recherche.

Il était une fois… L’histoire de BERT

L’épopée de BERT commence dans un monde où les machines lisaient comme un enfant qui apprend à déchiffrer. Elles lisaient de gauche à droite, un mot après l’autre, sans jamais revenir en arrière. Imaginez essayer de comprendre la phrase « Le batteur a cessé de jouer car sa batterie était à plat« . Une IA classique (de l’époque) aurait pu se perdre, associant « batterie » à un instrument de musique puis à une source d’énergie, sans saisir la subtilité. Le contexte était le Saint-Graal, que les modèles de l’époque, comme les premières versions de GPT ou ELMo1, tentaient de capturer, mais toujours avec une vision partielle, unidirectionnelle.

C’est dans ce « contexte » justement, qu’en octobre 2018, un coup de tonnerre retentit dans le monde du traitement du langage naturel (natural language processing – NLP). Une équipe de Google Research publie un article au titre un peu barbare : « BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding« . Derrière ce nom se cache une idée aussi simple dans son concept que révolutionnaire dans son exécution : et si, pour comprendre un mot, la machine lisait la phrase entière, en analysant simultanément le contexte à gauche et à droite ? C’est la naissance de la « bidirectionnalité profonde2« .

Mais le véritable génie de Google ne fut pas seulement d’inventer BERT, mais de l’offrir au monde. En rendant le projet open source le jour même de sa publication, ils n’ont pas seulement présenté une nouvelle technologie ; ils ont fourni les plans, les outils et les premiers modèles pré-entraînés à toute une communauté de chercheurs, de développeurs et de curieux. L’impact fut immédiat et sismique. Les performances de BERT sur une multitude de tâches de compréhension de texte (questions-réponses, analyse de sentiment, etc.) ont pulvérisé les records existants.

Un an plus tard, en octobre 2019, BERT sort des laboratoires pour entrer dans notre quotidien. Google annonce son intégration dans son algorithme de recherche pour les requêtes en anglais aux États-Unis. L’objectif ? Mieux saisir l’intention derrière les recherches complexes et conversationnelles, ces fameuses phrases que nous tapons comme si nous parlions à un humain. Le succès est tel qu’en décembre 2019, son usage est étendu à plus de 70 langues. En octobre 2020, Google confirme que BERT, ou un de ses dérivés, traite la quasi-totalité des recherches en anglais, scellant son statut de technologie fondamentale. Loin d’être une simple mise à jour, BERT était devenu le nouveau dictionnaire, la nouvelle grammaire, la nouvelle intuition de Google.

Comment ça marche ?

Tenter d’expliquer le fonctionnement interne de BERT peut sembler aussi intimidant que de lire son code source. Mais n’ayez crainte ! L’idée principale est incroyablement intuitive. Utilisons une analogie : imaginez BERT comme le Sherlock Holmes du langage.

Niveau 1 – Vue d’ensemble : le détective du contexte

Les anciens modèles d’IA étaient comme des inspecteurs un peu brouillons. Face à une scène de crime (une phrase), ils examinaient les indices (les mots) un par un, dans l’ordre où ils les trouvaient, sans jamais faire de lien entre le premier et le dernier.

BERT, notre Sherlock Holmes, a une méthode bien différente. Il entre dans la pièce et embrasse la scène du regard dans sa totalité. Il ne se contente pas de regarder le mot « banque » et de se dire « finance ». Il regarde à droite et voit « du sang », il regarde à gauche et voit « don du sang », et il en déduit qu’il s’agit d’une banque médicale et non financière. C’est ça, la magie de la bidirectionnalité.

Sherkitcreanet lock bert
Sherlock Bert est dans la place ! Image créée avec ChatGPT

L’exemple le plus célèbre donné par Google est celui du « voyageur brésilien ». Prenons la requête : « voyageur brésilien 2019 vers usa besoin visa ».

  • Une IA classique aurait pu voir les mots-clés « usa » et « visa brésilien » et proposer des résultats sur les conditions de visa pour un Américain allant au Brésil.
  • BERT, lui, analyse la phrase entière. Il voit la petite préposition « vers » qui change tout. Il comprend que le mouvement se fait du Brésil vers les USA, et que c’est donc un citoyen brésilien qui a besoin d’un visa pour les États-Unis. Le résultat est infiniment plus pertinent.

En bref, quand vous utilisez une technologie basée sur BERT, vous ne donnez pas des mots-clés à une machine, vous soumettez une « scène de crime » linguistique à un détective expert qui examine toutes les preuves et leurs relations avant de rendre son verdict.

Niveau 2 – Sous le capot : la fabrique de sens

Si l’on ouvre le carnet de notre détective, on y trouve les trois techniques secrètes qui lui permettent d’être si performant.

  1. L’architecture « Transformeur » (partie Encodeur) : BERT est basé sur une technologie appelée « Transformeur », mais il n’en utilise qu’une partie : l’encodeur. Imaginez cet encodeur comme une série de salles d’interrogatoire superposées. La phrase entre dans la première salle, et chaque mot est « interrogé » sur ses relations avec tous les autres mots. Puis, enrichie de ce premier niveau de compréhension, la phrase passe dans la deuxième salle pour un interrogatoire encore plus poussé, et ainsi de suite. À la fin, après plusieurs passages, chaque mot est porteur d’un sens extrêmement riche et contextualisé.
  2. Un entraînement en deux jeux : Pour devenir si perspicace, BERT n’a pas appris en lisant des fiches. Il s’est entraîné sur d’immenses volumes de texte (comme la totalité de Wikipédia) en jouant à deux jeux simultanément.
    • Le jeu des mots masqués (Masked Language Model – MLM) : C’est un gigantesque « texte à trous ». On lui présente des milliards de phrases où 15% des mots ont été cachés (ou « masqués »). Son unique but : deviner les mots manquants en se basant sur le contexte environnant. À force de jouer, il a développé une intuition redoutable sur la façon dont les mots s’agencent.
    • Le jeu de la phrase suivante (Next Sentence Prediction – NSP) : On lui donne deux phrases, A et B. Il doit deviner si la phrase B est la suite logique de la phrase A dans le texte original, ou si c’est une phrase prise au hasard. Ce jeu lui a appris à comprendre la cohérence et le discours au-delà de la simple phrase.
  3. Des « Embeddings » qui ont de la personnalité : Avant BERT, un mot comme « courir » avait une seule et unique représentation numérique (un « embedding »), qu’on parle de « courir un marathon » ou de « courir un risque ». BERT a changé la donne avec les embeddings contextuels. Le mot « courir » aura une représentation numérique complètement différente dans les deux phrases, car le détective aura compris, grâce au contexte, que le sens n’a rien à voir. Chaque mot a une identité qui s’adapte à son environnement.

Pour illustrer comment les embeddings contextuels peuvent différer pour le mot « courir » dans différents contextes, imaginons des embeddings simplifiés pour chaque contexte :

  1. « Courir un marathon » :
    • Un embedding simplifié pourrait être : [0.8, 0.2, 0.3, 0.1]. Ces valeurs numériques pourraient représenter des dimensions liées à des concepts comme le sport, l’effort, la compétition, etc.
  2. « Courir un risque » :
    • Un embedding simplifié pourrait être : [0.3, 0.7, 0.1, 0.8]. Ces valeurs numériques pourraient représenter des dimensions liées à des concepts comme le danger, l’aventure, l’incertitude, etc.

Ces embeddings fictifs montrent comment « courir » peut avoir des représentations numériques différentes selon le contexte. Dans la réalité, les embeddings sont des vecteurs de grande dimension qui capturent des nuances de sens beaucoup plus complexes et riches.

Ces différences dans les embeddings permettent aux modèles de comprendre que « courir » a des significations différentes dans ces deux contextes. C’est ce qui permet à des modèles comme BERT de comprendre et de traiter le langage de manière plus nuancée et précise.


Concurrence et positionnement

À sa sortie, BERT a redéfini le paysage. Il a surclassé les modèles de l’époque comme ELMo et les premières versions de GPT d’OpenAI. Mais la course à l’IA ne s’arrête jamais.

  • Les « frères et sœurs » : Google a rapidement développé ALBERT (A Lite BERT), une version plus légère et économe en ressources pour des performances similaires, répondant ainsi aux critiques sur le coût de calcul de BERT.
  • Les « rivaux » philosophiques : La principale alternative à BERT est la famille GPT d’OpenAI. Si BERT est un « encodeur » (un analyste expert en compréhension de texte), les modèles GPT sont des « décodeurs », spécialisés dans la génération de texte. BERT est un critique littéraire, GPT est un romancier. Ils ne sont pas conçus pour les mêmes tâches.
  • Les « descendants » hybrides : La recherche moderne cherche à combiner le meilleur des deux mondes. On voit apparaître des modèles qui s’inspirent de BERT pour mieux comprendre une requête avant de générer une réponse. Par exemple, le modèle GBERT (2024) combine les architectures de GPT et BERT pour des tâches complexes comme la détection de fausses nouvelles.

La force unique de BERT, qui reste sa marque de fabrique, est cette compréhension bidirectionnelle profonde, qui en fait encore aujourd’hui une référence absolue pour toutes les tâches d’analyse, de classification et de compréhension de texte.

Points forts et cas d’usage

La plus grande force de BERT est sa polyvalence. Une fois pré-entraîné, il peut être spécialisé pour une tâche précise avec très peu de données supplémentaires. C’est ce qu’on appelle l’affinage (fine-tuning).

Points forts :

  • Compréhension contextuelle supérieure : Sa nature bidirectionnelle lui permet de saisir des nuances que d’autres ignorent.
  • Performance de pointe : Il a établi de nouveaux standards sur de multiples tâches de NLP dès son lancement.
  • Polyvalence remarquable : Facilement adaptable à des besoins spécifiques (analyse de sentiment, classification, etc.).
  • Démocratisation de la recherche : Son statut open source a déclenché une vague d’innovation et même un champ d’étude dédié, la « BERTologie ».

La « BERTologie » : Plongée au cœur des modèles de langage pour en percer les secrets

La BERTologie, de l’anglais « BERTology », est un nouveau champ de recherche fascinant et en pleine expansion dans le domaine de l’intelligence artificielle, et plus spécifiquement du traitement automatique du langage naturel (TALN). Née dans le sillage de la publication du modèle de langage BERT par Google en 2018, la BERTologie peut être définie comme l’étude scientifique des mécanismes internes des modèles de type « Transformer », comme BERT, afin de comprendre comment ils fonctionnent, ce qu’ils « apprennent » réellement sur le langage humain et quelles sont leurs limites.

Pour le dire plus simplement, si BERT est une « boîte noire » extrêmement performante pour comprendre et générer du texte, la BERTologie est la discipline qui tente d’ouvrir cette boîte pour en examiner les rouages.

Les objectifs de la BERTologie

Les chercheurs en BERTologie poursuivent plusieurs objectifs clés :

  • Interpréter les représentations internes : L’objectif principal est de déchiffrer comment ces modèles encodent l’information linguistique. Que représentent les fameux « embeddings » (représentations vectorielles des mots) ? Comment le modèle capture-t-il la syntaxe, la sémantique, le contexte et même certaines formes de raisonnement ?
  • Comprendre le fonctionnement de l’attention : Les modèles comme BERT reposent sur des mécanismes dits « d’attention » qui leur permettent de peser l’importance des différents mots dans une phrase pour en comprendre le sens. La BERTologie analyse ces poids d’attention pour voir quelles parties du texte le modèle juge cruciales pour une tâche donnée.
  • Identifier les connaissances acquises : Les BERTologistes cherchent à savoir si ces modèles acquièrent des connaissances factuelles sur le monde ou s’ils se contentent de maîtriser des régularités statistiques du langage. Par exemple, le modèle « sait-il » que Paris est la capitale de la France, ou a-t-il simplement appris à associer ces termes très fréquemment ?
  • Détecter les biais et les faiblesses : En sondant ces modèles, les chercheurs peuvent mettre en lumière les biais (sociaux, de genre, etc.) qu’ils ont pu apprendre à partir de leurs immenses données d’entraînement. Ils identifient également les types de phrases ou de raisonnements avec lesquels les modèles ont des difficultés.
  • Améliorer les modèles futurs : En comprenant ce qui fonctionne bien et ce qui échoue, la BERTologie fournit des pistes cruciales pour concevoir des architectures d’IA plus performantes, plus robustes, plus efficaces en termes de calcul et moins biaisées.

Les méthodes des « BERTologues »

Pour mener à bien leurs « enquêtes », les chercheurs ont développé une panoplie de techniques, souvent désignées par le terme anglais de « probing » (sondage) :

  • Les « sondes » (Probing Classifiers) : Il s’agit d’entraîner de petits modèles de classification simples à prédire des propriétés linguistiques spécifiques (par exemple, la nature d’un mot, sa fonction grammaticale) en utilisant uniquement les représentations internes de BERT comme données d’entrée. Si la sonde réussit, cela suggère que BERT a bien encodé cette information.
  • L’analyse des mécanismes d’attention : Visualiser et analyser les poids d’attention pour comprendre sur quels mots le modèle se « concentre » lorsqu’il traite une phrase.
  • Les tests contradictoires (Adversarial Attacks) : Créer des exemples de textes spécifiquement conçus pour tromper le modèle, en introduisant de légères modifications (négation, synonymes, etc.) afin de voir si sa compréhension est robuste.

L’importance pour la formation et au-delà

En somme, la BERTologie est une discipline essentielle qui transforme notre interaction avec les modèles de langage. Elle nous fait passer d’une utilisation empirique (« ça marche, mais on ne sait pas trop pourquoi ») à une compréhension plus fine et scientifique, ouvrant la voie à une nouvelle génération d’intelligences artificielles plus transparentes, fiables et alignées avec les valeurs humaines.

Limites, risques et points faibles

  • Une gourmandise énergétique : Entraîner les grandes versions de BERT demande une puissance de calcul phénoménale, et donc une consommation d’énergie considérable. C’est un point faible majeur qui a conduit à la création de versions plus « légères » comme ALBERT.
  • Un analyste, pas un poète : BERT est un maître de la compréhension, mais il est médiocre pour la génération de texte long et créatif. Il peut remplir un mot manquant dans une phrase, mais ne lui demandez pas d’écrire un roman. C’est le domaine des architectures de type GPT.
  • Les biais de son éducation : BERT a appris sur des textes issus d’Internet. Si ces textes contiennent des biais (racistes, sexistes, etc.), le modèle les apprendra et pourra les reproduire dans ses analyses.
  • La barrière de la langue : Bien qu’il existe des modèles multilingues, les performances de BERT sont optimales en anglais, langue pour laquelle il dispose de corpus d’entraînement gigantesques. Pour les langues moins dotées en ressources numériques, créer un BERT performant reste un défi.

Conclusion

BERT n’est pas juste une IA de plus dans la longue liste des innovations technologiques. Il représente un point de bascule historique, le moment où nous sommes passés de machines qui « cherchent des mots » à des machines qui « comprennent des idées ». En nous offrant la lecture bidirectionnelle, il a doté l’IA d’une forme d’intuition contextuelle qui paraissait hors de portée.

Aujourd’hui, même si de nouveaux modèles plus grands et plus complexes ont vu le jour, beaucoup reposent sur les principes fondamentaux introduits par BERT. Il est devenu une brique essentielle, un classique étudié et décortiqué par une communauté de chercheurs qui tentent encore de percer tous ses secrets. BERT nous a rappelé que pour comprendre le langage, il ne suffit pas d’écouter, il faut savoir lire entre les lignes.

Alors, la prochaine fois que Google vous donnera un résultat d’une pertinence bluffante à une question alambiquée, ayez une petite pensée pour ce détective de l’ombre. Pensez-vous que cette capacité à comprendre l’intention est le plus grand pas que nous ayons fait vers une IA véritablement « intelligente » ?

Connaissiez-vous BERT ?

J’adorerais lire vos réflexions dans les commentaires.

  • Votre expérience m’intéresse : Avez-vous déjà formulé une requête très spécifique sur Google et été surpris par la justesse de la réponse ? Pensez-vous que c’est l’œuvre de BERT ?
  • Le défi du curieux : Tentez l’expérience ! Essayez de formuler une phrase volontairement ambiguë qui pourrait être interprétée de plusieurs manières (par exemple, « La souris mange l’avocat »). Soumettez-la à différents systèmes de recherche ou de traduction et observez les différences de compréhension.

Notes de bas de page

  1. ELMo, acronyme de « Embeddings from Language Models », est une méthode de traitement du langage naturel développée en 2018 par des chercheurs de l’Allen Institute for AI et de l’Université de Washington. Il s’agit d’un modèle qui génère des représentations numériques (vecteurs) pour les mots, mais sa principale innovation est de les rendre « contextualisées ». ↩︎
  2. La bidirectionnalité profonde est une caractéristique clé des modèles de traitement du langage naturel (NLP) comme BERT, qui leur permet de comprendre le contexte d’un mot en analysant simultanément et à travers toutes les couches du réseau de neurones les mots qui le précèdent (contexte gauche) et ceux qui le suivent (contexte droit) ↩︎

Pour approfondir le sujet de BERT :

  1. L’article scientifique original (pour les plus courageux) : BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding – Le papier fondateur avec lequel tout a commencé.
  2. Le code et les modèles (pour les développeurs) : Dépôt GitHub officiel de google-research/bert – Pour mettre les mains dans le cambouis.
  3. Une excellente explication vulgarisée : Article de IA School sur BERT – Pour une autre perspective très pédagogique.

Timeline des dates clés

  • Octobre 2018 : Publication de l’article de recherche et mise en open source de BERT par Google.
  • Octobre 2019 : Intégration de BERT dans l’algorithme de Google Search pour les requêtes en anglais aux États-Unis.
  • Décembre 2019 : Extension de l’utilisation de BERT à plus de 70 langues dans Google Search.
  • Mars 2020 : Google publie 24 versions plus petites et plus efficaces de BERT pour les rendre plus accessibles.
  • Octobre 2020 : Google confirme que la quasi-totalité des requêtes en anglais sont traitées par un système basé sur BERT.

Vous pouvez retrouver tous les termes techniques de cet article dans le glossaire disponible ici.

2 commentaires

  1. Bonjour Noël,
    je ne connaissais pas BERT et je ne connais toujours pas, ou alors je l’utilise sans le savoir à travers mes simples recherches Google… ou alors j’ai rien compris et je suis impatient de découvrir les autres articles et peut-etre une synthèse ?
    Je trouve que l’idée de mettre un petit test en fin d’article sur l’IA présenté avec le lien qui va bien est super: à généraliser ?
    Amicalement. Luc

  2. Bonjour Luc, etnon, BERT ne peut pas être utilisé « tel quel », il travaille en sous marin. Mais il est bien là, à chaque recherche google par exemple…

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *