Détecter l’utilisation de l’Intelligence Artificielle dans un texte

Mission impossible ou art subtil ?

J’ai plusieurs amis qui travaillent dans l’enseignement et la formation qui se demandent comment vérifier avec efficacité si les textes de leurs étudiants ont été rédigés avec l’intelligence artificielle. Mais force est de constater que l’exercice n’est pas aussi simple qu’il n’y paraît.

Non seulement les détecteurs ne sont pas toujours fiables, mais en plus, certains textes rédigés par un humain peuvent ressortir avec un taux de suspicion élevé… Même si l’étudiant / l’apprenant n’a pas eu recours à l’IA… Comment séparer le bon grain de l’ivraie sans risquer l’erreur judiciaire pédagogique ?

C’est un véritable casse-tête. D’un côté, la tentation de la facilité pour les apprenants est réelle. De l’autre, la promesse d’un outil magique qui pourrait, en un clic, valider l’intégrité d’un travail est tout aussi séduisante pour l’évaluateur. Pourtant, se fier aveuglément à ces détecteurs n’est pas du tout une bonne idée au vu des résultats disparates…

On vit une époque formidable, n’est-ce pas ? L’IA générative nous donne accès à des outils incroyables : elle nous aide à rédiger des e-mails en un clin d’œil, à structurer des idées, à améliorer nos écrits. Mais revers de la médaille, cette facilité d’accès et d’utilisation soulève de vraies questions, surtout dans le monde de l’éducation et de la formation. Quand un apprenant doit rendre un travail écrit, comment s’assurer que c’est bien sa propre réflexion, sa propre plume qui est derrière les mots ?

Le grand flou artistique des détecteurs d’IA

Si vous vous êtes amusés à tester des détecteurs d’IA (QuillBot, Lucide.ai, Isgen.ai ou ZeroGPT pour ne citer qu’eux), vous l’aurez constaté par vous-même : on prend le texte, on le passe dans le détecteur et là, c’est la surprise ! Un coup, c’est « 100% humain », le coup d’après, « forte probabilité d’IA » et parfois, c’est carrément le grand écart avec un même texte. Mais pourquoi une telle différence dans les résultats ?

En fait, ces outils fonctionnent un peu comme des enquêteurs qui auraient chacun leurs propres méthodes. En effet, il n’existe pas une méthode de détection, mais des méthodes, à peu près autant de de modèle d’IA.

Des algorithmes et des modèles différents : Chaque détecteur est basé sur un algorithme spécifique, entraîné sur des jeux de données de textes humains et d’IA. Ils n’ont pas tous la même base de données pour « apprendre ». C’est comme demander à plusieurs sommeliers de juger un vin : ils ont tous un palais, ils ont tous suivi la même formation mais leurs références et leurs sensibilités diffèrent.

Certains détecteurs analysent la « perplexité » (la prévisibilité du texte) quand d’autres traquent la « rafale » ou burstiness (la variation dans la structure des phrases).

Cette définition est fournie par Perplexity.ai.

La technique de la « burstiness » (rafale) dans la détection de texte IA

Définition et principe :

La « burstiness », traduite en français par « rafale » ou « éclatement », désigne la variation dans la structure et la longueur des phrases au sein d’un texte. Cette technique d’analyse s’appuie sur le constat que l’écriture humaine est naturellement irrégulière : un auteur alterne souvent entre phrases courtes et longues, adopte des rythmes variés et change la structure syntaxique d’une phrase à l’autre. À l’inverse, les textes générés par l’IA présentent généralement une structure plus uniforme, avec des phrases de longueur et de complexité similaires.

Comment la burstiness est-elle utilisée ?

  • Un détecteur d’IA examine la distribution des longueurs de phrases et la diversité des structures syntaxiques dans un texte.
  • Un texte avec une faible burstiness (peu de variation) est plus susceptible d’avoir été généré par une IA, car les modèles de langage produisent souvent des phrases de longueur et de structure constantes.
  • À l’inverse, un texte humain présente une burstiness élevée : la longueur des phrases varie beaucoup, et la structure syntaxique est plus hétérogène.

Exemple d’analyse :

  • Texte IA : « Le chat dort sur le canapé. Il est noir. Il aime le lait. Il joue souvent. »
    • Phrases courtes, structure répétitive, faible burstiness.
  • Texte humain : « Le chat, noir comme la nuit, dort paisiblement sur le canapé. Parfois, il se réveille en sursaut, attiré par le bruit d’une cuillère dans une tasse de lait. »
    • Alternance de phrases longues et courtes, structures variées, burstiness élevée.

Pourquoi cette technique est-elle efficace ?

Les modèles d’IA, même avancés, tendent à générer du texte en suivant des schémas prévisibles appris lors de leur entraînement. Cela se traduit par une uniformité dans la longueur et la structure des phrases, ce qui est moins fréquent dans l’écriture humaine spontanée. L’analyse de la burstiness permet donc de repérer ces schémas et d’augmenter la fiabilité de la détection de texte généré par IA.

Résumé visuel :

CritèreTexte humainTexte IA
Longueur phrasesVariableConstante
StructureDiversifiéeRépétitive
BurstinessÉlevéeFaible

En conclusion, la burstiness est une mesure clé pour différencier l’écriture humaine de celle générée par l’IA, en se basant sur la variation naturelle de la structure et de la longueur des phrases dans un texte.

Un temps de retard constant : Les IA génératives actuelles sont de plus en plus sophistiquées et évoluent à une vitesse folle. Les modèles sur lesquels les détecteurs ont été entraînés sont souvent déjà dépassés. C’est un jeu du chat et de la souris sans fin où le chat a en permanence un temps de retard.

Le texte humain « trop parfait » : Ironie du sort, un texte humain trop « parfait » peut être pénalisé ! Si vous avez une plume très structurée, un style académique impeccable, sans faute, avec un vocabulaire riche, certains détecteurs peuvent le considérer comme « trop propre » pour être humain… Un comble !

Le saviez-vous ? En juillet 2023, OpenAI, la société créatrice de ChatGPT, a discrètement mis hors service son propre outil de détection d’IA (le « AI Classifier »). La raison invoquée ? Son « faible taux de précision« . Un aveu de taille qui en dit long sur la complexité du problème.

Le faux positif : le cauchemar de l’évaluateur

Le vrai danger, au-delà de laisser passer un texte généré par une IA, c’est d’accuser un apprenant de fraude alors qu’il est innocent. Imaginez la situation : un élève a bossé dur, a mis ses tripes sur le papier et le détecteur hurle au plagiat technologique. C’est non seulement injuste, mais cela peut briser la confiance et démoraliser l’apprenant.

ATTENTION À L’ERREUR JUDICIAIRE !

Ce phénomène de « faux positif » est malheureusement courant et les conséquences souvent dévastatrices, surtout dans un contexte de formation professionnelle ou qualifiante où la crédibilité est capitale. Une accusation, même basée sur un simple « score », peut générer un stress immense et remettre en cause injustement un parcours d’apprentissage.

Comment un texte parfaitement humain peut-il être labellisé IA ?

Plusieurs raisons à cela :

  • Un style très académique : Un étudiant qui s’applique à écrire dans un français impeccable, avec des structures de phrases complexes et un vocabulaire riche mais formel, peut produire un texte « lisse » que l’algorithme jugera suspect.
  • L’effet de la réécriture : Un apprenant méticuleux qui passe des heures à peaufiner son texte, à l’aide d’outils de correction et de reformulation (même non-IA !), peut involontairement gommer les « imperfections » humaines qui signent son authenticité.
  • Les non-francophones : Une personne dont le français n’est pas la langue maternelle peut avoir appris la langue de manière très structurée, la faisant sonner, pour une machine, de façon moins « naturelle » ou « chaotique » qu’un locuteur natif.

Imaginez la situation lors d’une évaluation intermédiaire dans une formation qualifiante. Une accusation, même basée sur un simple « score », peut briser la dynamique de confiance entre le formateur et l’apprenant, générer un stress immense et remettre en cause injustement un parcours d’apprentissage.

Comment démêler l’écheveau ? Les bonnes pratiques

Puisqu’il n’y a pas de baguette magique, il faut adopter une approche plus globale, plus « humaine ». C’est un peu comme pour le phishing, où le bon sens et l’analyse critique sont nos meilleurs alliés. Voici quelques pistes :

L’analyse stylistique approfondie

La « voix » de l’apprenant : Chaque personne a une manière d’écrire qui lui est propre. Connais-tu la voix de ton élève ? Ses expressions habituelles, ses maladresses récurrentes (oui, même les fautes peuvent être une signature humaine !), sa façon de raisonner ? L’IA, même si elle s’améliore, a souvent un ton plus neutre, plus convenu.

Et attention, parler et écrire sont deux choses différentes ! On constate régulièrement, chez nos ados par exemple, qu’un écrit peut être plutôt de bonne facture quand l’expression orale laisse à désirer. Ne jugez pas les écrits sur la base des interactions orales. Nos étudiants (par exemple) savent que l’écrit sera jugé plus sévèrement que le langage oral ; ce “laissé-aller » à l’oral n’est pas, le plus souvent, le fait d’un manque de culture, mais plutôt une sorte de conformisme aux langages utilisés entre jeunes ou sur les réseaux sociaux.

Les nuances et les digressions : Un texte humain est souvent parsemé de petites digressions, d’opinions personnelles (même si elles sont nuancées), de questions rhétoriques, de connecteurs de pensée un peu informels (« D’ailleurs », « En fait », « Cela dit »). L’IA, elle, tend à aller droit au but, de manière très linéaire.

L’originalité des idées : L’IA est entraînée sur des données existantes. Elle est excellente pour synthétiser, mais elle a plus de mal à produire des idées réellement novatrices, des raisonnements inattendus ou des connexions originales entre des concepts disparates. C’est dans l’analyse critique, la capacité à prendre du recul, que l’humain excelle encore (même si cette limite est repoussée un peu plus chaque jour).

La vérification des sources

L’IA, parfois, « hallucine » des références. Elle peut inventer des titres de livres, des noms d’auteurs ou des faits. C’est son côté « menteur » qu’on commence à bien connaître. Si des références vous semblent un peu trop parfaites ou sont introuvables, creusez !

Le dialogue : l’arme fatale

« Je suis trop vieux pour ces conneries” — comprenne qui pourra.
Roger Murtaugh

C’est sans doute l’outil le plus puissant. Un doute sur un passage ? Posez des questions ouvertes :

  • « Pouvez-vous me parler de votre processus de recherche pour ce paragraphe ? »
  • « Qu’est-ce qui vous a amené à choisir cet angle d’approche ? »
  • « Quelle a été la partie la plus difficile à rédiger et pourquoi ? »

Un apprenant qui a réellement fait le travail saura retracer son cheminement intellectuel. Demandez aussi à voir les « preuves » du travail : brouillons, plans, sources annotées. L’IA génère un produit fini, pas un processus. Ça permet d’évaluer le cheminement de la pensée au moins autant que le produit final.

Modifier les modalités d’évaluation

Si la triche devient trop facile, c’est peut-être que l’exercice n’est plus adapté. C’est l’occasion de faire preuve de créativité pédagogique :

  • Privilégiez l’oral : Une soutenance ou un simple entretien sont redoutables pour vérifier l’appropriation des contenus.
  • Évaluez en temps limité et en présentiel : La bonne vieille dissertation sur table a encore de beaux jours devant elle.
  • Ancrez les travaux dans l’expérience personnelle : Demandez des analyses basées sur des expériences vécues, des ressentis.

Sensibiliser plutôt qu’interdire

Plutôt que d’interdire, éduquons !

Expliquons les avantages de l’IA comme outil d’aide (recherche, à la reformulation, la correction, le coaching), mais aussi ses limites et l’importance de l’authenticité. L’IA peut être une formidable aide à la rédaction, un partenaire de brainstorming, un correcteur surpuissant. Mais elle ne doit pas remplacer le moteur de la pensée.

Finalement, la montée en puissance de l’IA nous force à nous poser une question essentielle : qu’est-ce qu’on évalue vraiment ? La capacité à restituer une information ou la capacité à la chercher, la comprendre, la critiquer et se l’approprier ? Le meilleur « détecteur » reste le jugement éclairé du formateur, basé sur la connaissance de ses élèves, une analyse fine et une capacité à poser les bonnes questions.

C’est un défi, oui, mais c’est aussi une opportunité de valoriser ce qui fait la richesse de la production humaine : la pensée critique, l’originalité et l’authenticité de la voix.

Et alors, la question finale à cet article :

Est-il 100% humain ? 50 % ? 30 % ? Quel a été le rôle de l’IA sur ce travail de rédaction ? Est-ce que l’IA a été utilisée ou pas du tout ? Question intéressante. Et si vous passiez ce texte dans un détecteur d’IA ?

Restez curieux et que la Force soit avec vous !

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *