Détecter l’utilisation de l’Intelligence Artificielle dans un texte
Mission impossible ou art subtil ?
J’ai plusieurs amis qui travaillent dans l’enseignement et la formation qui se demandent comment vérifier avec efficacité si les textes de leurs étudiants ont été rédigés avec l’intelligence artificielle. Mais force est de constater que l’exercice n’est pas aussi simple qu’il n’y paraît.
Non seulement les détecteurs ne sont pas toujours fiables, mais en plus, certains textes rédigés par un humain peuvent ressortir avec un taux de suspicion élevé… Même si l’étudiant / l’apprenant n’a pas eu recours à l’IA… Comment séparer le bon grain de l’ivraie sans risquer l’erreur judiciaire pédagogique ?
C’est un véritable casse-tête. D’un côté, la tentation de la facilité pour les apprenants est réelle. De l’autre, la promesse d’un outil magique qui pourrait, en un clic, valider l’intégrité d’un travail est tout aussi séduisante pour l’évaluateur. Pourtant, se fier aveuglément à ces détecteurs n’est pas du tout une bonne idée au vu des résultats disparates…
On vit une époque formidable, n’est-ce pas ? L’IA générative nous donne accès à des outils incroyables : elle nous aide à rédiger des e-mails en un clin d’œil, à structurer des idées, à améliorer nos écrits. Mais revers de la médaille, cette facilité d’accès et d’utilisation soulève de vraies questions, surtout dans le monde de l’éducation et de la formation. Quand un apprenant doit rendre un travail écrit, comment s’assurer que c’est bien sa propre réflexion, sa propre plume qui est derrière les mots ?
Le grand flou artistique des détecteurs d’IA
Si vous vous êtes amusés à tester des détecteurs d’IA (QuillBot, Lucide.ai, Isgen.ai ou ZeroGPT pour ne citer qu’eux), vous l’aurez constaté par vous-même : on prend le texte, on le passe dans le détecteur et là, c’est la surprise ! Un coup, c’est « 100% humain », le coup d’après, « forte probabilité d’IA » et parfois, c’est carrément le grand écart avec un même texte. Mais pourquoi une telle différence dans les résultats ?
En fait, ces outils fonctionnent un peu comme des enquêteurs qui auraient chacun leurs propres méthodes. En effet, il n’existe pas une méthode de détection, mais des méthodes, à peu près autant de de modèle d’IA.
Des algorithmes et des modèles différents : Chaque détecteur est basé sur un algorithme spécifique, entraîné sur des jeux de données de textes humains et d’IA. Ils n’ont pas tous la même base de données pour « apprendre ». C’est comme demander à plusieurs sommeliers de juger un vin : ils ont tous un palais, ils ont tous suivi la même formation mais leurs références et leurs sensibilités diffèrent.
Certains détecteurs analysent la « perplexité » (la prévisibilité du texte) quand d’autres traquent la « rafale » ou burstiness (la variation dans la structure des phrases).
Un temps de retard constant : Les IA génératives actuelles sont de plus en plus sophistiquées et évoluent à une vitesse folle. Les modèles sur lesquels les détecteurs ont été entraînés sont souvent déjà dépassés. C’est un jeu du chat et de la souris sans fin où le chat a en permanence un temps de retard.
Le texte humain « trop parfait » : Ironie du sort, un texte humain trop « parfait » peut être pénalisé ! Si vous avez une plume très structurée, un style académique impeccable, sans faute, avec un vocabulaire riche, certains détecteurs peuvent le considérer comme « trop propre » pour être humain… Un comble !
Le saviez-vous ? En juillet 2023, OpenAI, la société créatrice de ChatGPT, a discrètement mis hors service son propre outil de détection d’IA (le « AI Classifier »). La raison invoquée ? Son « faible taux de précision« . Un aveu de taille qui en dit long sur la complexité du problème.
Le faux positif : le cauchemar de l’évaluateur
Le vrai danger, au-delà de laisser passer un texte généré par une IA, c’est d’accuser un apprenant de fraude alors qu’il est innocent. Imaginez la situation : un élève a bossé dur, a mis ses tripes sur le papier et le détecteur hurle au plagiat technologique. C’est non seulement injuste, mais cela peut briser la confiance et démoraliser l’apprenant.
Ce phénomène de « faux positif » est malheureusement courant et les conséquences souvent dévastatrices, surtout dans un contexte de formation professionnelle ou qualifiante où la crédibilité est capitale. Une accusation, même basée sur un simple « score », peut générer un stress immense et remettre en cause injustement un parcours d’apprentissage.
Comment un texte parfaitement humain peut-il être labellisé IA ?
Plusieurs raisons à cela :
- Un style très académique : Un étudiant qui s’applique à écrire dans un français impeccable, avec des structures de phrases complexes et un vocabulaire riche mais formel, peut produire un texte « lisse » que l’algorithme jugera suspect.
- L’effet de la réécriture : Un apprenant méticuleux qui passe des heures à peaufiner son texte, à l’aide d’outils de correction et de reformulation (même non-IA !), peut involontairement gommer les « imperfections » humaines qui signent son authenticité.
- Les non-francophones : Une personne dont le français n’est pas la langue maternelle peut avoir appris la langue de manière très structurée, la faisant sonner, pour une machine, de façon moins « naturelle » ou « chaotique » qu’un locuteur natif.
Imaginez la situation lors d’une évaluation intermédiaire dans une formation qualifiante. Une accusation, même basée sur un simple « score », peut briser la dynamique de confiance entre le formateur et l’apprenant, générer un stress immense et remettre en cause injustement un parcours d’apprentissage.
Comment démêler l’écheveau ? Les bonnes pratiques
Puisqu’il n’y a pas de baguette magique, il faut adopter une approche plus globale, plus « humaine ». C’est un peu comme pour le phishing, où le bon sens et l’analyse critique sont nos meilleurs alliés. Voici quelques pistes :
L’analyse stylistique approfondie
La « voix » de l’apprenant : Chaque personne a une manière d’écrire qui lui est propre. Connais-tu la voix de ton élève ? Ses expressions habituelles, ses maladresses récurrentes (oui, même les fautes peuvent être une signature humaine !), sa façon de raisonner ? L’IA, même si elle s’améliore, a souvent un ton plus neutre, plus convenu.
Et attention, parler et écrire sont deux choses différentes ! On constate régulièrement, chez nos ados par exemple, qu’un écrit peut être plutôt de bonne facture quand l’expression orale laisse à désirer. Ne jugez pas les écrits sur la base des interactions orales. Nos étudiants (par exemple) savent que l’écrit sera jugé plus sévèrement que le langage oral ; ce “laissé-aller » à l’oral n’est pas, le plus souvent, le fait d’un manque de culture, mais plutôt une sorte de conformisme aux langages utilisés entre jeunes ou sur les réseaux sociaux.
Les nuances et les digressions : Un texte humain est souvent parsemé de petites digressions, d’opinions personnelles (même si elles sont nuancées), de questions rhétoriques, de connecteurs de pensée un peu informels (« D’ailleurs », « En fait », « Cela dit »). L’IA, elle, tend à aller droit au but, de manière très linéaire.
L’originalité des idées : L’IA est entraînée sur des données existantes. Elle est excellente pour synthétiser, mais elle a plus de mal à produire des idées réellement novatrices, des raisonnements inattendus ou des connexions originales entre des concepts disparates. C’est dans l’analyse critique, la capacité à prendre du recul, que l’humain excelle encore (même si cette limite est repoussée un peu plus chaque jour).
La vérification des sources
L’IA, parfois, « hallucine » des références. Elle peut inventer des titres de livres, des noms d’auteurs ou des faits. C’est son côté « menteur » qu’on commence à bien connaître. Si des références vous semblent un peu trop parfaites ou sont introuvables, creusez !
Le dialogue : l’arme fatale
« Je suis trop vieux pour ces conneries” — comprenne qui pourra.
Roger Murtaugh
C’est sans doute l’outil le plus puissant. Un doute sur un passage ? Posez des questions ouvertes :
Un apprenant qui a réellement fait le travail saura retracer son cheminement intellectuel. Demandez aussi à voir les « preuves » du travail : brouillons, plans, sources annotées. L’IA génère un produit fini, pas un processus. Ça permet d’évaluer le cheminement de la pensée au moins autant que le produit final.
Modifier les modalités d’évaluation
Si la triche devient trop facile, c’est peut-être que l’exercice n’est plus adapté. C’est l’occasion de faire preuve de créativité pédagogique :
Sensibiliser plutôt qu’interdire
Plutôt que d’interdire, éduquons !
Expliquons les avantages de l’IA comme outil d’aide (recherche, à la reformulation, la correction, le coaching), mais aussi ses limites et l’importance de l’authenticité. L’IA peut être une formidable aide à la rédaction, un partenaire de brainstorming, un correcteur surpuissant. Mais elle ne doit pas remplacer le moteur de la pensée.
Finalement, la montée en puissance de l’IA nous force à nous poser une question essentielle : qu’est-ce qu’on évalue vraiment ? La capacité à restituer une information ou la capacité à la chercher, la comprendre, la critiquer et se l’approprier ? Le meilleur « détecteur » reste le jugement éclairé du formateur, basé sur la connaissance de ses élèves, une analyse fine et une capacité à poser les bonnes questions.
C’est un défi, oui, mais c’est aussi une opportunité de valoriser ce qui fait la richesse de la production humaine : la pensée critique, l’originalité et l’authenticité de la voix.
Et alors, la question finale à cet article :
Est-il 100% humain ? 50 % ? 30 % ? Quel a été le rôle de l’IA sur ce travail de rédaction ? Est-ce que l’IA a été utilisée ou pas du tout ? Question intéressante. Et si vous passiez ce texte dans un détecteur d’IA ?
Restez curieux et que la Force soit avec vous !
