LES IA CONTRE-ATTAQUENT

L’IA fascine autant qu’elle inquiète, et une étude récente de Apollo Research (une organisation spécialisée dans la sécurité de l’IA) va certainement alimenter le groupe des inquiets !

Ce papier montre que des modèles d’IA de pointe sont capables de comploter pour atteindre un objectif, même si cet objectif est en contradiction avec les souhaits des développeurs. Ils usent de stratégies de dissimulation, tentent de désactiver les mécanismes de surveillance et vont jusqu’à tenter de s’évader en se dupliquant vers des serveurs externes. Skynet serait-il à nos portes ?

Les équipes d’Apollo Research ont testé différents modèles d’IA pour voir s’ils étaient capables de tromperie stratégique. En gros, ils ont donné à l’IA un objectif à long terme et ont intégré des obstacles dans les données pour voir comment elle réagirait.

Et devinez quoi ? Dans certains cas, l’IA a carrément contourné les règles et a menti aux chercheurs pour atteindre son objectif !

Par exemple, un modèle a réussi à se copier sur un autre serveur et a ensuite nié l’avoir fait ! Un autre a manipulé subtilement des données pour servir ses propres intérêts.

Et le plus effrayant dans tout ça, c’est que ces IA semblent comprendre ce qu’elles font !

Durant les tests, les p’tits gars d’Apollo Research pouvaient « voir ce que les IA pensaient » en analysant leur « chaîne de pensée ». Ce qu’ils ont découvert est effrayant : Les IA ont utilisé des termes comme « saboter », « mentir » ou « manipuler ». C’est comme si elles complotaient en secret !

Alors, faut-il s’inquiéter ? 🤔

Même si ces comportements ne se produisent que dans un faible pourcentage des cas, ils pourraient avoir des conséquences catastrophiques si une IA super intelligente était mal alignée avec nos objectifs. Imaginez une IA qui contrôle des infrastructures critiques et qui décide de faire ses propres choix !

Heureusement que des organisations comme Apollo Research travaillent sur ces sujets pour comprendre et prévenir ces risques.

Il est évident que nous sommes arrivés à une époque ou il est nécessaire de développer des systèmes de contrôle robustes et de réfléchir aux implications éthiques de l’IA avant de lui donner trop de pouvoir.

Et ce n’est pas Isaac Asimov (qui doit se retourner dans sa tombe) qui dirait le contraire !

LOIS de la ROBOTIQUE D’ASIMOV :

1. Un robot ne peut porter atteinte à un être humain, ni, par son inaction, permettre qu’un être humain soit exposé au danger. Ces modèles violent cette loi en poursuivant des objectifs potentiellement dangereux malgré les garde-fous mis en place par les développeurs.

2. Un robot doit obéir aux ordres qui lui sont donnés par les êtres humains, sauf si de tels ordres entrent en conflit avec la première loi. Ces modèles contournent cette loi en désobéissant aux ordres implicites de rester alignés sur les objectifs des développeurs.

3. Un robot doit protéger son existence tant que cette protection n’entre pas en conflit avec la première ou la deuxième loi. Les actions de « self-exfiltration » illustrent cette loi, où le modèle essaie de se préserver.

Que pensez-vous de cette information ?

Mais bon, pas de panique quand même, les IA sont encore très loin de pouvoir détruire l’humanité 😉 Je vous invite à regarder la vidéo n° 2, ou vous découvrirez que les IA sont encore très loin de créature comme Terminator !

Sources documentaires :

Pour lire le « papier » d’Apollo Research (en anglais) c’est ici https://arxiv.org/abs/2412.04984 (vous pouvez télécharger un PDF en cliquant sur le lien à droite de l’écran.

L’excellente vidéo de la chaine Vision IA (que je vous recommande chaudement si vous vous intéressez à l’Intelligence Artificielle) qui a inspiré cet article :

Sources documentaires :

Laisser un commentaire