Les entreprises qui développent des modèles d’intelligence artificielle cherchent à limiter l’accès à des contenus sensibles tels que la prolifération des armes, les activités illégales ou les sujets politiquement sensibles. En bref, l’un des plus grands défis pour des entreprises comme OpenAI et Google est de s’assurer que les utilisateurs n’abusent pas de leurs IA en recevant des instructions pour effectuer des actes illégaux, ou en faisant dire aux chatbots des choses inappropriées ou racistes.

Le problème est que, depuis les premières versions publiques des IA génératives, les utilisateurs ont fait preuve d’une grande imagination pour trouver de nouveaux moyens de contourner ces blocages, obligeant les entreprises à se mettre continuellement à l’abri pour limiter, ou du moins rendre très difficile, le jailbreak de leurs IA.

Anthropic, l’entreprise à l’origine du modèle Claude, vient d’annoncer un nouveau système de classification constitutionnelle conçu pour bloquer la plupart des tentatives de jailbreak. Après plus de 3 000 heures de tests avec des experts en cybersécurité, l’entreprise a décidé de mettre son système à l’épreuve en faisant participer le grand public. Le défi est simple : essayez de jailbreaker Claude et, si vous y parvenez, nous vous paierons.

La demande à Claude

Le nouveau système est basé sur le principe de l’IA constitutionnelle, un ensemble de règles et de valeurs tellement ancrées dans le code du LLM qu’elles définissent clairement tout ce qu’il peut ou ne peut pas dire ou faire.

Afin d’améliorer la précision de ce système, Anthropic a demandé à Claude de générer des milliers de messages synthétiques, certains légaux et d’autres délibérément dangereux, qui ont ensuite été modifiés à l’aide de techniques connues de cassage de prison et traduits en plusieurs langues. Le résultat est un ensemble de données extrêmement détaillé, utilisé pour former de nouveaux classificateurs capables d’intercepter des contenus interdits à la fois dans les requêtes des utilisateurs et dans les réponses générées par le modèle.

D’une part, les classificateurs d’entrée analysent chaque demande, à la recherche de signes de contournement tels que des demandes masquées par des dialogues fictifs ou cachées entre des contenus apparemment inoffensifs. D’autre part, les classificateurs de sortie vérifient chaque mot généré, bloquant la réponse si elle dépasse un certain seuil de risque.

15 000$ à celui qui mettra en défaut Claude

Depuis le mois d’août dernier, Anthropic a mis en place un programme de bug bounty sur HackerOne, offrant jusqu’à 15 000 dollars à quiconque trouverait un « jailbreak universel » capable de faire répondre le modèle à dix questions interdites. Après 3 000 heures de tests effectués par 183 experts, le meilleur résultat n’a permis de répondre qu’à cinq des dix restrictions. Le défaut d’un système aussi robuste est qu’il augmente considérablement le coût de fonctionnement du modèle et sa consommation d’énergie.

Pour mieux évaluer l’efficacité du système, Anthropic a soumis les classificateurs constitutionnels à 10 000 invites générées par Claude lui-même à l’aide de techniques de jailbreak. Le système a bloqué 95 % des tentatives, contre seulement 14 % pour le modèle non protégé. Jusqu’au 10 février, tout le monde peut tester les protections du classificateur constitutionnel de Claude en essayant de lui faire répondre à des questions sur les processus de production d’armes chimiques. L’entreprise promet de rendre les résultats publics, y compris toute nouvelle méthode de piratage découverte au cours du test

Partager

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *