Un ami informaticien sort son terminal, lance un outil de capture de trafic réseau, et vous montre en temps réel ce qu’un chatbot grand public envoie vers ses serveurs pendant que vous lui soumettez votre relevé de carrière retraite. Nom, dates de naissance, numéro de sécurité sociale, trimestres validés : tout transite, en clair dans la requête, vers des serveurs situés aux États-Unis. Le confort du service d’un côté. Le prix invisible de l’autre.
Ce scénario n’est pas hypothétique. C’est exactement ce que font des millions d’utilisateurs chaque semaine, souvent sans réaliser que ce qu’ils considèrent comme une “simple question à l’IA” est en réalité un transfert de données personnelles particulièrement sensibles vers des infrastructures étrangères.
À retenir
- Votre relevé de carrière contient votre empreinte sociale complète : pourquoi les chatbots en font bien plus que l’analyser
- Les données que vous soumettez ne disparaissent pas après : elles entraînent les modèles futurs, même désidentifiées
- Trois gestes concrets pour reprendre le contrôle de vos données auprès de chaque service d’IA
Ce que l’IA reçoit vraiment quand vous uploadez votre relevé
Les chatbots collectent et stockent les transcriptions complètes des conversations, ce qui inclut toutes les questions, les invites et les messages que vous envoyez. Mais quand vous glissez un PDF de relevé de carrière dans la fenêtre de chat, vous ne soumettez pas juste “du texte” : vous exposez un document qui concentre à lui seul votre numéro de sécurité sociale, vos employeurs successifs, vos revenus année par année, et potentiellement votre adresse. C’est votre empreinte sociale complète sur quarante ans de vie professionnelle.
ChatGPT stocke certaines données sur des serveurs situés aux États-Unis, notamment les prompts que vous envoyez, les réponses générées, et certains éléments techniques comme votre adresse IP. La subtilité, c’est que la politique de confidentialité de certains outils d’IA générative impose le stockage des données dans des serveurs situés à l’étranger, parfois sans obtenir le consentement clair et explicite des utilisateurs, et ce stockage implique que ces données puissent être soumises à des lois étrangères à portée extraterritoriale.
La marque annonce que vos données sont traitées de manière sécurisée. Mais en pratique, les versions grand public des principaux outils d’IA générative, gratuites et standards, utilisent souvent les données entrées par l’utilisateur pour entraîner leurs modèles. Concrètement, des contenus partagés, y compris des documents contenant des données personnelles, peuvent servir de base à l’amélioration future des modèles d’IA, même s’ils sont soumis à des mécanismes de désidentification, mécanismes qui ne sont toutefois pas infaillibles.
Le numéro de sécurité sociale : la donnée à ne jamais lâcher
Votre NIR, ce numéro à 13 chiffres qui apparaît sur votre relevé de carrière, n’est pas une information anodine. Pour comprendre à quel point il est convoité, un chiffre suffit : en France, plus de 33 millions de personnes ont vu leurs données compromises lors d’une fuite massive, parmi lesquelles l’état civil, la date de naissance et le numéro de sécurité sociale. Cette cyberattaque ciblait deux opérateurs de tiers-payant, pas une IA, mais elle illustre parfaitement la valeur marchande de ces données sur les marchés parallèles.
Communiquer à un chatbot son nom complet, son adresse, une pièce d’identité ou son numéro de sécurité sociale expose à des risques d’usurpation d’identité ou d’autres stratagèmes frauduleux. Et les escrocs ne manquent pas d’imagination pour exploiter ces brèches : après les ravages des arnaques à l’assurance retraite, une explosion de nouvelles escroqueries a fait perdre plusieurs millions d’euros à des seniors, et en France, les fraudes numériques ont bondi de 30 % selon la plateforme cybermalveillance.gouv.fr.
Parmi les données à ne jamais soumettre à un chatbot figurent explicitement les données personnelles identifiables comme le numéro de sécurité sociale, les informations financières, les relevés de compte, ainsi que les documents juridiques privés. OpenAI le dit lui-même dans ses recommandations aux utilisateurs. Ce qui est troublant, c’est que la majorité des utilisateurs ne lisent pas les conditions d’utilisation et les acceptent systématiquement.
Ce que dit la CNIL, et ce que vous pouvez faire concrètement
La CNIL est claire sur ce point : si des données personnelles sont utilisées en entrée d’un système d’IA, le RGPD s’applique. Mais la réglementation reste plus facile à énoncer qu’à faire respecter quand les serveurs sont à San Francisco et que les modèles apprennent en continu. La régulation des IA génératives reste difficile à mettre en œuvre, à cause notamment de leur rythme d’évolution fulgurant, de leur complexité technique, et des enjeux transnationaux.
La CNIL a néanmoins publié un guide pratique permettant de s’opposer, service par service, à la réutilisation de ses données. Sur Le Chat de Mistral par exemple, il suffit de se rendre dans les paramètres du compte, onglet “Préférences”, et de décocher la case “Autoriser l’utilisation de vos interactions pour entraîner nos modèles”. Sur Copilot de Microsoft, la démarche passe par les paramètres de confidentialité, en désactivant les options “Formation du modèle sur du texte” et “Formation du modèle sur la voix”. Ces options existent. Peu de gens les cherchent.
Les chatbots proposant un mode d’écriture libre, ils peuvent être amenés à traiter des données sensibles directement fournies par l’utilisateur, sans que le responsable de traitement ne l’ait anticipé. C’est précisément le piège du relevé de retraite : personne ne vous interdit techniquement de le coller dans une fenêtre de chat. Le service fonctionne, l’analyse est souvent pertinente. Et pourtant.
La bonne pratique, recommandée par la Direction Générale de la Sécurité Intérieure elle-même, est simple : les IA génératives disponibles gratuitement collectent les données soumises par l’utilisateur, il est donc nécessaire d’anonymiser systématiquement les requêtes effectuées. Pour un relevé de carrière, cela signifie remplacer les données identifiantes par des valeurs fictives avant de soumettre le document. L’IA peut très bien analyser une structure de carrière avec des trimestres et des salaires génériques. Elle n’a aucun besoin de savoir que vous vous appelez Jean-Pierre et que vous êtes né à Lyon en 1963.
Ce qui change la donne à moyen terme, c’est l’émergence de modèles locaux, qui tournent directement sur votre machine sans transmettre quoi que ce soit vers l’extérieur. Des outils comme Ollama permettent déjà de faire tourner des modèles compétents sur un simple ordinateur portable. Pour les documents ultra-sensibles, c’est la seule approche qui garantit que rien ne sort. La CNIL détaille d’ailleurs les risques spécifiques aux systèmes d’IA : extraction de données personnelles à partir du modèle, attaques par injection de prompts, et manipulation des résultats. Autant de vecteurs qui se multiplient à mesure que l’on confie à ces outils des documents de plus en plus personnels.
Sources : cnil.fr | europe1.fr