Sécuriser l'IA à tout prix, c'est prendre le mauvais risque

L'intelligence artificielle générative possède ce pouvoir rare : elle nous tend un miroir. Ce que ce miroir révèle sur nos pratiques en matière de sécurité des données est souvent plus inconfortable que la question de l'IA elle-même.

Quand j'accompagne des organisations dans l'adoption des outils d'IA, la question de la sécurité revient inévitablement et elle est légitime. Que deviennent les fichiers qu'on confie à ChatGPT, Claude ou Gemini ? Sont-ils exposés ? Risquent-ils d'être réutilisés ? Ce sont de bonnes questions. Mais elles en appellent d'autres : ces mêmes fichiers confidentiels, les avez-vous envoyés ou reçus par Outlook ou Gmail dernièrement ? Et les dossiers RH ou stratégiques qui transitent sur votre téléphone personnel, vous y avez réfléchi ?

Nous sommes exposés depuis longtemps

Avant même de parler d'IA générative, rappelons que l'intelligence artificielle était déjà partout. Elle siégeait discrètement dans les filtres antispam, les suggestions de réponse automatique, les moteurs de recommandation. Mais surtout, depuis longtemps, notre informatique traditionnelle n'est pas le coffre-fort qu'on imagine. Il n'existe pas un seul serveur, dans une seule entreprise, qui ne soit immunisé contre une tentative de piratage.

Outre la menace que font peser sur eux les hackers, nos outils professionnels quotidiens (Microsoft, Google, Salesforce, etc.) tombent pour la plupart sous la juridiction extraterritoriale du droit américain. Le Cloud Act de 2018 encadre notamment les procédures par lesquelles les autorités américaines peuvent, sous contrôle judiciaire et via un mandat, requérir l'accès à des données stockées sur les serveurs de ces entreprises, où qu'ils se trouvent dans le monde. La situation n'est pas celle d'un accès libre et incontrôlé, mais elle signifie que nos données ne sont pas soustraites, par principe, au droit américain.

En d'autres termes : nous faisons depuis des années confiance à des acteurs étrangers pour héberger nos données professionnelles les plus sensibles. Pas à cause de l'IA. À cause des choix technologiques que nous avons faits au cours des trente dernières années. L'IA générative ne crée pas cette dépendance. Elle la révèle.

L'IA représente-t-elle un danger supplémentaire ?

On entend souvent parler de mémorisation extractive : l'idée qu'un utilisateur malveillant pourrait, par des questions habiles, amener un modèle à restituer des informations sensibles que vous lui auriez soumises. Ce scénario fait peur. Il repose partiellement sur des faits réels, mais la conclusion qu'on en tire est souvent erronée.

Milad Nasr et Nicholas Carlini, chercheurs en sécurité, ont démontré en 2023 qu'il était possible d'extraire des données du corpus d'entraînement de ChatGPT en production, via une technique dite « par divergence ». Elle consiste à demander au modèle de répéter un mot indéfiniment jusqu'à ce qu'il déraille et régurgite du contenu mémorisé.

Mais ce qui ressort de cette attaque est exclusivement du contenu issu du corpus d'entraînement public. Ce sont des textes du web, des adresses e-mail, des numéros de téléphone qui figurent des millions de fois dans des pages indexées. Il ne s'agit en aucun cas d'un document soumis une fois dans une conversation.

Un modèle de langage ne fonctionne pas comme une base de données. Il génère des réponses à partir de réseaux neuronaux, de façon non déterministe. Pour qu'un contenu soit mémorisé et potentiellement extractible, il faudrait qu'il apparaisse des dizaines de milliers de fois dans les données d'entraînement. Des recherches récentes sur les attaques d'inférence et le fine-tuning montrent néanmoins que cette frontière n'est pas absolue, car l'état des connaissances en sécurité des LLM évolue vite. Nous restons vigilants sur ce point.

La question de confiance envers les éditeurs

Le risque réel est plus prosaïque, et paradoxalement plus difficile à contester. C'est la question de la conservation et de la traçabilité des données, ce qu'on appelle en anglais la custody. Quand vous envoyez un document à ChatGPT, par exemple, ce document part physiquement sur les serveurs d'OpenAI.

Cela pose deux questions.

La première : que font OpenAI, Google ou Anthropic de ces données ? Les conservent-ils ? Peuvent-ils les revendre, les laisser fuiter, en faire un usage commercial non prévu ? Ces grands prédateurs de la Tech, comme les qualifie Giuliano da Empoli (L'Heure des prédateurs, Gallimard, 2025), ont démontré, lors de l'entraînement de leurs modèles, une propension troublante à aspirer des contenus sans autorisation claire. Autrement dit, à ne pas toujours respecter la loi. Les procès intentés par le New York Times, des auteurs et des artistes en témoignent. La question est donc celle de la confiance qu'on accorde à ces acteurs privés, soumis au droit américain et dont le modèle économique reste sous pression. Ainsi, des documents internes d'OpenAI révélés par The Information font état de projections de pertes opérationnelles de l'ordre de 14 milliards de dollars pour l'année 2026. Cette pression financière pourrait-elle peser sur les choix d'usage des données en cas de déroute ?

La seconde question : ces données peuvent-elles servir à entraîner les futurs modèles ? Les abonnements pro des grandes IA génératives garantissent que non, sur le papier. On peut leur faire confiance, ou non. En imaginant toutefois que ces fournisseurs d'IA ne respecteraient pas leurs engagements, le risque resterait malgré tout limité. Du fait de la nature même du renforcement neuronal, un document envoyé une seule fois dans une conversation contribue tout au plus, à la marge, à ajuster des réseaux qui ingèrent des milliards de données. Mettre par erreur un document confidentiel dans une conversation avec une IA n'est pas une catastrophe technique. C'est un accroc d'hygiène numérique, pas une faille irrémédiable.

Après avoir examiné ces deux questions, voici mon point de vue : mieux vaut ne pas confier à l'IA des données véritablement confidentielles ou stratégiques. Cette position de principe comporte ses propres limites. Elle est plus facile à appliquer dans une PME que dans un hôpital, plus évidente dans une direction communication que dans un service de R&D. La cartographie des données sensibles, préalable indispensable à toute politique d'usage, reste un chantier que la plupart des organisations n'ont pas encore ouvert.

Le piège de la solution « vertueuse »

Des solutions souveraines existent. Des acteurs français proposent un usage sécurisé de l'IA, adossé à des modèles hébergés sur le territoire national, sur des serveurs présentés comme « souverains » et enrichis de corpus documentaires officiels. L'intention est excellente, mais il y a un revers bien documenté.

Malheureusement, ces outils reposent souvent sur des modèles moins performants que les grandes IA commerciales. Cet écart génère ce qu'on appelle du Shadow AI : l'usage par les salariés, en dehors de tout cadre officiel, des outils plus puissants dont les abonnements sont financés parfois sur fonds personnels.

J'en ai fait l'expérience. Deux personnes dans deux contextes différents, le directeur général des services d'une agglomération et le responsable de la gestion des eaux d'une grande ville française, me l'ont dit clairement : les outils « souverains » mis à leur disposition ne répondent pas à leurs besoins réels. Leur puissance d'analyse serait insuffisante et les erreurs trop fréquentes. Pour contourner le problème, le DGS m'a avoué utiliser discrètement ChatGPT en version payante, financée sur ses deniers personnels. Et il n'est pas le seul dans sa collectivité.

Le phénomène n'est pas isolé. Une étude de Salesforce publiée en 2024 estimait que 55 % des salariés utilisant des outils d'IA au travail le faisaient sans en informer leur hiérarchie. Ce chiffre varie selon les secteurs et les méthodologies, mais l'ordre de grandeur est cohérent avec ce qu'on observe sur le terrain.

Le Shadow AI est la conséquence logique d'une approche qui consiste à placer la performance au second plan, derrière l'illusion confortable de la sécurité.

Ce phénomène n'est pas nouveau. Les politiques de sécurité informatique ont longtemps été calibrées sur les comportements les plus risqués, bridant au passage tous ceux dont les usages auraient pu être constructifs. Avec l'IA générative, cette logique atteint ses limites pour une raison simple : l'IA est aussi un outil personnel. Les gens l'utilisent chez eux, sur leur téléphone, dans leur vie quotidienne, pour organiser leurs vacances. Leur demander d'utiliser un outil moins puissant pour organiser le congrès annuel de la société que celui avec lequel ils ont organisé leur trip en Espagne relève d'une bien grande méconnaissance de la nature humaine. Le Shadow AI ne représente pas, au premier chef, un risque de fuite de données ; c'est davantage une perte d'opportunité. Celle de travailler collectivement, de partager les pratiques, d'améliorer les usages de façon coordonnée.

Mon pari : la confiance plutôt que la contrainte

Face à ce dilemme, j'ai fait un choix que j'assume et qui n'est pas seulement éthique : c'est un choix rationnel.

Plutôt que d'imposer les outils les plus contraignants au nom de la sécurité, je préconise de mettre à disposition les outils les plus performants. J'exclus toutefois ceux présentant des risques juridiques ou structurels non maîtrisables, notamment les outils dont les conditions d'utilisation ou le cadre réglementaire d'origine offrent des garanties incompatibles avec le droit européen (IA chinoises).

Mon pari est celui de la confiance : doter les collaborateurs des outils les plus performants du moment et développer au sein des organisations un esprit de coopération, de partage des réussites et des échecs, d'amélioration continue. Faire des individus des acteurs éclairés de leurs pratiques numériques, capables de juger par eux-mêmes ce qui est pertinent, ce qui est risqué, ce qui est utile.

Cette approche ne convient pas à tous les contextes. Elle suppose un niveau de maturité numérique minimal et un cadrage clair de ce qui est confidentiel. Elle est difficile à tenir dans des secteurs où la confidentialité est une contrainte réglementaire forte, santé, défense, droit. Mais pour la majorité des organisations, le risque du repli est aujourd'hui plus grand que le risque de l'ouverture encadrée.

En réalité, nous n'avons pas vraiment le choix : l'IA est déjà dans la poche de tout le monde. La question n'est plus de savoir si les gens vont l'utiliser. C'est de savoir si on leur donne les moyens de le faire bien, ensemble, ou s'ils le font seuls, sans filet.

Les mots-clés de cette approche : confiance, responsabilisation, éducation.

Lionel MyszkaFormation, accompagnement et implémentation de l'IA

↗ Voir la publication originale