Accéder au contenu principal

Tribune : oui à un ministère du Numérique de plein exercice !

  Par Kevin Polizzi, Président Unitel Group La récente nomination de Michel Barnier au sein du gouvernement français marque un changement de cap significatif, notamment en ce qui concerne la stratégie numérique de la France et de l’Europe. Fort d'une carrière politique riche, tant au niveau national qu’européen, le nouveau Premier ministre est une figure respectée pour son expertise dans des domaines cruciaux tels que les négociations commerciales et la régulation. Cependant, c'est son influence potentielle sur les questions numériques qui suscite aujourd'hui un espoir particulier. Une expertise européenne au service du numérique Michel Barnier est avant tout un Européen convaincu, qui a joué un rôle clé dans des dossiers d’envergure, notamment comme négociateur en chef du Brexit pour l'Union européenne. Cette expérience le place en position idéale pour aborder les problématiques numériques avec une vision transnationale. Dans un monde de plus en plus interconnecté, où

Apprendre à désapprendre : le nouveau défi de l’intelligence artificielle

IA

Par Martin Van Waerebeke, Inria et Marco Lorenzi, Inria

Vos données vous appartiennent. Du moins, c’est ce que prévoit la loi européenne sur la régulation des données (RGPD). D’une part, elle limite la collecte de vos données par les entreprises privées à ce que vous avez consenti. D’une autre, elle vous permet de demander l’effacement total des informations vous concernant des serveurs de cet acteur : il s’agit du droit à l’oubli. C’est ce second volet qui nous intéresse ici, et son applicabilité dans le monde moderne. Si supprimer quelques lignes d’une base de données n’a rien de compliqué, la tâche devient nettement plus périlleuse quand l’intelligence artificielle (IA) entre en jeu.

En effet, des modèles d’IA de plus en plus complexes, fondés sur des réseaux de neurones artificiels, sont déjà déployés par de nombreux acteurs privés. Ces modèles ont besoin d’apprendre à partir d’un maximum de données pour être performants. Ainsi, la présence d’informations vous concernant dans les serveurs d’une entreprise implique souvent son utilisation pour l’entraînement de ses modèles d’IA. Dès lors, l’oubli de vos données passe de la simple suppression d’une ligne dans un tableau à une opération complexe s’approchant plus de la neurochirurgie appliquée à des « cerveaux » artificiels. Alors, comment réussir à faire oublier une information précise à un réseau de neurones artificiel ?

Oublier les données : des enjeux d’éthique et de vie privée

L’application au cas de la protection des données est importante, mais l’enjeu de l’oubli machine, également appelé désapprentissage, ne s’arrête pas là. L’utilisation d’informations protégées pour l’entraînement de réseaux de neurones artificiels est encore une zone grise aux yeux de la loi. Plusieurs cas de ce type sont en train d’être traités par la justice dans différents pays et ils pourraient marquer un précédent important pour le futur de la législation de l’intelligence artificielle.

Exemple notable : dans certains cas de figure, ChatGPT est capable de réciter des paragraphes entiers d’articles du New York Times, sans pour autant citer sa source. Le quotidien américain a donc porté plainte contre OpenAI, la société développant ChatGPT, et l’issu du procès pourrait bien orienter la jurisprudence future dans le domaine. Toutefois, l’oubli machine ne se limite pas à l’utilisation des données personnelles ou commerciales. En effet, la tendance mondiale depuis quelques années est à l’entraînement de modèles de plus en plus imposants, notamment dans le domaine du traitement du langage où les progrès faits sont impressionnants. Il devient donc de plus en plus compliqué de contrôler la légitimité des données utilisées pour entraîner des IA.

Si GPT-3, le modèle d’OpenAI de 2020, avait appris d’un corpus représentant 2 400 années de lecture continue pour un humain moyen, ce chiffre n’a fait qu’augmenter, rendant la vérification manuelle impossible. Qu’il s’agisse d’affirmations fausses, de contenus racistes ou sexistes, ou bien de coordonnées personnelles d’individus, il y a fort à parier que certains se glissent malencontreusement dans les données d’entraînement et donc dans les connaissances d’un tel modèle. L’absence actuelle de méthodes d’oubli efficaces signifie alors qu’en cas d’infiltration de données non voulues, il n’y aura pas de réelle solution pour effacer cette information outre le réentraînement, dont le coût se chiffre en dizaines de millions d’euros et en centaines de tonnes de CO2.

Comment les neurones artificiels apprennent-ils ?

Pour comprendre la difficulté liée à la suppression d’informations dans un réseau de neurones, il est utile d’avoir une idée de comment un tel réseau « apprend ». Prenons un réseau de neurones chargé de différencier des images de chiens et de chats. L’ensemble des images labellisées (c’est-à-dire avec une légende « chien » ou « chat ») utilisé par le réseau de neurones pour apprendre est appelé « jeu d’entraînement ».

Le réseau est initialisé aléatoirement : on crée des neurones artificiels, organisés en couches, et connectés entre eux. La force de ces connexions, appelée « poids », est l’équivalent des connexions neuronales d’un cerveau réel. Ces poids permettent de caractériser la façon dont l’entrée (l’image de chien ou de chat) est traitée, transformée et envoyée entre les différents neurones du « cerveau » artificiel, pour que ressorte finalement un score entre 0 et 1. Un score de 0 (ou de 1) correspond à la certitude absolue que l’image est un chat (ou un chien), et un score de 0,5 correspond à une incertitude totale entre les deux. Des outils ludiques permettent de se représenter le fonctionnement d’un réseau de neurones).

Pendant la phase dite « d’apprentissage », des images du jeu d’entraînement sont montrées au réseau de neurones, qui prédit un label pour chacune d’entre elles. On donne ensuite au réseau le vrai label qui était attendu. Le modèle peut alors calculer l’erreur qu’il a faite. C’est là que la magie va opérer. À partir de la seule information de l’erreur commise, le réseau va mettre à jour l’ensemble de ses poids pour tenter de la corriger. Cette modification utilise des règles de calcul simples à l’échelle d’un neurone, mais incompréhensible pour l’humain à l’échelle du réseau entier.

Où se trouvent les données, une fois le modèle entraîné ?

C’est de là que vient un paradoxe, souvent difficile à comprendre pour les non-initiés : même si l’humain a conçu de A à Z ces architectures d’intelligence artificielle, le système qui en résulte n’est pas totalement compréhensible par son créateur. Certains groupes de neurones sont relativement bien compris par les chercheurs. Toutefois, le rôle précis de chacun des neurones est mal connu et également sujet à interprétation. Il est donc ardu de répondre à une question du type « trouvez l’ensemble des neurones servant à identifier la queue du chien », d’autant que les neurones sont fortement connectés entre eux et que réduire un neurone à une seule fonctionnalité est généralement impossible.

La question posée lorsque l’on cherche à faire du désapprentissage est encore plus difficile : comment chacun des neurones du réseau aurait-il été impacté si on n’avait jamais traité l’image de chat n° 45872 ? Il ne s’agit pas alors d’altérer la capacité du réseau à reconnaître les chats – cette image peut très bien apporter peu d’informations – ni de supprimer l’image de la base de données puisque ce qu’en a appris le réseau est stocké, comme pour un cerveau humain, dans les poids liant les neurones. Il faut alors tâcher d’identifier les connexions neuronales (poids) qui ont le plus appris de cette image en particulier, et modifier leur intensité dans le but de détruire l’information associée à la donnée dont on veut simuler l’oubli.

Différentes pistes vers le désapprentissage

Trois critères principaux assurent un désapprentissage efficace. D’abord, l’oubli doit se faire assez rapidement, sinon il est plus simple de réentraîner le modèle entièrement. Ensuite, les performances du réseau sur les données restantes (non oubliées) doivent rester bonnes. Enfin, l’oubli de l’information doit être assuré par la procédure. Ce dernier point est le plus délicat étant donné qu’il consiste en la vérification de l’absence d’une information. Quantifier mathématiquement les capacités d’oubli de la méthode est donc crucial.

Parmi les méthodes envisagées dans la littérature, beaucoup se reposent sur une phase d’apprentissage sur les données restantes. Ce réentraînement permet au réseau de mettre à jour ses poids pour se spécialiser uniquement sur ces données. Le but est « d’écraser » au fur et à mesure l’information des données à oublier, comme le fait par exemple le cerveau humain pour une langue non pratiquée.

D’autres méthodes essaient d’utiliser les données à oublier pour inverser le processus d’apprentissage. Si cette idée peut sembler très intuitive, nous n’avons à ce jour aucune garantie mathématique sur la quantification de l’oubli qu’elle permet. De plus, son instabilité peut parfois mener à une dégradation globale des performances du modèle.

Enfin, certains misent sur une modification du processus d’entraînement pour faciliter l’oubli futur de données. En fournissant petit à petit les données d’entraînement au réseau, l’oubli peut se faire par un simple retour en arrière jusqu’à un point où le réseau n’a pas vu la donnée à oublier. Il est suivi d’une phase de réentraînement sur les données restantes. La limite de ce type d’approche est l’existence nécessaire de « premières données » vues par le modèle, ce qui forcerait celui-ci à être réinitialisé entièrement en cas de demande d’oubli. On ne peut en effet pas « ôter » l’effet de ces premières données sur le modèle : isoler exactement l’impact d’une donnée est aussi cher que d’entraîner un modèle de A à Z.

Un déploiement encore balbutiant

Le domaine de l’oubli machine est vaste et comporte de nombreux défis. Bien qu’aucune méthode ne soit encore parfaite, des progrès significatifs sont à attendre dans les prochaines années du fait de la demande croissante pour ce type de solutions. Bien que le domaine du désapprentissage soit encore jeune et qu’aucune application industrielle n’ait été rendue publique, certaines entreprises comme Google ou JPMorgan Chase s’intéressent de près au sujet.

L’oubli machine pose un défi complexe mais essentiel à l’ère de l’intelligence artificielle et de la protection des données personnelles. Bien que la réglementation comme le RGPD vise à garantir les droits des individus, sa mise en œuvre dans les réseaux de neurones est difficile. Les approches actuelles montrent des progrès, mais nous sommes encore à l’avant-garde de cette problématique. L’investissement de grandes entreprises suggère un avenir pérenne pour le domaine, offrant des méthodes plus robustes pour assurer le désapprentissage et renforcer la confiance des utilisateurs dans les systèmes d’IA.The Conversation

Martin Van Waerebeke, Doctorant en (dés)apprentissage machine, Inria et Marco Lorenzi, Chercheur (analyse données de santé, imagerie medicale, apprentissage automatique, modelisation), Inria

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Posts les plus consultés de ce blog

Le bipeur des années 80 plus efficace que le smartphone ?

Par André Spicer, professeur en comportement organisationnel à la Cass Business School (City University of London) : Vous vous souvenez des bipeurs ? Ces appareils étaient utilisés largement avant l'arrivée massive des téléphones portables et des SMS. Si vous aviez un bipeur, vous pouviez recevoir des messages simples, mais vous ne pouviez pas répondre. Un des rares endroits où on peut encore en trouver aujourd’hui sont les hôpitaux. Le Service National de Santé au Royaume-Uni (National Health Service) en utilise plus de 130 000. Cela représente environ 10 % du nombre total de bipeurs présents dans le monde. Une récente enquête menée au sein des hôpitaux américains a révélé que malgré la disponibilité de nombreuses solutions de rechange, les bipeurs demeurent le moyen de communication le plus couramment utilisée par les médecins américains. La fin du bipeur dans les hôpitaux britanniques ? Néanmoins, les jours du bipeur dans les hôpitaux britanniques pourraient être compté

Comment les machines succombent à la chaleur, des voitures aux ordinateurs

  La chaleur extrême peut affecter le fonctionnement des machines, et le fait que de nombreuses machines dégagent de la chaleur n’arrange pas les choses. Afif Ramdhasuma/Unsplash , CC BY-SA Par  Srinivas Garimella , Georgia Institute of Technology et Matthew T. Hughes , Massachusetts Institute of Technology (MIT) Les humains ne sont pas les seuls à devoir rester au frais, en cette fin d’été marquée par les records de chaleur . De nombreuses machines, allant des téléphones portables aux voitures et avions, en passant par les serveurs et ordinateurs des data center , perdent ainsi en efficacité et se dégradent plus rapidement en cas de chaleur extrême . Les machines génèrent de plus leur propre chaleur, ce qui augmente encore la température ambiante autour d’elles. Nous sommes chercheurs en ingénierie et nous étudions comment les dispositifs mécaniques, électriques et électroniques sont affectés par la chaleur, et s’il est possible de r

Quelle technologie choisir pour connecter les objets ?

Par Frédéric Salles, Président et co-fondateur de Matooma   En 2021, le nombre total d'objets connectés utilisés atteindra les 25 milliards selon Gartner. Il est ainsi légitime de se demander quelles sont les technologies principales permettant de connecter les objets, et quelle pourrait être celle la plus adaptée pour sa solution. Un projet de vidéosurveillance par exemple n'aura absolument pas les mêmes besoins qu'un projet basé sur le relevé de température au milieu du désert. Ainsi pour trouver la meilleure connectivité pour son objet, de nombreuses questions peuvent se poser : mon objet fonctionne-t-il sur batterie ou est-il alimenté ? Mon objet restera-t-il statique ou sera-t-il mobile ?  Mon objet est-il susceptible d'être dans un endroit difficile d'accès ou enterré ? A quelle fréquence mes données doivent-elles remonter ? Etc. Voici les différentes solutions actuellement disponibles sur le marché. Courte distance : RFID/Bluetooth/WiFi La RFID (Ra

De quoi l’inclusion numérique est-elle le nom ?

Les professionnels de l'inclusion numérique ont pour leitmotiv la transmission de savoirs, de savoir-faire et de compétences en lien avec la culture numérique. Pexels , CC BY-NC Par  Matthieu Demory , Aix-Marseille Université (AMU) Dans le cadre du Conseil National de la Refondation , le gouvernement français a proposé au printemps 2023 une feuille de route pour l’inclusion numérique intitulée « France Numérique Ensemble » . Ce programme, structuré autour de 15 engagements se veut opérationnel jusqu’en 2027. Il conduit les acteurs de terrain de l’inclusion numérique, notamment les Hubs territoriaux pour un numérique inclusif (les structures intermédiaires ayant pour objectif la mise en relation de l’État avec les structures locales), à se rapprocher des préfectures, des conseils départementaux et régionaux, afin de mettre en place des feuilles de route territoriales. Ces documents permettront d’organiser une gouvernance locale et dé

La fin du VHS

La bonne vieille cassette VHS vient de fêter ses 30 ans le mois dernier. Certes, il y avait bien eu des enregistreurs audiovisuels avant septembre 1976, mais c’est en lançant le massif HR-3300 que JVC remporta la bataille des formats face au Betamax de Sony, pourtant de meilleure qualité. Ironie du sort, les deux géants de l’électronique se retrouvent encore aujourd’hui face à face pour déterminer le format qui doit succéder au DVD (lire encadré). Chassée par les DVD ou cantonnée au mieux à une petite étagère dans les vidéoclubs depuis déjà quatre ans, la cassette a vu sa mort programmée par les studios hollywoodiens qui ont décidé d’arrêter de commercialiser leurs films sur ce support fin 2006. Restait un atout à la cassette VHS: l’enregistrement des programmes télé chez soi. Las, l’apparition des lecteurs-enregistreurs de DVD et, surtout, ceux dotés d’un disque dur, ont sonné le glas de la cassette VHS, encombrante et offrant une piètre qualité à l’heure de la TNT et des écrans pl

L’Europe veut s’armer contre la cybercriminalité avec le Cyber Resilience Act

  Par  Patricia Mouy , Commissariat à l’énergie atomique et aux énergies alternatives (CEA) et Sébastien Bardin , Commissariat à l’énergie atomique et aux énergies alternatives (CEA) Assez des cyberattaques  ? La loi sur la cyberrésilience, ou Cyber Resilience Act a été adoptée par les députés européens le 12 mars dernier et arrive en application dans les mois à venir, avec l’ambition de changer la donne en termes de sécurité des systèmes numériques en Europe. Alors que les systèmes numériques sont littéralement au cœur des sociétés modernes, leurs potentielles faiblesses face aux attaques informatiques deviennent des sources de risques majeurs – vol de données privées, espionnage entre états ou encore guerre économique. Citons par exemple le cas de Mirai , attaque à grande échelle en 2016, utilisant le détournement de dispositifs grand public comme des caméras connectées pour surcharger des domaines Internet d’entreprise, attaque de type DDoS (déni de service distribué)