Marc Faddoul est chercheur en IA, expert en systèmes de recommandation et en audit algorithmique. Directeur et cofondateur d'AI Forensics, une association de défense des droits numériques, il conseille régulièrement les régulateurs, y compris la Commission européenne, en matière d'éthique de l'IA et de responsabilité des plateformes.
Qu'est-ce qui vous a fait prendre conscience du problème de l'opacité des algorithmes ?
Le premier projet sur lequel j'ai travaillé portait sur l'algorithme de recommandation de YouTube. À l'époque, il était beaucoup critiqué pour promouvoir des théories du complot. Après une sorte de déni prolongé, YouTube a fini par reconnaître le problème et a promis de réduire la diffusion de ces contenus. Mais on ne pouvait pas simplement les croire sur parole et leur algorithme était opaque. Il devenait donc nécessaire de mesurer concrètement la proportion de théories du complot recommandées pour vérifier leur engagement.
J'ai mené cette étude d’abord dans un cadre académique à l'université de Berkeley. Cette expérience m'a aussi confronté aux difficultés pratiques et opérationnelles pour conduire ce type d'audit, ce qui m'a donné l'idée de créer AI Forensics. Cette organisation à but non lucratif est dédiée à l’investigation des algorithmes pour tenir les plateformes responsables de l'impact de leurs systèmes sur la société.
Le manque de transparence des algorithmes n’est-il pas inhérent à l'intelligence artificielle, surtout lorsque les ingénieurs eux-mêmes reconnaissent leur incapacité à expliquer certains modèles qui fonctionnent comme une « boîte noire » ?
Oui, tout à fait. Il y a une partie du système qui est fondamentalement peu interprétable, ce qui est une caractéristique de l'apprentissage profond (deeplearning), qui est le paradigme principal utilisé dans de nombreux systèmes d'intelligence artificielle, en particulier pour les recommandations. En revanche, certaines parties, notamment le design général de l'algorithme, pourraient être plus transparentes. Il s’agit par exemple de savoir quelles données sont utilisées pour entraîner l'algorithme, quelles métriques d’optimisation sont choisies, et comment les différents objectifs sont pondérés les uns par rapport aux autres. Toute cette opacité est inutile et ce sont des informations que les plateformes pourraient et devraient divulguer au public.
Les grandes entreprises technologiques sont-elles donc volontairement opaques dans leurs pratiques algorithmiques ?
Absolument. En général, elles justifient cela par le secret des affaires, mais en réalité, c’est aussi un moyen de limiter la vigilance publique. Pour permettre aux chercheurs de réaliser des études, comme celles que j'ai menées sur YouTube, il faut avoir un accès aux données. Certaines plateformes ont mis en place des mécanismes plus ou moins généreux et fonctionnels. Pendant longtemps, X (anciennement Twitter) était le meilleur élève en la matière, offrant un accès assez large à ses données pour les chercheurs. C'est d’ailleurs pourquoi il y avait pendant longtemps plus de recherches sur X que sur d'autres plateformes. Cependant, depuis le rachat par Elon Musk, cette dynamique s'est complètement inversée. Aujourd'hui, X est devenue l'une des plateformes les plus opaques, ayant décidé de monétiser l'accès à ses données comme élément essentiel de son modèle économique. En conséquence, beaucoup de chercheurs qui utilisaient Twitter pour des études essentiellement sociologiques ne peuvent plus le faire.
Comment menez-vous vos enquêtes et comment parvenez-vous à analyser les mécanismes algorithmiques depuis l'extérieur ?
L'un de nos domaines d'expertise consiste à obtenir des données « adversariales », notamment lorsque l'accès aux données officielles fournies par les plateformes est limité. Dans ce cas, nous développons des méthodes alternatives pour réaliser des audits quantitatifs. Cela inclut le scraping des plateformes, c'est-à-dire la récupération du contenu affiché sur une page web en simulant des utilisateurs réels, ou l'utilisation d'autres API (application programming interface) accessibles. Ces techniques nous permettent de mener des audits comportementaux sur les systèmes de recommandation.
Quelle enquête vous a particulièrement marqué dans le cadre de vos recherches ?
L'année dernière, nous avons mené une enquête sur la modération des publicités politiques sur Meta (Facebook et Instagram). Nous avons révélé un manque de modération systématique qui favorisait des campagnes d'influence, les publicités politiques n’étant pas identifiées comme telles sur la plateforme. Cette faille a été exploitée par un réseau de propagande pro- russe, qui l’a utilisée à grande échelle pour diffuser de la désinformation auprès des utilisateurs européens, en particulier lors des campagnes pour les élections au Parlement européen de juin dernier. Des milliers de faux comptes, orchestrés principalement depuis la Russie, ont ainsi propagé des messages politiques visant par exemple à discréditer les aides à l’Ukraine. À la suite de notre étude, la Commission européenne a ouvert une enquête officielle contre Meta, en se basant sur la nouvelle législation européenne, le Digital Services Act.
Vous mentionnez que les algorithmes des réseaux sociaux deviennent de plus en plus paternalistes. Que voulez-vous dire par là ?
Par "paternaliste", je fais référence au fait que les applications modernes réduisent de plus en plus la liberté de choix de l'utilisateur. Autrefois, sur les réseaux sociaux, l'utilisateur choisissait les contenus qu'il voulait visionner, ceux-ci étant davantage basés sur ses préférences explicites. Depuis l'émergence de plateformes comme TikTok, les réseaux sociaux se sont tournés vers une recommandation algorithmique pure, où l'utilisateur a de moins en moins d'influence et où l'algorithme lui impose désormais le contenu qu’il pense être le plus susceptible de générer de l'engagement.
« L'IA générative peut être utilisée pour gérer des faux comptes qui interagissent directement avec les utilisateurs en fonction des profils psychologiques : c'est la massification de la personnalisation. »
En quoi l’IA générative aggrave-t-elle des problèmes tels que la désinformation ?
L'IA générative crée et amplifie plusieurs problèmes qui s’ajoutent à ceux des algorithmes de distribution de contenu via les systèmes de recommandation. Elle permet notamment de créer des contenus trompeurs et illicites, comme des deepfakes visuels ou audio. De plus, l'IA générative peut être utilisée pour gérer des faux comptes et des bots qui interagissent directement avec les utilisateurs en engageant des conversations personnalisées ou en envoyant des contenus ciblés, dans le but d’influencer les opinions en fonction des profils psychologiques et des intérêts divulgués par les utilisateurs : c’est la massification de la personnalisation.
N’assistons-nous pas à une véritable délégation de pouvoir avec l’influence grandissante de l’IA sur nos choix, et plus largement sur notre fonctionnement démocratique ?
Oui, tout à fait. Je pense qu’on peut parler de véritable délégation de pouvoir aux systèmes de recommandation et aux intelligences artificielles qui distribuent l'information en ligne et jouent un rôle de « gatekeepers » à l’ère des réseaux sociaux. Ce pouvoir, qui était autrefois détenu par les rédactions des grands journaux, a été délégué aujourd’hui aux algorithmes comme ceux de YouTube qui ont le pouvoir de limiter ou d’amplifier le contenu qui va être va être consommé par les utilisateurs. Et cette influence sur la diffusion et la priorisation de l’information est souvent même plus déterminante.
Vous considérez-vous comme un contre-pouvoir dans ce contexte ?
Le réel contre-pouvoir aujourd'hui, en tout cas en Europe, c'est la Commission européenne, qui, grâce à des textes parmi les plus ambitieux au monde, a mis en place une régulation particulièrement forte pour encadrer strictement les pratiques des plateformes. Son approche sert de modèle à suivre. Cependant, une fois que ces régulations sont mises en place, le challenge consiste à garantir leur application effective. De notre côté, nous jouons un rôle de soutien vis-à-vis de la Commission européenne en agissant en tant qu’entité de surveillance, pour repérer les manquements des plateformes et les signaler. Ces défaillances peuvent dans certains cas entraîner d’importantes amendes et des obligations de changement de pratiques, comme dans l’affaire d'ingérence électorale que j’ai citée où Meta a fait objet d’une procédure suite à notre rapport.
Pour dresser une perspective positive, quelle voie recommandez-vous ?
Personnellement, j’aimerais voir une obligation pour les plateformes d’assurer une forme d’interopérabilité de leurs systèmes. Cela signifierait qu’elles n’opèrent plus dans un modèle fermé, où les utilisateurs sont coincés dans des écosystèmes où ils n’ont pas de choix, notamment en matière d'algorithmes. Nous défendons l’idée d’un pluralisme algorithmique, où les plateformes permettraient de proposer des systèmes de recommandation alternatifs. Pour cela, il est nécessaire d’adopter une régulation sur l’interopérabilité. Des plateformes comme BlueSky ont déjà mis en place ce modèle, offrant ainsi un bon exemple à suivre pour un écosystème plus ouvert. C’est une perspective positive.
« Nous défendons l'idée d'un pluralisme algorithmique. » Marc Faddoul lors du Luxembourg Sustainability Forum 2024. Voir son intervention en replay (https://www.youtube.com/watch?v=QYAVknIzXnE).
À lire aussi dans le dossier «IA, invitation à la techno-lucidité»: