"L'heure de vérité de l'IA pour la censure chinoise"

De Project Syndicate, par Stephen S. Roach – Dans son ouvrage devenu classique de 2018, La Plus Grande Mutation de l’Histoire, Kai-Fu Lee a lancé le défi d’une Chine représentant une menace technologique croissante pour les États-Unis.

Lorsque Kai-Fu Lee a donné une conférence à mon cours de “Next China” à Yale fin 2019, mes étudiants ont été captivés par son argument plein de grain à moudre : l’Amérique était sur le point de perdre son avantage attaquant dans la découverte (l’expertise des algorithmes de l’IA) au bénéfice de la Chine dans la mise en œuvre (applications basées sur le big data).

Hélas, Kai-Fu Lee a négligé un développement clé : l’essor de grands modèles linguistiques et l’intelligence artificielle générative. Bien qu’il ait fait allusion à une forme plus générique de technologie à usage général, qu’il a fait remonter à la Révolution industrielle, il n’a pas été en mesure de prendre la mesure de la frénésie de ChatGPT qui a aujourd’hui englouti le débat sur l’IA. Les arguments de Kai-Fu Lee, tout en faisant de vagues références à « l’apprentissage profond » et aux réseaux neuronaux, ont beaucoup plus été fondés sur le potentiel de l’IA à remplacer les tâches accomplies par l’homme plutôt que sur les possibilités d’une « intelligence artificielle générale » proche de la pensée humaine. Il s’agit là d’une considération essentielle quant à l’avenir de la Chine en tant que superpuissance de l’IA.

Parce que la censure chinoise introduit un « si » important dans cet avenir. Dans un récent essai, Henry Kissinger, Eric Schmidt et Daniel Huttenlocher (dont l’ouvrage de 2021 a évoqué le potentiel d’usage général de l’IA), a mis le doigt sur un argument fort selon lequel nous sommes à présent sur le point d’assister à une révolution intellectuelle imminente, rendue possible par ChatGPT. Non seulement ils abordent les défis moraux et philosophiques posés par les grands modèles génératifs linguistiques, mais ils soulèvent en outre d’importantes questions pratiques sur la mise en œuvre qui portent directement sur l’échelle de l’ensemble des connaissances intégrées dans le langage en cours de traitement.

C’est précisément sur ce point que le régime de censure strict de la Chine sonne l’alarme. Bien qu’il existe une longue et riche histoire de censure, à l’Est comme à l’Ouest, le département de propagande (ou Publicité) du Parti communiste chinois se distingue par ses efforts visant à contrôler tous les aspects de l’expression dans la société chinoise – journaux, films, littérature, médias et éducation – et à diriger la culture et les valeurs qui façonnent le débat public.

Contrairement à l’Occident, où tout se passe sur le Web, les censeurs de la Chine insistent sur des directives politiques strictes pour la diffusion d’informations conformes au PCC. Les citoyens du net chinois sont incapables de faire référence à la Révolution culturelle qui a duré une décennie, à la tragédie de la Place Tian’anmen de juin 1989, aux questions des droits humains au Tibet et au Xinjiang, aux frictions avec Taïwan, aux manifestations démocratiques de Hong Kong de 2019, à la rétrocession des politiques zéro COVID entre autres.

Cette modification agressive de l’information est un obstacle majeur pour un ChatGPT ayant des caractéristiques chinoises. En effaçant de l’ardoise historique des événements importants et des expériences humaines qui leur sont associées, le régime de censure chinois a réduit et déformé le corpus d’informations qui seront utilisées pour former de grands modèles linguistiques par l’apprentissage automatique. Il s’ensuit que la capacité de la Chine à bénéficier d’une révolution intellectuelle en matière d’IA va en souffrir.

Bien sûr, il est impossible de quantifier avec précision l’impact de la censure. L’enquête annuelle de Freedom House Freedom on the Net fournit une évaluation qualitative. Pour 2022, elle attribue à la Chine le plus faible « score global de liberté sur Internet » sur un échantillon de 70 pays.

Cette mesure est dérivée des réponses à 21 questions (et près de 100 sous-questions) organisées en trois grandes catégories : obstacles à l’accès, violations des droits d’utilisateur et limites du contenu. La sous-catégorie du contenu – qui reflète le filtrage et le blocage des sites Web, les restrictions juridiques sur le contenu, la vitalité et la diversité du domaine de l’information en ligne et l’utilisation d’outils numériques pour la mobilisation civique – est le plus proche rapprochement de la mesure de l’impact de la censure sur l’échelle de l’information consultable. Le score de la Chine sur ce compte était de deux points sur 35, contre un score moyen de 20.

À l’avenir, nous pouvons nous attendre à une confirmation de cette tendance. Le gouvernement chinois s’est déjà empressé de publier un nouveau projet de règles sur les robots des conversations. Sur 11 avril, l’Administration du cyberespace de Chine (CAC) a décrété que le contenu de l’IA générative doit «incarner les valeurs socialistes fondamentales et ne doit contenir aucun contenu qui sape le pouvoir de l’État, préconise le renversement du système socialiste, incite à diviser le pays ou sape l’unité nationale».

Cela souligne une distinction vitale entre le régime de censure préexistant et les nouveaux efforts de surveillance de l’IA. Alors que le premier utilise le filtrage par mot-clé pour bloquer les informations inacceptables, le second (comme indiqué dans un récent forum DigiChina) s’appuie sur une approche du jeu du chat et de la souris pour contenir le traitement génératif en évolution rapide de ces informations. Cela implique que plus la CAC s’efforce de contrôler le contenu de ChatGPT, plus la production de renseignements chinois générés par le chatbot sera réduite – une autre contrainte sur la révolution intellectuelle de l’IA en Chine.

Sans surprise, les premiers retours sur les efforts de la Chine en matière d’IA générative ont été décevants. Wenxin Yiyan de Baidu, ou «Ernie Bot» – le modèle de langage chinois le plus connu pour être le premier acteur de grande envergure – a récemment été critiqué dans Wired pour avoir tenté de fonctionner dans « un Internet cernés de pare-feux et régi par la censure gouvernementale ». Des résultats aussi décevants ont été rapportés pour d’autres modèles de traitement des langues de l’IA en Chine, notamment Robot, Lily et Tongyi Qianwen d’Alibaba (traduit en gros par « la vérité à partir de mille questions »).

En outre, une récente évaluation de NewsGuard – un « outil de corpus Internet » établi et maintenu par une grande équipe de journalistes occidentaux respectés – a révélé que ChatGPT-3,5 d’OpenAI a généré bien plus d’informations fausses, ou «hallucinogènes», en chinois qu’en anglais.

Le remarquable ouvrage de l’auteur littéraire Jing Tsu, Kingdom of Characters: The Language Revolution that Made China Modern (Royaume des Caractères : La révolution linguistique qui a rendu la Chine moderne) souligne le rôle crucial que joue la langue dans l’évolution de la Chine depuis 1900. En fin de compte, la langue n’est rien d’autre qu’un moyen d’information et dans son dernier chapitre, Jing Tsu saisit ce point pour affirmer que «Quiconque contrôle l’information contrôle le monde».

À l’ère de l’IA, cette conclusion soulève de profondes questions pour la Chine. L’information est le carburant brut des modèles d’IA à langue large. Mais la censure d’État encombre la Chine avec de petits modèles linguistiques. Cette distinction pourrait bien porter de manière essentielle sur la bataille du contrôle de l’information et de la puissance mondiale.

Stephen S. Roach, ancien président de Morgan Stanley Asia, membre du corps professoral de l’Université de Yale. Il a publié dernièrement :Accidental Conflict: America, China, and the Clash of False Narratives (Yale University Press, 2022).

« L’heure de vérité de l’IA pour la censure chinoise »

Laisser un commentaire Annuler la réponse