Afrique: Face à l'Occident et à la Chine, ces milliers de cultures oubliées de la course à l'IA

Les principaux modèles d'intelligence artificielle sont conçus par des puissances occidentales, ou par la Chine. Elles reflètent en majorité les cultures de leurs concepteurs et ignorent, de fait, de nombreuses communautés du Sud global. L'absence de représentation de bon nombre de langues, notamment africaines, dans ces IA sonne comme l'exemple le plus criant de cette asymétrie Nord-Sud dans l'accès à ces nouvelles technologies.

Dans le monde de l'IA, les pays du Nord sont rois. Cette année, c'est à New Delhi que le gratin du secteur se réunit à l'occasion du quatrième sommet sur l'intelligence artificielle, jusqu'au 20 février. Placée sous le signe d'un accès plus large à ces technologies pour les pays en développement, cette rencontre rend compte du poids grandissant de l'Inde dans le marché de l'IA. Sans être en mesure de rivaliser avec Pékin et Washington, le pays le plus peuplé du monde émerge comme le représentant d'un Sud global oublié dans la course effrénée au modèle le plus puissant.

De fait, de nombreux pays observent le train de la révolution IA leur passer devant sans être invités à y monter. Au-delà des problèmes logistiques ou du manque de ressources et d'infrastructures de certains États, l'absence de grands modèles de langage (LLM) capables de parler certaines langues, exclut mécaniquement une très large frange de la population mondiale.

Langues étrangères

Suivez-nous sur WhatsApp | LinkedIn pour les derniers titres

Les intelligences artificielles, comme les LLM, ne sont pas sentientes. Elles sont entraînées à partir d'immenses bases de données. Les LLM les plus connus - ChatGPT, Deepseek, Gemini - accumulent un nombre colossal d'informations grâce à ce conditionnement. Un conditionnement multilingue, mais où une langue tend à occuper un espace largement majoritaire : l'anglais.

« Une IA inclusive dépend des langues qu'elle parle. Les grands modèles actuels privilégient massivement l'anglais et d'autres langues dominantes », explique dans The Conversation, Rachel Adams, fondatrice du Global Centre on AI Governance. Les LLM ne peuvent s'appuyer que sur les connaissances à leur disposition pour répondre aux demandes - les fameux prompts - qui leur sont formulées. Les langues inconnues, ou très peu répertoriées dans leurs neurones numériques, trouvent ainsi bien peu d'écho.

Internet dans sa globalité reflète parfaitement cette asymétrie. Wikipédia en est l'illustration la plus évidente. Dans les différentes pages de la fameuse encyclopédie numérique, « les langues principales vont avoir les contenus les plus riches et les plus importants », note Alexis Frémeaux, responsable innovation à l'Agence française de développement (AFD). L'omniprésence de ressources dans ces langues provoque un « phénomène d'amplification », ajoute-t-il. Or, « là où il y a le plus de ressources, c'est aussi là où les IA vont puiser le plus de contenu pour leurs apprentissages. »

« Les langues africaines sont pratiquement invisibles dans la sphère numérique. Non seulement cela renforce les inégalités et les préjudices existants, mais cela risque également d'exclure des millions de personnes de l'accès aux services basés sur l'IA », souligne Rachel Adams. Riches de milliers de langues et de dialectes, les pays africains - surtout ceux d'Afrique subsaharienne - sont, par la force des choses, fréquemment invisibilisés dans les réponses des chatbots. Impossible pour les populations dont la langue ne figure pas dans les bases de données de ces IA de tirer tout le potentiel de ces nouveaux outils - dans lesquels l'Occident et la Chine misent pour leur croissance.

Une étude, publiée en 2025, questionne « la qualité des grands modèles de langage pour les langues africaines ». Elle démontre que les LLM étudiés « sont tous inférieurs aux modèles de référence optimisés » et met « également en évidence un écart de performance important par rapport à l'anglais ». Ce papier de recherche se concentrait sur seulement 64 langues. L'Afrique en compte entre 1 500 et 3 000, selon l'Unesco.

« L'Afrique représente près de 20% de la population mondiale, mais moins de 1% des données d'entraînement de l'IA », se désolait Yasmine Abdillahi dans les colonnes du Monde en janvier 2026. Un constat qui s'étend au-delà de la seule langue. Bien souvent conçues et influencées par les logiques culturelles de leurs concepteurs, les IA n'ont qu'une connaissance très limitée de cultures moins hégémoniques.

Culture hégémonique

Pas de méprise : ces intelligences artificielles sauront placer tous les pays sur une carte et connaîtront leur histoire dans les grandes lignes. En revanche, elles seront incapables de faire preuve d'une compréhension fine de la culture des pays sous-représentés dans les bases de données.

Le noeud du problème réside dans la différence entre la capacité à parler une langue et la connaissance du contexte culturel qui y est associé. « C'est un peu comme regarder un film américain qui est doublé en français », résume Alexis Frémeaux. Un traducteur, aussi doué soit-il, ne peut pas reproduire toutes les références implicites constitutives d'une langue. Une tâche rendue d'autant plus compliquée s'il ne maîtrise pas ces références.

« Pour l'IA, on va être exactement dans la même situation », poursuit Alexis Frémeaux. « On va avoir des IA qui vont parler la langue, mais si elles ne s'appuient que sur des ressources culturelles américaines, européennes ou en tout cas occidentales, toute la diversité et la richesse culturelles vont être perdues. » Des utilisateurs de pays du Sud global pourront alors être rapidement confrontés aux limites de ces intelligences, qui ignorent leurs réalités quotidiennes, leurs traditions ou leurs spécificités culturelles.

Dans le cas spécifique de l'Afrique, il faut « numériser le patrimoine existant : archives, registres commerciaux, traditions orales qui se perdent », appelle Yasmine Abdillahi. « Ces données authentiques constituent le corpus unique pour entraîner des IA véritablement africaines - des IA qu'un chauffeur de matatu (minibus de transport collectif au Kenya) adopterait, car elles comprennent le sheng (argot kényan) et les routes informelles de Nairobi. »

En l'absence de cette formation spécifique et réellement globale des outils IA, des travaux de recherche ont montré que certains LLM ou modèles d'IA générative ont pu se tromper ou perpétuer des stéréotypes. Interrogé sur le nombre de saisons, Gemini et ChatGPT auraient tous les deux indiqué qu'il y en avait quatre, selon une étude elle aussi publiée en 2025. Une réalité que de nombreux pays ne partagent pas.

Aujourd'hui, ces chatbots ajoutent des précisions concernant les régions où seules des saisons pluvieuses et sèches se succèdent. S'il a pu être corrigé, cet exemple témoigne des nombreux angles morts culturels de ces LLM. « Les systèmes d'IA générative continuent de privilégier les épistémologies et les infrastructures sociotechniques des pays du Nord », conclut l'étude. Un constat similaire à celui d'un article de 2023 du Journal d'études culturelles qui relève « l'aplanissement des différences culturelles et leur orientation vers la culture américaine » par ChatGPT.

Quelles solutions ?

Pour tenter d'équilibrer, un tant soit peu, le rapport de force, les pays du Sud global commencent à développer un marché local de l'IA, avec des outils conçus par et pour ceux à qui ils serviront. Le Chili a mis sur pied un LLM propre à l'Amérique latine, Latam-GPT, officiellement lancé le 10 février. Ce dernier « est entraîné avec une proportion de données latino-américaines qui n'existaient pas auparavant en ligne et qui n'étaient pas incluses dans les modèles existants », rapporte Rodrigo Durán, directeur général du Centre national de l'intelligence artificielle du pays.

Plusieurs pays africains voient aussi des initiatives locales émerger. Masakhane African Languages Hub est un projet panafricain dont l'objectif est de « veiller à ce que les langues et les cultures africaines soient pleinement représentées dans un avenir dominé par l'IA ». Au Sénégal, AWA, « une intelligence artificielle qui parle Wolof » a également vu le jour en 2024.

Une effervescence toutefois tempérée par certains, comme Seydina Ndiaye, spécialiste de l'IA en Afrique qui expliquait en août 2025 à notre micro que « pas mal de communautés commencent à utiliser l'IA, mais sans l'appui des gouvernements ». « Dans les discours, tout le monde parle d'IA, mais dans les faits, structurellement, on voit très peu d'actions concrètes qui permettent d'avancer dans ce secteur là. »

La plupart des projets actuels, précise Alexis Frémeaux, reposent sur des modèles d'IA déjà existants « en les adaptant avec le corpus de données locales ». Ces initiatives locales, qui répondent à des besoins spécifiques, sont encourageantes selon lui. « Plus il y aura d'utilisateurs, plus les contenus vont être enrichis et plus l'IA peut être alimentée en nouveaux contenus ».

Reste à présent la question de la souveraineté des données pour des États sans les ressources nécessaires pour développer leurs propres IA. En l'absence de systèmes qui leur sont propres, ces pays deviennent fatalement dépendants des grands modèles hégémoniques.

Cliquez ici pour lire l'article sur le site de RFI.