Les limites de la synthèse vocale
La saga Missie Moustass leaks continue à défrayer la chronique et s'est vite imposée comme le feuilleton préféré des Mauriciens. Après que le Premier ministre a confirmé que c'est bien sa voix, Ally Royals, tiktokeur célèbre qui s'occupe aussi de la communication de plusieurs membres du gouvernement, a réalisé une vidéo pour expliquer comment certains logiciels peuvent recréer des voix des personnalités. Les exemples qu'il utilise sont le Premier ministre, Kobita Jugnauth et Anil Kumar Dip. Cependant, des vérifications basiques remettent en doute les propos du clip.
Dans sa vidéo, il démontre que l'intelligence artificielle peut être utilisée pour recréer des voix, mais elles ne seront pas parfaites. «Kan nou pran sa odio-la, nou upload li ek nou polish li, tir tou bann defo ki ena, li paret 100% vre», dit-il. Cependant, Ish Sookun, System Architect à La Sentinelle, se montre sceptique face à ces explications. Selon lui, bien que la technologie permette de copier une voix, il est bien plus difficile de reproduire l'émotion et l'intonation propres à une personne. L'expert explique que «lorsqu'une personne parle, elle n'emploie pas la même émotion dans toutes les situations. Elle peut être plus formelle ou plus amicale selon l'interlocuteur et le contexte». L'IA, même sophistiquée, peine encore à saisir ces nuances émotionnelles qui rendent chaque voix unique.
Lipsync
Ces techniques montrent qu'il est possible d'imiter, mais pas nécessairement de convaincre. La vidéo d'Ally Royals, selon Ish Sookun, ne prouve pas que les bandes-sonores de Missie Moustass sont générées par l'IA, d'autant que plusieurs protagonistes ont confirmé la véracité des conversations. De plus, le Tiktokeur n'a pas précisé quel logiciel il a utilisé pour générer les voix, ni comment il a enlevé les imperfections. Il n'a pas non plus inclus de gros mots, ni des jurons en Kreol, ni des intonations régionales, ni de bruits de fond comme les sonneries de téléphone ou de bruissement de feuilles de papier.
Ce manque de preuves tangibles dans la vidéo d'Ally Royals peut suggérer qu'il a utilisé les voix réelles des protagonistes mentionnés dans la vidéo pour créer la sienne. D'autant plus qu'une vérifica- tion sur les 20 premières secondes du son de la vidéo d'Ally Royals sur le site https://detect.resemble.ai/ fait ressortir que les voix du début, soit celles de Pravind Jugnauth, Kobita Jugnauth et Anil Kumar Dip sont des voix réelles et pas générées par l'IA, y compris le petit toussement du commissaire. Ce qui laisse suppo- ser, encore une fois, que les voix ont été enregistrées et il a «lipsync» dessus.
Ish Sookun estime qu'il pourrait s'agir davantage d'une démonstration marketing que d'une preuve solide de manipulation audio par IA. «Venez prouver que les leaks sont générées par IA», lance-t-il en appelant à davantage de transparence. Il avance aussi que jusqu'à présent, aucune analyse n'a prouvé que les enregistrements audios controversés soient des créations artificielles. Selon lui, si les individus mis en cause souhaitent réfuter ces audios, ils devraient le faire par voie légale, notamment en prêtant serment dans un affidavit pour affirmer que ces voix ne sont pas les leurs.