Apple et d'autres ont utilisé des données siphonnées sur YouTube pour entrainer leurs IA
Par June Cantillon - Publié le
De grands acteurs de la tech se sont appuyés sur des fichiers comprenant des données siphonnées sur des chaînes YouTube pour entrainer leurs intelligences artificielles..
Pour que les algorithmes d'intelligence artificielle soient performants, il faut les entrainer en les nourrissant avec d'énormes bases de données. Selon nos confrères de Proof News et Wired, certaines firmes dont Apple, Anthropic, Nvidia et Salesforce ont utilisé une base de données s'appuyant sur des sous-titres tirés de vidéos YouTube, alors que Google (qui n'est certainement pas la dernière à chercher à nourrir ses IA de données plus ou moins légalement) précise bien qu'elle ne permet pas cet usage.
La base de données contient les sous-titres de plus de 170 000 vidéos provenant de 48 000 chaînes, dont certaines très connues, comme celles de MrBeast, PewDiePie, Marques Bronwlee (MKBHD), The Verge, ABC News, la BBC, The New York Times, Stephen Colbert, John Oliver, ou encore Jimmy Kimmel. Cette base de données a été collectée, sans en avoir le droit, puis proposée aux différents acteurs du marché de l'intelligence artificielle par la firme à but non lucratif EleutherAI. Ces sous-titres ainsi que d'autres données sont regroupés sous le nom
Appel aurait ainsi mis à profit la base de données The Pile pour entrainer OpenELM (pour Open-source Efficient Language Models). Il s'agit d'une série de 4 grands modèles de langages avec respectivement 270 millions, 450 millions, 1 milliard et 3 millards de paramètres. Ces caractéristiques relativement réduites pour des grands modèles de langage ont pour particularité de permettre un traitement en local, et pas uniquement via des serveurs dans le cloud. Ce sont donc, en partie, sur ces travaux que s'appuiera le futur bouquet d'outils d'Apple Intelligence pour le traitement des requêtes sur les iPhone, iPad et Mac.
Même si Apple et les autres grandes sociétés peuvent mettre en avant que les données n'ont pas été récoltées par leur soin, et qu'ils ont donc agi en toute bonne foi (ou tout du moins le prétendre), cet exemple souligne tout de même parfaitement le souci des sources utilisées pour entrainer les IA. Lorsque ces intelligences artificielles sont suffisamment entrainées, elles sont la plupart du temps utilisées pour générer des profits, sans que les auteurs des données utilisées pour les perfectionner ne soient rémunérés.
Apple et d'autres ont entrainé leurs IA sur des données de Youtube
Pour que les algorithmes d'intelligence artificielle soient performants, il faut les entrainer en les nourrissant avec d'énormes bases de données. Selon nos confrères de Proof News et Wired, certaines firmes dont Apple, Anthropic, Nvidia et Salesforce ont utilisé une base de données s'appuyant sur des sous-titres tirés de vidéos YouTube, alors que Google (qui n'est certainement pas la dernière à chercher à nourrir ses IA de données plus ou moins légalement) précise bien qu'elle ne permet pas cet usage.
Plus de 170 000 vidéos siphonnées
La base de données contient les sous-titres de plus de 170 000 vidéos provenant de 48 000 chaînes, dont certaines très connues, comme celles de MrBeast, PewDiePie, Marques Bronwlee (MKBHD), The Verge, ABC News, la BBC, The New York Times, Stephen Colbert, John Oliver, ou encore Jimmy Kimmel. Cette base de données a été collectée, sans en avoir le droit, puis proposée aux différents acteurs du marché de l'intelligence artificielle par la firme à but non lucratif EleutherAI. Ces sous-titres ainsi que d'autres données sont regroupés sous le nom
The Pileet servent ensuite à entrainer les différentes IA.
Appel aurait ainsi mis à profit la base de données The Pile pour entrainer OpenELM (pour Open-source Efficient Language Models). Il s'agit d'une série de 4 grands modèles de langages avec respectivement 270 millions, 450 millions, 1 milliard et 3 millards de paramètres. Ces caractéristiques relativement réduites pour des grands modèles de langage ont pour particularité de permettre un traitement en local, et pas uniquement via des serveurs dans le cloud. Ce sont donc, en partie, sur ces travaux que s'appuiera le futur bouquet d'outils d'Apple Intelligence pour le traitement des requêtes sur les iPhone, iPad et Mac.
Même si Apple et les autres grandes sociétés peuvent mettre en avant que les données n'ont pas été récoltées par leur soin, et qu'ils ont donc agi en toute bonne foi (ou tout du moins le prétendre), cet exemple souligne tout de même parfaitement le souci des sources utilisées pour entrainer les IA. Lorsque ces intelligences artificielles sont suffisamment entrainées, elles sont la plupart du temps utilisées pour générer des profits, sans que les auteurs des données utilisées pour les perfectionner ne soient rémunérés.