Apple Intelligence ne s'appuie pas sur des bases de données illégales
Par June Cantillon - Publié le
Des données de YouTube pour entrainer les IA
Pour rappel, Proof News et Wired ont récemment mis en lumière l'utilisation d'une base de données intitulée
The Pile, comprenant les sous-titres de plus de 170 000 vidéos provenant de 48 000 chaînes YouTube, collectés sans autorisation de la part de la division de Google ou des créateurs des contenus siphonnés.
Cette base de données a ensuite été proposée par la firme à but non lucratif EleutherAI à plusieurs acteurs du marché, dont Apple, Anthropic (Claude), Nvidia et Salesforce. Ces derniers auraient alors mis à profit
The Pilepour entrainer certains de leurs algorithmes. Dans le cas d'Apple, cette base de données a permis de nourrir OpenELM (pour Open-source Efficient Language Models), une série de 4 grands modèles de langages avec respectivement 270 millions, 450 millions, 1 milliard et 3 millards de paramètres. Ces caractéristiques relativement réduites pour des grands modèles de langage ont pour particularité de permettre un traitement en local, et pas uniquement via des serveurs dans le cloud
Apple Intelligence n'utilise pas OpenELM
Alors que l'on aurait pu penser qu'OpenELM pouvait être mis à profit au sein du futur bouquet d'outils liés à l'IA d'Apple Intelligence, Apple indique aujourd'hui à nos confrères de 9to5Mac qu'il n'en est rien. Selon Cupertino, les algorithmes utilisés pour Apple Intelligence ont été entrainés exclusivement sur des données légales et sous licence,
y compris les données sélectionnées pour améliorer des fonctionnalités spécifiques, ainsi que les données accessibles au public collectées par notre robot d'exploration Web..
Apple ajoute qu'OpenELM est un projet open source publié sur GitHub, uniquement conçu dans le but d'aider les chercheurs travaillant sur l'intelligence artificielle. Reste à savoir si la base de données
The Pilecomprenant des sous-titres provenant des chaînes YouTube de MrBeast, PewDiePie, Marques Bronwlee (MKBHD) et bien d'autres a été utilisée par d'autres acteurs afin d'entrainer des IA qui ont ensuite généré des profits.
Dans ce cas, il faudrait déterminer quelles pourraient être les conditions permettant de rémunérer les créateurs pour l'utilisation de leurs données. Il s'agit d'un problème sous-jacent fréquemment mis en lumière par de nombreux artistes, soucieux de ne pas être pillés par les différentes intelligences artificielles et les services qui y sont associés, sans juste rétribution.