Divers

Apple Intelligence ne s'appuie pas sur des bases de données illégales

Par June Cantillon - Publié le 18 juillet 2024 à 11h46

2 commentaires

Nous évoquions il y a peu le souci des données permettant d'entrainer plus ou moins légalement les intelligences artificielles des différents acteurs du marché, dont Apple. Cupertino apporte aujourd'hui quelques précisions sur l'utilisation de données provenant de YouTube au sein d'Apple Intelligence.

Des données de YouTube pour entrainer les IA

Pour rappel, Proof News et Wired ont récemment mis en lumière l'utilisation d'une base de données intitulée The Pile, comprenant les sous-titres de plus de 170 000 vidéos provenant de 48 000 chaînes YouTube, collectés sans autorisation de la part de la division de Google ou des créateurs des contenus siphonnés.

Cette base de données a ensuite été proposée par la firme à but non lucratif EleutherAI à plusieurs acteurs du marché, dont Apple, Anthropic (Claude), Nvidia et Salesforce. Ces derniers auraient alors mis à profit The Pile pour entrainer certains de leurs algorithmes. Dans le cas d'Apple, cette base de données a permis de nourrir OpenELM (pour Open-source Efficient Language Models), une série de 4 grands modèles de langages avec respectivement 270 millions, 450 millions, 1 milliard et 3 millards de paramètres. Ces caractéristiques relativement réduites pour des grands modèles de langage ont pour particularité de permettre un traitement en local, et pas uniquement via des serveurs dans le cloud

Apple Intelligence ne s'appuie pas sur des bases de données illégales

Apple Intelligence n'utilise pas OpenELM

Alors que l'on aurait pu penser qu'OpenELM pouvait être mis à profit au sein du futur bouquet d'outils liés à l'IA d'Apple Intelligence, Apple indique aujourd'hui à nos confrères de 9to5Mac qu'il n'en est rien. Selon Cupertino, les algorithmes utilisés pour Apple Intelligence ont été entrainés exclusivement sur des données légales et sous licence, y compris les données sélectionnées pour améliorer des fonctionnalités spécifiques, ainsi que les données accessibles au public collectées par notre robot d'exploration Web..

Apple ajoute qu'OpenELM est un projet open source publié sur GitHub, uniquement conçu dans le but d'aider les chercheurs travaillant sur l'intelligence artificielle. Reste à savoir si la base de données The Pile comprenant des sous-titres provenant des chaînes YouTube de MrBeast, PewDiePie, Marques Bronwlee (MKBHD) et bien d'autres a été utilisée par d'autres acteurs afin d'entrainer des IA qui ont ensuite généré des profits.

Dans ce cas, il faudrait déterminer quelles pourraient être les conditions permettant de rémunérer les créateurs pour l'utilisation de leurs données. Il s'agit d'un problème sous-jacent fréquemment mis en lumière par de nombreux artistes, soucieux de ne pas être pillés par les différentes intelligences artificielles et les services qui y sont associés, sans juste rétribution.

Actualité

Apple Intelligence ne s'appuie pas sur des bases de données illégales

Des données de YouTube pour entrainer les IA

Apple Intelligence n'utilise pas OpenELM

Top promos

Tests & Articles

Suivez-nous !