Un informe reciente revela que grandes empresas tecnológicas, entre ellas Apple,utilizó subtítulos de YouTube para entrenar modelos de IA sin el consentimiento de los creadores de contenidos.
Esta práctica implicaba la descarga por parte de terceros de archivos de subtítulos de más de 170.000 vídeos de YouTube, lo que afectó a conocidos creadores como Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver y Jimmy Kimmel.
Estos subtítulos sirven como transcripciones del contenido del vídeo.
Investigación de Proof News tras entrenamientos de IA
Proof News llevó a cabo una investigación que descubrió que ricas empresas mundiales de IA utilizaron materiales de miles de vídeos de YouTube para el entrenamiento de la IA, a pesar de las normas explícitas de YouTube contra tales actividades.
La investigación descubrió que los subtítulos de 173.536 vídeos de YouTube, que abarcan más de 48.000 canales, fueron utilizados por entidades de Silicon Valley como Anthropic, Nvidia, Apple y Salesforce.
EleutherAI ayudó a entrenar modelos de IA
EleutherAI, una organización sin ánimo de lucro, llevó a cabo las descargas de subtítulos. Afirman ayudar a los desarrolladores en la formación de modelos de IA.
Según un documento de investigación de EleutherAI, el conjunto de datos forma parte de una compilación más amplia publicada por la organización sin ánimo de lucro, conocida como Pile.
Esta extensa colección es de libre acceso para cualquiera que disponga del almacenamiento y la potencia informática adecuados. Aunque está pensada para uso académico y de pequeños desarrolladores, empresas como Apple, Nvidia y Salesforce también recurrieron a ella.
Detallaron el proceso en sus artículos y publicaciones de investigación. En particular, Apple utilizó el Pile para entrenar un modelo de IA de alto perfil, OpenELM, publicado en abril, poco antes de anunciar nuevas capacidades de IA para iPhones y MacBooks.
Apple se defendió tras informe y acusaciones
En el momento de publicar el informe, Apple no había respondido a la solicitud de comentarios de Wired.
Es importante señalar que Apple no descargó directamente los datos. EleutherAI, que aparentemente violó los términos y condiciones de YouTube, llevó a cabo esta tarea. No obstante, esta situación pone de relieve los complejos desafíos legales que surgen cuando se raspa la web para entrenar sistemas de IA.
Los casos de modelos de IA que plagian párrafos enteros cuando se les pregunta sobre temas especializados subrayan los riesgos asociados al uso de materiales no autorizados.