De Napster a la IA: la descarga del catálogo de Spotify abrió a un nuevo debate por quién controla la música del mundo

Un grupo activista conocido como Anna’s Archive aseguró esta semana que extrajo de forma masiva contenidos de Spotify y posteó un torrent para descargar 86 millones de archivos. Junto con las canciones, aseguran que tienen 256 millones de registros de metadatos, que incluyen nombres de artistas, discos y canciones en 300 terabytes de información.

Anna’s Archive es lo que se conoce como una shadow library (biblioteca en las sombras) y se define a sí misma como un colectivo “archivista”. Es el sitio de piratería de libros más conocido del mundo y esta vez realizó la descarga mediante lo que se conoce como scraping: una extracción automatizada de información, una práctica que también utilizan de manera sistemática los sistemas de inteligencia artificial generativa como ChatGPT para nutrir a sus chatbots. En este caso, el procedimiento se aplicó sobre canciones.

El conflicto en torno a los derechos de autor y la piratería digital lleva décadas. Desde fines de los años 90, con la aparición de plataformas de intercambio de archivos como Napster, eMule, Kazaa o Ares, la industria cultural enfrenta disputas recurrentes por la circulación no autorizada de contenidos. Uno de los hitos más emblemáticos de esa etapa fue la demanda que la banda Metallica presentó en el año 2000 contra Napster, convertida en un caso paradigmático de las batallas legales entre artistas, discográficas y servicios de distribución digital.

En la actualidad, sin embargo, el problema es distinto: ya no sólo se trata de usuarios que quieren evadir pagos, sino de megacorporaciones que usan la información para entrenar sus modelos. Sucedió con Meta, la multimillonaria empresa de Mark Zuckerberg, que usó libros pirateados sin pagar derechos de autor para nutrir a Llama, su modelo de inteligencia artificial.

En el mundo de la música, Suno es una plataforma que permite generar canciones completas, desde la letra y melodía hasta la armonía, a partir de un “prompt” del usuario”. Por esto, disponibilizar esta cantidad de música fue celebrado por muchos usuarios que no quieren pagar Spotify, pero el caso también abrió un debate en torno a quién es el mayor beneficiado de esta descarga: las empresas de inteligencia artificial alimentan a sus modelos con grandes volúmenes de información.

¿Quién se beneficia más con esta descarga? ¿Cómo es que, efectivamente, empresas como Meta, OpenAI, Google y Amazon extraen toda la información con la que construyen sus modelos?

“Scraping”, descarga y cómo se entrena una IA musical

La extracción de datos, una práctica fundamental de las empresas de IA. Foto: ShutterstockLa extracción de datos, una práctica fundamental de las empresas de IA. Foto: Shutterstock

El scraping (o “raspado” de datos) es una técnica que consiste en extraer de forma automatizada grandes volúmenes de información de una plataforma digital, generalmente sin autorización expresa del servicio afectado. Se realiza mediante programas que simulan el comportamiento de un usuario y recorren de manera sistemática sitios web o bases de datos para copiar contenidos, metadatos o registros completos. El medio estadounidense New York Times, como caso emblemático de esta época, está en juicio con OpenAI porque la empresa de Sam Altman usa las notas periodísticas para entrenar a ChatGPT.

En el caso de Spotify, este tipo de procedimiento puede utilizarse para recolectar no solo canciones, sino también información asociada como títulos, artistas, listas de reproducción, fechas de lanzamiento y otros datos que forman parte de su infraestructura digital.

“Primero hay que aclarar que la mayor parte del material filtrado está protegido por derechos de autor, lo que restringe legalmente su copia, reproducción y uso, no es trivial ni legalmente simple contar con acceso a tanta cantidad y variedad de música comercial sin licencias o permisos de los titulares de derechos”, explicó a Clarín Hernán Ordiales, ingeniero, docente y especialista en audio con IA.

La particularidad de este caso es que “el volumen de datos implicado no tiene precedentes y, desde un punto de vista técnico, podría servir de base para entrenar modelos de música generativa”. “Modelos de este tipo, como los como los que utiliza Suno o Udio, que ya han sido demandados por asociaciones de la industria discográfica, bajo sospecha de que han utilizado este tipo de material de forma ilegal, y que se encuentran en plenas negociaciones”, sigue el especialista, parte del Laboratorio Abierto de Inteligencia Artificial (LAIA).

Suno, generador de canciones por IA. Foto: SunoSuno, generador de canciones por IA. Foto: Suno

Las canciones sirven para usarse como base para estos modelos. “Este tipo de modelos ‘aprenden’ a partir de ejemplos, extrayendo patrones de estructura, ritmo, armonía e incluso timbre directamente de grandes volúmenes de audio real. A mayor cantidad y diversidad de ejemplos, mayor es la capacidad del modelo para captar y reproducir estructuras complejas. Este enfoque, se denomina en su forma más básica, ‘Machine Learning’ o ‘aprendizaje automático’, y cuando se apoya en arquitecturas basadas en redes neuronales entrenadas con datos a gran escala, se encuadra específicamente dentro del Deep Learning”, sigue Ordiales.

Para hacer esto, se trabaja por fragmentos de audios, traducidos a “tokens”, que serían como pequeñas unidades básicas de información sonora. “Existen distintas arquitecturas para desarrollar modelos de generación de música. Todas parten de tener ejemplos representativos de lo que se espera que genere el modelo. Los modelos de lenguaje basados en transformers separan los textos en ‘tokens’, que son palabras o partes de palabras. En el caso de la generación de música se pueden usar procesos similares pero no a nivel de palabras, sino a nivel de fragmentos de audio”, complementa David Coronel, también de LAIA.

Por esto, además de las canciones, Anna’s Archive subió lo que se conoce como “metadatos”, esto es, una suerte de etiquetado con información del artista, canción, disco, año de publicación y demás. “Un paso fundamental es el etiquetado. Cada ejemplo de audio debe venir acompañado de descripciones claras que le digan al modelo qué tipo de música es: el género, los instrumentos, el estado de ánimo. Sin estas etiquetas de calidad, el modelo no podría relacionar los patrones de audio con las instrucciones que los usuarios le darán después”, sigue.

A nivel técnico, Coronel explica cómo se genera música por IA a partir de otra música: “En los modelos tipo difusión el proceso consiste en “romper” los ejemplos agregándoles ruido, luego el modelo intenta predecir cómo es ese ruido que se agregó. La gran revelación de este tipo de modelos es que cuando el modelo es capaz de predecir correctamente ese ruido, también es capaz de realizar el proceso inverso: producir música limpia a partir de ruido aleatorio. Resumidamente, lo que hace la etapa de entrenamiento es procesar muchos ejemplos para extraer patrones que tengan sentido musical y coherencia, y luego usar esos patrones para componer piezas similares”, cierra.

Spotify se defiende, Anna’s Archive contraataca: el debate por la preservación cultural

Disputa por el catálogo de Spotify. Foto: ShutterstockDisputa por el catálogo de Spotify. Foto: Shutterstock

Spotify, que cuenta con más de 700 millones de usuarios en todo el mundo, confirmó que investiga el incidente y aseguró que ya tomó medidas contra las cuentas involucradas. “Hemos identificado y deshabilitado las cuentas maliciosas que participaron en actividades ilegales de scraping”, señaló la compañía. En un comunicado, agregó que la investigación detectó que “un tercero recopiló metadatos públicos y utilizó tácticas ilícitas para eludir el DRM [gestión de derechos digitales] y acceder a algunos archivos de audio de la plataforma”.

Del otro lado, Anna’s Archive, conocido por ofrecer enlaces a libros y textos protegidos por derechos de autor, defendió la iniciativa como un proyecto de preservación cultural. En un posteo en su blog, el grupo afirmó que los archivos representarían “el 99,6% de toda la música escuchada por los usuarios de Spotify” y que serían distribuidos a través de torrents.

“Por supuesto, Spotify no tiene toda la música del mundo, pero es un gran comienzo”, sostuvo el colectivo, que se define como dedicado a “preservar el conocimiento y la cultura de la humanidad”. Y agregó: “Con tu ayuda, el patrimonio musical de la humanidad quedará protegido para siempre frente a desastres naturales, guerras, recortes presupuestarios y otras catástrofes”.

Anna's Archive, el colectivo preservacionista que disponibilizó la música de Spotify para bajar. Foto: Anna's ArchiveAnna’s Archive, el colectivo preservacionista que disponibilizó la música de Spotify para bajar. Foto: Anna’s Archive

Así, la forma de esta disputa es una pelea comercial, con motivaciones económicas. Pero, el fondo es más profundo: “Desde la perspectiva de la preservación cultural, el problema de las plataformas cerradas es evidente. Ya pasó con Kindle y pasa hoy con el streaming: obras que estaban disponibles desaparecen de un día para otro y no se pueden conseguir en ningún otro lado. Cuando unas pocas plataformas privadas se convierten en la única vía de acceso al acervo cultural (libros, música, películas), la cultura queda sujeta a decisiones comerciales y no a un criterio de preservación o acceso público”, dijo a este medio Carolina Martínez Elebi, licenciada en Ciencias de la Comunicación y docente de la UBA.

“En ese contexto, muchas leyes de copyright parecen haber dejado de cumplir su objetivo original. En lugar de incentivar la creación y garantizar la conservación de las obras, funcionan como herramientas de bloqueo y persecución que impiden que ese patrimonio cultural circule por otros canales. La acción de algunos grupos activistas puede leerse como una provocación: una forma de poner en agenda que, si la cultura queda encerrada en jardines cerrados, corre el riesgo de desaparecer cuando el dueño decide cerrar la puerta”, cierra la especialista, también autora del sitio DHyTecno.

El caso de Spotify y Anna’s Archive expone así una tensión que atraviesa a toda la economía digital contemporánea: quién controla el acceso a la cultura, bajo qué reglas y con qué fines. En un escenario dominado por plataformas cerradas como Spotify, Apple Music y YouTube y modelos de inteligencia artificial que engullen terabytes de datos, la música se vuelve también un recurso estratégico.

Ya no sólo se trata de no pagar por la música, sino de definir el futuro del patrimonio de la cultura en la era digital. La discusión dejó de ser sólo técnica: es cultural.

Fuente: www.clarin.com

Artículos Relacionados

Volver al botón superior