Desde que modelos como ChatGPT, DALL-E o Stable Diffusion aparecieran en España y en el resto del mundo, la inteligencia artificial ha comenzado a vivir su época dorada. Generar imágenes a través de texto, crear contenido escrito con tan solo una simple pregunta y muchas más cosas nacidas de esta tecnología que aún se está explorando.
Así pues, la empresa tecnológica Google vuelve a la carga con un nuevo modelo de IA, esta vez para generar música siguiendo una descripción de texto, en cualquier género musical que le pidas. Una iniciativa que ha sorprendido a propios y extraños.
China vs EE.UU.: la guerra silenciosa que Washington está empezando a ganar
El sistema, apodado MusicLM, es descrito en un artículo académico como un modelo "que genera música de alta fidelidad a partir de descripciones de texto". Por ejemplo, podría generar música a través del siguiente comando: "una relajante melodía de violín respalda por un 'riff' de guitarra distorsionado".
Google asegura que MusicLM se "puede condicionar tanto en texto como en melodía, ya que puede transformar melodías silbadas y tarareadas de acuerdo con el estilo descrito en una leyenda de texto". Incluso puede usar como referencia descripciones generadas por los propios usuarios y recibir los resultados esperados.
La IA de Google
MusicLM se sustenta en un entrenamiento intensivo que ha aportado al modelo casi 28.000 horas de contenido musical. Google destaca enormemente su capacidad de ser versátil respecto a la generación de música de todos los tipos de géneros y capacidades.
Se pueden crear, según lo que se establece en la web de MusicLM, desde bandas sonoras para juegos hasta fusiones de géneros, mezclando sonidos tan dispares como el dance y el reggaetón. Es decir, abarca todo tipo de géneros musicales.
Robots rusos sustituyen a los maestros en colegios indios: parece de película pero es real
La variedad de los comandos que podemos ver en los audios de muestra de la página web es apasionante. Podemos ver audio generado desde comandos elaborados, con creaciones largas que pueden llegar a varios minutos de duración e incluso melodías con una base de historia. En este último caso, el audio es generado "proporcionando una secuencia de mensajes de texto", influyendo en cómo el modelo "continúa los tokens semánticos derivados de la oración anterior".