Esta prueba de concepto es de hace un tiempo, pero como ahora estamos en Fallas, me ha parecido buen momento para explicarlo.

TL;DR: si quieres saber rápidamente cómo generar el sonido de una mascletá (mascletà en valenciano) sin escribir código, mira el vídeo del final.

Pensé en la idea de generar sonidos de mascletá con IA a mediados de 2020. Un año antes habían empezado a ponerse de moda páginas como ThisPersonDoesNotExist.com, que utilizaban redes generativas adversarias (GAN) para crear imágenes de caras.

Así, durante el confinamiento entrené en Google Colab una GAN con fotos de paellas de instagram para crear imágenes de paellas que no existían. El resultado no estaba mal para un primer proyecto de GAN en python, pero es horrible si se compara con las imágenes que hoy generamos con DALL-E 3, Leonardo AI, Freepik AI, etc… 😂 . Las herramientas actuales son capaces de crear imágenes de muchas cosas a partir de un prompt, mientras que las GAN se entrenan con un único tipo de imagen (ie: fotos de paellas), no reciben un prompt pero solo pueden crear un tipo de imágenes (las paellas).

En 2020, las Fallas se cancelaron debido a la pandemia y no hubieron Mascletás. Después del experimento de paellas con IA, pensé que estaría guay tener una página tipo ThisMascletaDoesNotExist.com (no lo compré xD) para generar las mascletás que no sonaron en 2020. Busqué si alguien estaba ya entrenando GANs con audio en lugar de imágenes, pero no encontré ningún notebook ni script python al respecto. Mientras descargué sonidos de mascletás de 2019 de la radio. Encontré este post que explicaba cómo obtener el espectrograma de una pista de audio con python.

En este punto, la idea que quería implementar consistía en entrenar una GAN con imágenes de espectrogramas de mascletás, que la red fuera capaz de generar nuevos espectrogramas de mascletás y finalmente convertir en audio dichos espectrogramas, para ver si sonaban o no a mascletá.

Pero no seguí este proyecto y acabó en un cajón…

… hasta 3 años después (2023). Ese año escuché nuevas tools de generación de audio (ie: https://www.stableaudio.com/; https://audiobox.metademolab.com/; https://www.jenmusic.ai/research) y quise probarlas para generar mascletás. Algunas de estas tools estaban entrenadas solo para generar voz o música, por lo que no servían para crear mascletás. Pero la tool Audiobox de Meta está entrenada para generar sonidos a partir de texto.

Lo primero que probé en Audiobox fue un prompt similar a «crea el sonido de una mascletá», lo cual no funcionó. Audibox no sabía lo que era una mascletá. Entonces utilicé ChatGPT para crear un prompt que describiera el sonido de una mascletá:

Y al pasarle el prompt resultante a Audiobox, escuchamos lo que posiblemente sea la primera mascletá generada con IA 🧨🧨🧨 . Sube el volumen del siguiente vídeo: