Stephen Phillips sobre la Composición Musical con IA

Sobre Este Episodio

La segunda parte de nuestra entrevista con Stephen Phillips, CEO de Mawson, un laboratorio de IA que aplica aprendizaje automático y redes generativas para resolver problemas fundamentales en las industrias creativas. Si te perdiste la primera parte de nuestra conversación con Stephen, puedes encontrarla aquí.

De lo contrario, vamos al grano. En este episodio hablamos sobre los proyectos actuales de Mawson, las redes generativas en audio, cómo la IA cambiará la industria musical y qué significará la palabra «artista» para las generaciones futuras.

Temas Destacados

00:42 — Sobre el problema de las recomendaciones musicales y los algoritmos de descubrimiento

Stephen Phillips: Una de las cosas en las que trabajamos en Hunted [y] nunca resolvimos fue [la similitud musical]. [...] Estas dos canciones son similares, ¿cuánto se parecen? Puedo escucharlas y decirte cuánto se parecen. [...] Pero las computadoras no pueden hacer eso — el audio en sí era una caja negra. [...] El enfoque de etiquetado humano de Pandora o lo que hace Spotify — [cuando] añaden metadatos a [una canción] — es un sustituto del hecho de que [las computadoras] no entienden cómo suena eso. [...] Probamos muchísimas cosas diferentes en Hunted en 2011/2012. En retrospectiva, fue un error porque la tecnología no existía, pero no lo sabíamos. [...] Alrededor de 2013/14 en Twitter veía los equipos de [aprendizaje automático] y [...] luego, alrededor de 2016, Google empezó a hacer muchas cosas sobre síntesis de voz y fue como: «Oh, van a resolver esto y va a ser un cambio de reglas». Vamos a poder hacer cosas como «dame todas las canciones con una voz femenina, armónica y un bongó», ese tipo de descubrimiento. No sé si alguien quiere eso, pero siempre fantaseo con lo genial que sería. [...] Pero ahora mismo, lo mejor en recomendaciones es algo como Discovery Weekly, y se les ocurrió una idea genial de «las cosas van juntas si un humano dice que van juntas, y la expresión de eso es ponerlas en una lista de reproducción». Es lo mejor que alguien haya pensado jamás para «no sabemos qué es esto, ¿cómo desarrollamos un sustituto?». Y su motor es genial en eso.

03:46 — Sobre Popgun y la Composición Musical con IA

Stephen Phillips: Mi única idea en ese momento era que [la IA] cambiaría cómo hacemos el descubrimiento musical. En 2016, fundé Mawson con mi inversor original, y queríamos hacer IA — pero simplemente no podíamos reclutar a nadie. Cualquiera que supiera lo que hacía se había ido a Google. [...] Me llevó nueve meses encontrar a Adam Hibble, que tenía un equipo de cuatro o cinco personas [...] haciendo proyectos de aprendizaje profundo. [...] Básicamente le pagué a él y a su equipo para construir un sitio de descubrimiento musical basado puramente en audio en bruto, y lo hicieron en como seis semanas.[...] Tenían esta idea — que todos tienen en el aprendizaje profundo — [de que] entiendes algo al ser capaz de generarlo. En el proceso de generarlo, creas una receta para ello, y comparar recetas de dos cosas te dice cuánto se parecen. Entonces, para resolver la similitud y el descubrimiento, tenían que generar audio en bruto y entonces me di cuenta: si van a generar audio en bruto, el descubrimiento es lo menos emocionante que podrías hacer con eso. Vamos a escribir canciones, vamos a cambiar la industria musical — y eso es lo que Popgun se propuso hacer. [...] Traje a Adam y a cinco chicos jóvenes para hacer Composición Musical con IA. Nuestro discurso era: ¡vamos a tener un número uno en el Top 40! Ese era nuestro objetivo, y sigue siendo el objetivo de la empresa. La empresa tiene ahora más de veinte personas, [...] y han estado haciendo, principalmente en secreto, composición musical seria con IA.

David Weiszfeld: Sé que hay dos vídeos: uno de hace un par de años y otro del año pasado, son públicos. ¿Es esa la última demo que han lanzado?

Stephen Phillips: No. Pasamos el primer año en 2017 aprendiendo a tocar el piano. ¿Cómo enseñamos a una red neuronal a tocar el piano?

David Weiszfeld: ¿Es esa la demo donde alguien empieza a tocar y luego el ordenador termina la melodía?

Stephen Phillips: No. Eso fue el primer tercio de ese año. [...] Eso fue nuestra predicción polifónica. [...] Es un problema muy simple: ¿cómo predigo en una secuencia de cosas cuál sería lo más probable que viniera después? Después hicimos improvisación, [...] y a finales de 2017, tras un año con diez personas trabajando en ese único problema, llegamos al punto en que podíamos componer piezas originales de piano — y fuimos a San Francisco. Básicamente dijimos: ¡mira esto! ¿Has oído a la IA hacer música antes? Decían: sí, sí, siempre es una especie de porquería. Bueno, entonces mira esto. Y tocamos un piano increíble y dijeron «¿Qué ha hecho esto?». [...] La gente quedó alucinada con lo que podía hacer con un piano. Y planteamos una visión de: le vamos a enseñar a tocar cada instrumento, y luego les vamos a enseñar a tocar juntos, y luego vamos a ver qué pasa. Y luego se lo vamos a dar a todo el mundo y veremos qué hace la gente con ello.

En 2018 empezamos a trabajar: hicimos bajo, hicimos batería, hicimos guitarras. Empezamos a mezclar, masterizar, producir canciones pop completas, acompañar cantantes. [...] Eso fue el final de nuestra última demo — junio de 2018. [...] Sentimos cierta prisa, pero creemos que alguien va a hacer esto y hacerlo bien. [...] Puedes hacer esto a medias y lanzarlo precipitadamente al mercado — y sonar como música de ascensor. Alguien va a tomarse el tiempo y el dinero [...], y tenemos una visión muy clara de — tiene que ser tan bueno como lo que podría hacer un artista. [...] Vemos a otras personas lanzando cosas de Música con IA apresuradamente, y sabemos que esto deben ser solo heurísticas, o algoritmos, o — porque esto es difícil: difícil de hacer correctamente y difícil de hacer bien. Simplemente sentimos que permite hacer cosas que antes no eran posibles en absoluto.

17:07 — Sobre los proyectos del laboratorio Mawson

Stephen Phillips: Una de las cosas que aprendimos en ese primer año [en Popgun] fue que no solo la música va a verse impactada por esto. Lo que realmente estamos haciendo es imitar las habilidades creativas humanas: tocar el piano, tocar el bajo — estas son cosas que los humanos hacen bien, y si le das suficiente información sobre cómo hacerlo puedes aprender a emular esa habilidad creativa. [...] La forma en que creamos y consumimos entretenimiento en los próximos cinco años está a punto de cambiar por completo. Tenemos una lista — en nuestro laboratorio aquí — de todas las habilidades de talento humano, y cómo las emularíamos, y cuáles son las más valiosas o cuáles son las más ubicuas. La que destacaba era la actuación de voz. [...] Poder emular esa habilidad y poner actores en manos de cineastas independientes, desarrolladores de videojuegos, anunciantes. Tener un espacio continuo de todas las voces posibles y expresiones de felicidad, alegría y tristeza, y poder tener todo eso bajo el control de la tecnología, es un arma en el entretenimiento. [...] Así que con Replica, [...] pensamos que Google y Amazon van a trabajar muy duro en cosas de voz como las de Siri, y sus dispositivos domésticos y todo eso. Pero, ¿tendrán niños llorando, riendo? ¿Tendrán un burro rebuznando? ¿Y hasta dónde llevarán la expresividad de esto? Pensamos que alguien va a llevar eso al extremo, y realmente sacarlo del mero hablar a actuar, y poder estar en un personaje, y que puedas tener un pirata hablando como un pirata. [...] Así que empezamos Replica a principios de 2018. Trabajaron en tecnología de voz todo el año, y luego están en Techstars. Están grabando voces de celebridades, están haciendo personajes para videojuegos — están jugando mucho con esas ideas.

Pero, básicamente, la tecnología es muy similar a lo que hacemos [en Popgun]. Así que aunque nuestros equipos tienen su propia base de código y sus propias empresas, [pero] la clase de redes con las que trabajamos [se llama] Redes Generativas, donde básicamente consumimos una gran cantidad de contenido, y creamos esta distribución de todas las variantes posibles de esto. Y luego, [...] al acceder a diferentes partes de este espacio multidimensional, puedes generar algo nuevo a partir de esto.

Los chicos [cuyo artículo habíamos leído] podían tomar una foto en blanco y negro y ampliarla en alta resolución y hacerla en color. [...] Tomaban fotos en color de alta resolución y las degradaban a blanco y negro de baja calidad y aprendían a ir hacia atrás y hacia adelante. Así que, dada una mala, crean una de super resolución. Nos interesó mucho la idea de hacer eso en audio [en SUPERRES], [por] dos razones. [...] ¿Podríamos hacer que el sonido de Skype fuera mejor? Es una forma muy interesante de comprimir: no tengo que enviar una versión de alta resolución — puedo enviar una versión muy mala y hacer que una red imagine cómo debe haber sido, y obtener una versión de alta calidad. [Y lo segundo es] cómo tomamos medios e imaginamos cómo deben ser en otra forma. Desde tomar una película antigua en blanco y negro y hacer que parezca de alta resolución en color en HD, [o] tomar contenido producido hoy y prepararlo para VR. Usar redes de IA para imaginar cosas es muy interesante, y realmente nos encanta esa idea — porque todos los equipos están haciendo eso efectivamente.

[Pero] el verdadero desafío ha sido para todos estos equipos — y el desafío de Popgun en el que estamos trabajando — no es suficiente con poder generar este material. Tienes que construir una interfaz y convertirlo en una herramienta que algunas personas puedan usar. Nadie quiere pulsar un botón y que salga la canción — quieren tener acceso a esa inteligencia para hacer lo que quieren.

26:10 — Sobre el futuro de las industrias creativas

Stephen Phillips: [Toda] esta tecnología será algo habitual en los próximos años. Como el Photoshop para la voz, poder tratar la voz igual que una imagen, para poder editarla, cambiarla, moverla, hacer que diga todo esto, hacerla hablar otros idiomas, cambiar completamente la identidad de la voz, cambiar de masculino a femenino, lo que sea — todo esto será posible. [...] Nos encanta mucho la idea de que todo esto juega con una tendencia más amplia de democratización, creatividad y haciendo esta transición del consumo masivo a la creación masiva. Esos chicos que crecieron en Minecraft están llegando, y ahora se entretienen en Fortnite y Roblox, y lo hacen haciendo cosas. Se entretienen siendo creativos. [...] La IA solo va a traer [...] nuevas herramientas creativas para que esos chicos hagan lo que puedan imaginar.

[Cuando] hablamos con los sellos musicales sobre esto, están bastante de acuerdo. Inicialmente, la gente se sentía amenazada, y lo entendemos — es tecnología nueva, y realmente va a bajar el nivel técnico requerido para hacer cosas que suenen bien. Pero lo que revela es quién es la estrella, y qué es una estrella, y qué es el talento. Es mucho más que la capacidad de tocar un instrumento. La gente se siente atraída por la gente porque son guapos, son graciosos o son atractivos. En la música, no hay una lista Billboard sub-15: de niños tienes que competir contra los adultos, técnicamente — y eso es realmente difícil. Si eliminamos esa barrera, apuesto a que habrá [jóvenes estrellas del pop] ahí fuera [y] otros jóvenes se van a identificar mucho con [ellos]. La IA les va a permitir ser descubiertos antes, comunicar exactamente lo que sienten y lo que se dicen unos a otros. Y creo que llevará a una industria del pop completamente nueva, y para los sellos [...] — estas personas seguirán necesitando exposición y gestión de su carrera. Veo a los sellos como inversores de capital riesgo para la industria musical, y seguirán teniendo que invertir en el talento, y creo que simplemente verán más, antes de lo que han visto hasta ahora, y creo que va a ser un gran auge para ellos. Van a encontrar a todas estas estrellas jóvenes ahí fuera.

Escuchar como Podcast

Enlaces

Demo de evolución de Popgun
Más información sobre Redes Generativas y Aprendizaje Automático
Inmovilización del Boeing 737 Max tras 2 accidentes

Empresas Mencionadas (en orden alfabético)

Más Episodios de Insiders

Transcripción Completa

David Weiszfeld [00:00]: Hoy estás dirigiendo Mawson. Estábamos bromeando porque tuve problemas para pronunciarlo y entonces: M.A.W.S.O.N. Es un laboratorio de IA en Australia, y ustedes están invirtiendo y construyendo proyectos desde cero. Los tres que conozco — puede haber otros que sean menos conocidos en este momento — son Popgun, Replica y SUPERRES. Vamos a empezar poniendo links en el blog a las demos de Popgun y demás, que son públicas, ¿puedes resumir los tres proyectos y qué los hace únicos?

Stephen Phillips [00:44]: Una de las cosas en las que trabajamos en Hunted todo el tiempo, que nunca resolvimos, fue... En el núcleo mismo de la recomendación en música está la métrica de similitud. Estas dos canciones son similares, ¿cuánto se parecen? Puedo escucharlas y decirte cuánto se parecen — si las he escuchado, pero las computadoras no pueden hacer eso. El propio audio era una caja negra. Lo mejor que podíamos hacer era adjuntar etiquetas de texto. Y las redes sociales o el enfoque de etiquetado humano de Pandora o lo que hace Spotify — el tipo de cosas donde añaden metadatos — es un sustituto del hecho bruto de que no entendemos, con una computadora, cómo suena eso. Y siempre me fascinó por qué no podemos trabajar con audio. Como, ¿por qué tengo que esperar a que la multitud me diga que estas dos cosas son similares? Y así, probamos muchísimas cosas diferentes en Hunted en 2011/2012. En retrospectiva, fue una tontería porque la tecnología no existía para hacerlo, pero no lo sabíamos. Básicamente solo nos encontramos con muros continuamente.

Pero luego, alrededor de 2013/14 en Twitter veía los equipos de ML allí, empezaba a hacer cosas con aprendizaje profundo que no había... Pensé: oh, esto va a ser algo, van a poder... Si pueden hacer esto con imágenes, reconocimiento de escritura a mano e imágenes — seguramente alguien va a hacer esto con audio. Y luego, alrededor de 2016, Google empezó a hacer un montón de cosas desde su equipo de DeepMind, sobre síntesis de voz, y fue como: oh, van a resolver esto y va a ser un cambio de reglas. Vamos a poder hacer cosas reales, como — dame todas las canciones con una voz femenina, armónica y un bongó — ese tipo de descubrimiento. No sé si alguien quiere eso, pero siempre fantaseo con lo genial que sería.

David Weiszfeld [02:27]: Quizás con otros criterios, sí, pero sin duda, ¡por supuesto!

Stephen Phillips [02:30]: Así es. Bueno, alguien que suene como Whitney Houston y, ya sabes, con guitarra acústica haciendo algo en 3/4 de tiempo, o lo que sea, sin ningún etiquetado, en catálogos masivos.

David Weiszfeld [02:45]: ¿Solo basándose en el audio?

Stephen Phillips [02:48]: Resolviendo el problema del arranque en frío que tienen los servicios de streaming. Pero ahora mismo, lo mejor en recomendaciones es algo como Discovery Weekly, y se les ocurrió una idea muy ingeniosa de que las cosas van juntas si un humano dice que van juntas, y la expresión de eso es ponerlas en una lista de reproducción. Y por eso todo su sistema está impulsado por la intersección de listas de reproducción, y es lo mejor que alguien ha pensado jamás para «No sabemos qué es esto, ¿cómo desarrollamos un sustituto?». Y su motor es genial en eso. Y nosotros produjimos muchas cosas alrededor de ideas similares — pero ellos llegaron a la escala con eso. Así que funcionó en toda la personalización y los géneros; porque tenían la escala de este motor de listas de reproducción, que lo hacía realmente bien. Había visto estas cosas de aprendizaje profundo y empezado a leer sobre ello. Había estado en el aprendizaje automático yo mismo durante 10 años para entonces y sentí que tenía que entrar en este espacio, que esto iba a cambiar las cosas por completo. Mi única idea en ese momento era que esto cambiaría cómo hacemos el descubrimiento musical. Esto va a ser lo nuevo en el descubrimiento musical.

Y así, durante todo 2016, fundé Mawson con mi inversor original, y queríamos hacer cosas de IA — y simplemente no podíamos reclutar a nadie. Era imposible. Cualquiera que supiera lo que hacía ya se había ido, se había ido a Google, se había ido a América o lo que fuera. En Australia, simplemente no podía — todos trabajando en coches autónomos, y en nuestras universidades haciendo doctorados, y simplemente no podía encontrar... Y sabía por mi propia experiencia que no podía simplemente contratar desarrolladores web y enseñarles esto. Las matemáticas necesarias para hacer esto estaban más allá de lo que yo haría y de lo que la mayoría de los desarrolladores web, o incluso ingenieros de software normales, harían. Y me llevó como nueve meses conocer a alguien llamado Adam Hibble, que tenía un equipo de cuatro o cinco personas y habían ido tan lejos, haciendo proyectos de aprendizaje profundo por Brisbane en ese momento. Y él y yo nos entendimos muy bien, y le pedí que viniera a trabajar en música, y pensó que estaba loco. Como, ¿a quién le importa? Como si puedes hacer esta tecnología, esto es lo menos interesante que podrías hacer. Pero yo sabía, porque conocía a personas como Adam — tenía 24/25 años o algo así, y me recordaba mucho a mí mismo a esa edad — sabía que si podía conseguir que trabajara en ello un poco, quedaría enganchado como yo lo había quedado. Y así básicamente le pagué a él y a su equipo para construir un sitio de descubrimiento musical basado puramente en audio en bruto, y lo hicieron en como seis semanas.

La forma en que lo hicieron, tenían esta idea — que todos tienen en el aprendizaje profundo — de que entiendes algo al ser capaz de generarlo. En el proceso de generarlo, creas una receta para ello. Y comparar recetas de dos cosas te dice cuánto se parecen. Así que, para resolver la similitud y el descubrimiento, tenían que generar audio en bruto y luego me di cuenta: si van a generar audio en bruto, el descubrimiento es lo menos emocionante que podrías hacer con eso. Vamos a escribir canciones así, vamos a cambiar la industria musical, y eso es lo que Popgun se propuso hacer. Y luego Bob Moz. No era Popgun en ese momento. Solo estaba trabajando con Adam, y teníamos estos momentos de «¡ajá!» de: oh, vamos a poder componer canciones aquí. Realmente vamos a poder escanear las listas del Top 40 y luego crear música que suene como eso.

EP03 (Parte Dos): Entrevista con Stephen Phillips