Les nouvelles expériences d’OpenAI dans la génération de musique créent une vallée étrange Elvis

La musique générée par l’IA est un nouveau domaine fascinant, et une équipe de recherche aux poches profondes OpenAI a atteint de nouveaux sommets, créant des recréations de chansons dans le style d’Elvis, 2Pac et d’autres. Les résultats sont convaincants, mais tombent carrément dans la « troublante vallée » troublante de l’audio, qui sonne plutôt bien, mais ivre, un karaoké entendu à travers une brume de drogue.

Jukebox, le nouveau système générateur de musique de l’organisation, a été détaillé dans un article de blog et un article publié aujourd’hui. OpenAI a produit il y a presque un an des travaux intéressants avec MuseNet, un système d’apprentissage automatique qui, après avoir ingéré une grande quantité de musique MIDI, a pu mélanger et assortir les genres et les instruments.

MuseNet génère des chansons originales en quelques secondes, de Bollywood à Bach (ou les deux)

Mais le MIDI est un format plus simple que la musique enregistrée finale avec des instruments live, car le premier se compose de notes discrètes et d’appuis sur les touches plutôt que d’harmoniques et de voix complexes.

Si vous vouliez qu’une IA examine la structure d’une pièce de piano classique, le timing et les pressions sur les touches pourraient ne représenter que quelques milliers d’informations. L’audio enregistré est beaucoup plus dense, avec (généralement) 44100 échantillons par seconde.

Systèmes d’apprentissage automatique qui apprennent et imitent des choses comme les instruments et le travail vocal en regardant les mots ou les sons les plus récents et en prédisant les prochains, mais ils fonctionnent généralement de l’ordre de dizaines ou d’une centaine de données – les 30 derniers mots ou notes prévoir ce que seront les 30 prochains, par exemple. Alors, comment un ordinateur peut-il apprendre comment une petite fraction d’une forme d’onde de 10 secondes et 440 000 échantillons dans une chanson se comparent à un échantillon de 90 secondes et 4 millions d’échantillons?

La solution d’OpenAI consiste à décomposer la chanson en parties plus digestes – pas tout à fait clés et accords, mais quelque chose comme ça, un résumé au goût de la machine de 1 / 128ème de seconde de la chanson, choisi parmi un « vocabulaire » de 2048 options. Pour être honnête, il est difficile de créer une analogie parce que c’est tellement différent de la façon dont les humains se souviennent ou comprennent les choses – pour autant que nous comprenions même cette.

Il n’utilise pas réellement d’échantillons de couleurs – c’est juste pour indiquer qu’il décompose la forme d’onde en morceaux.

Le résultat final est que l’agent AI a un moyen fiable de décomposer une chanson en morceaux digestes qui sont suffisamment gros pour qu’il n’y en ait pas trop à suivre, mais suffisamment petits pour pouvoir reconstruire de manière fiable le son d’une chanson. Le processus est beaucoup plus complexe qu’il n’y paraît ici; décomposer de manière fiable une chanson en une série de «mots», puis la reconstruire à partir d’eux est le cœur de la nouvelle recherche, mais les détails techniques que je laisserai l’équipe OpenAI expliquer dans leur article.

Le système a également dû apprendre à analyser les paroles d’une chanson, ce qui, comme la plupart des choses dans ce domaine, est plus compliqué qu’il n’y paraît. Notre capacité à nous souvenir et à utiliser les schémas vocaux est en partie innée et en partie apprise, et nous avons tendance à tenir pour acquis sa puissance. Les ordinateurs n’ont pas de telles capacités et doivent apprendre à choisir une voix dans un mix, à comprendre ce qu’elle dit et à faire correspondre cela à des paroles qui ne sont rien d’autre qu’une série de mots sans aucune information sur la tonalité, le tempo et tout le reste. Néanmoins, le système OpenAI le fait à un degré satisfaisant.

Jukebox est capable d’accomplir une variété de tâches musicales, et bien que les résultats ne soient pas ce que vous pourriez appeler du matériel de chant, il faut garder à l’esprit qu’il y a très peu de choses comme ça là-bas maintenant, capable de reconstruire une chanson à partir de zéro qui est reconnaissable comme étant l’artiste cible. Formé sur 1,2 million de chansons, le système a finalement une capacité à multiples facettes avec laquelle il accomplit ces tâches: essentiellement, improviser une chanson en fonction des paroles et du style qu’il a appris en ingérant les autres par cet artiste.

Donc, étant donné sa connaissance de la façon dont Ella Fitzgerald chante et de la façon dont les instruments l’accompagnent généralement, il peut chanter une interprétation de « At Long Last Love » d’une manière qui lui ressemble, mais ce n’est certainement pas ce que Cole Porter avait en tête. (Des exemples de ces exemples et plus sont inclus en haut du billet de blog OpenAI.)

Jukebox peut également chanter des paroles entièrement originales dans un autre style, comme cette chanson vraiment étrange d’Elvis, « Mitosis », écrite par un autre modèle de langage AI:

Au cas où vous ne l’auriez pas saisi:

De la poussière, nous sommes venus avec un humble départ;
De la saleté aux lipides, aux cellules au cœur.
Avec [mitosis] avec [meiosis] avec le temps,
Enfin, nous nous sommes réveillés avec un esprit.
De la poussière, nous sommes venus avec une aide amicale;
De la saleté au tube, à la puce au rack.
Avec S. G. D. avec récurrence avec calcul,
Nous nous sommes enfin réveillés avec une âme.

Oui, c’est « Elvis » en utilisant la division cellulaire comme métaphore de la vie, comme l’imagine une IA. Quel monde dans lequel nous vivons.

Enfin, il y a la tâche «d’achèvement», où Jukebox apprend (en plus de l’apprentissage de base de sa bibliothèque) à partir des 12 premières secondes d’une chanson et l’utilise pour générer le reste dans un style similaire. Le passage de l’original à l’IA sonne un peu comme l’éther qui vient de se déclencher.

Alors que MuseNet peut être joué avec plus ou moins en temps réel en raison de sa moindre complexité, Jukebox est extrêmement gourmand en calculs, prenant des heures pour générer une seule seconde de musique. « Nous avons partagé Jukebox avec un premier groupe de 10 musiciens de différents genres … ces musiciens ne l’ont pas trouvé immédiatement applicable à leur processus créatif », notent sèchement les auteurs. Pourtant, c’est une recherche amusante et fascinante et, compte tenu de la cadence actuelle, nous pouvons nous attendre à une version encore améliorée de l’effort musical OpenAI en avril prochain.

Traduit de l’anglais de https://techcrunch.com/2020/04/30/openais-new-experiments-in-music-generation-create-an-uncanny-valley-elvis/

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.