Informed Audio Source Separation with Deep Learning in Limited Data Settings

Kilian Schulze-Forster

Résumé

Audio source separation is the task of estimating the individual signals of several sound sources when only their mixture can be observed. It has several applications in the context of music signals such as re-mixing, up-mixing, or generating karaoke content. Furthermore, it serves as a pre-processing step for music information retrieval tasks such as automatic lyrics transcription. State-of-the-art performance for musical source separation is achieved by deep neural networks which are trained in a supervised way. For training, they require large and diverse datasets comprised of music mixtures for which the target source signals are available in isolation. However, it is difficult and costly to obtain such datasets because music recordings are subject to copyright restrictions and isolated instrument recordings may not always exist. In this dissertation, we explore the usage of prior knowledge for deep learning based source separation in order to overcome data limitations. First, we focus on a supervised setting with only a small amount of available training data. It is our goal to investigate to which extent singing voice/accompaniment separation can be improved when the separation is informed by lyrics transcripts. To this end, we propose a general approach to informed source separation that jointly aligns the side information with the audio signal using an attention mechanism. We perform text-informed speech-music separation and joint phoneme alignment to evaluate the approach. Results show that text information improves the separation quality. At the same time, text can be accurately aligned with the speech signal even if it is highly corrupted. In order to adapt the approach to the more challenging task of text-informed singing voice separation, we propose DTW-attention. It is a combination of dynamic time warping and attention that encourages monotonic alignments of the lyrics with the audio signal. The result is a novel lyrics alignment method which requires a much smaller amount of training data than state-of-the-art methods while providing competitive performance. Furthermore, we find that exploiting aligned phonemes can improve singing voice separation, but precise alignment and accurate transcripts are required. Modifications of the input text result in modifications of the separated voice signal. For our experiments we transcribed the lyrics of the MUSDB corpus and made them publicly available for research purposes. Finally, we consider a scenario where only mixtures but no isolated source signals are available for training. We propose a novel unsupervised deep learning approach to musical source separation. It exploits information about the sources’ fundamental frequencies (F0) which can be estimated from the mixture. The method integrates domain knowledge in the form of differentiable para- metric source models into the deep neural network. Experimental evaluation on a vocal ensemble separation task shows that the proposed method outperforms F0-informed learning-free methods based on non-negative matrix factorization and an F0-informed supervised deep learning baseline. Combining data-driven and knowledge-based components, the proposed method is extremely data- efficient and achieves good separation quality using less than three minutes of training data. It makes powerful deep learning based source separation usable in domains where labeled training data is expensive or non-existent.

La séparation de sources audio est la tâche consistant à estimer les signaux individuels de plusieurs sources sonores lorsque seul leur mélange peut être observé. Elle a plusieurs applications dans le contexte des signaux musicaux, comme le remixage, l’up-mixing ou la génération de contenu karaoké. En outre, elle sert d’étape de prétraitement pour les tâches de recherche d’informations musicales telles que la transcription automatique de paroles de chansons. Les performances de l’état de l’art en séparation de sources musicales sont obtenues par des réseaux neuronaux pro- fonds entraı̂nés de manière supervisée. Pour leur entraı̂nement, on a besoin de grandes bases de données diversifiées composées de mélanges musicaux pour lesquels les signaux sources cibles sont disponibles de manière isolée. Cependant, il est difficile et coûteux d’obtenir de telles bases de données car les enregistrements musicaux sont soumis aux restrictions de droits d’auteur et les enregistrements d’instruments isolés n’existent pas toujours. Dans cette thèse, nous explorons l’utilisation d’informations supplémentaires pour la séparation de sources par apprentissage profond, afin de s’affranchir d’une quantité limitée de données. D’abord, nous considérons un cadre supervisé avec seulement une petite quantité de données d’entraı̂nement disponibles. Notre objectif est d’étudier dans quelle mesure la séparation voix chantée/accompagnement peut être améliorée lorsque la séparation est informée par la transcrip- tion des paroles. À cette fin, nous proposons une approche générale de séparation de sources informée qui aligne les informations secondaires avec le signal audio pendant la séparation grâce à un mécanisme d’attention. Nous effectuons une séparation parole-musique informée par le texte conjointement avec un alignement des phonèmes pour évaluer l’approche. Les résultats montrent qu’information textuelle améliore la qualité de la séparation. En même temps, le texte peut être aligné avec précision avec le signal vocal même s’il est fortement perturbé. Afin d’adapter l’approche à la tâche plus difficile de la séparation de la voix chantée informée par le texte, nous proposons la technique de DTW-attention. Il s’agit d’une combinaison de dynamic time warping (déformation temporelle dynamique) et d’attention qui encourage les alignements monotones des paroles avec le signal audio. Le résultat est une nouvelle méthode d’alignement des paroles qui nécessite une quantité de données d’entraı̂nement beaucoup plus faible que les méthodes de l’état de l’art tout en offrant des performances compétitives. En outre, nous constatons que l’exploitation des phonèmes alignés peut améliorer la séparation de la voix chantée, mais un alignement précis et des transcriptions exactes sont nécessaires. Les modifications du texte d’entrée entraı̂nent des modifications du signal vocal séparé. Pour nos expériences, nous avons retranscrit les paroles du corpus MUSDB et les avons rendues publiques à des fins de recherche. Enfin, nous considérons un scénario où seuls des mélanges, mais aucun signal source isolé, sont disponibles pour l’apprentissage. Nous proposons une nouvelle approche d’apprentissage pro- fond non supervisé pour la séparation de sources musicales. Elle exploite les informations sur les fréquences fondamentales (F0) des sources qui peuvent être estimées à partir du mélange. La méthode intègre des connaissances du domaine sous la forme de modèles de sources paramétriques différentiables dans le réseau neuronal profond. L’évaluation expérimentale d’une séparation d’un ensemble vocal montre que la méthode proposée surpasse les méthodes sans apprentissage in- formées par F0 et basées sur la factorisation de matrices non négatives, ainsi qu’une approche d’apprentissage profond supervisé informée par F0. En combinant des approches guidées par les données avec des approches basées sur la connaissance, la méthode proposée est particulièrement efficace en terme de données et atteint une bonne qualité de séparation en utilisant moins de trois minutes de données d’entraı̂nement. Elle rend la séparation de sources par apprentissage profond exploita

Informed Audio Source Separation with Deep Learning in Limited Data Settings

Séparation informée de sources audio par apprentissage profond dans des conditions de données limitées

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager