Meta, propriétaire de Facebook, Instagram et WhatsApp, a dévoilé Data2vec 2.0, une version améliorée d’un réseau neuronal présenté plus tôt cette année qui se comporte comme une sorte de généraliste, exécutant des tâches impliquant des données textuelles, visuelles et vocales avec la même approche de base pour les trois.
La deuxième fois, les scientifiques de Meta ont rendu le programme plus rapide et, dans certains cas, plus précis dans les tests de référence des tâches de machine learning.
« Data2vec 2.0 montre que la vitesse de formation de l’apprentissage auto-supervisé peut être considérablement améliorée sans perte de précision des tâches en aval », écrivent les auteurs Alexei Baevski, Arun Babu, Wei-Ning Hsu et Michael Auli, quatre des auteurs de l’article original de Data2vec, dans ce nouveau travail, éEfficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Languageé, posté sur arXiv.
Accélération de la vitesse d’apprentissage
Ce deuxième Data2vec est parvenu à réduire son temps d’entraînement. La formation d’un réseau neuronal se mesure généralement en termes d’« époques », c’est-à-dire le nombre de fois où le réseau neuronal reçoit les exemples de formation. Elle peut également être mesurée par le temps de l’horloge murale, c’est-à-dire les heures, minutes et jours comptés du début à la fin.
« Les expériences montrent que Data2vec 2.0 peut atteindre la même précision que de nombreux algorithmes existants en multipliant de 2 à 16 la vitesse d’apprentissage », écrivent-ils.
Le nom Data2vec est un jeu de mots sur le nom d’un programme d’« intégration » du langage développé chez Google en 2013 appelé Word2vec. Ce programme prédisait la manière dont les mots se regroupent, et Word2vec est donc représentatif d’un réseau neuronal conçu pour un type spécifique de données, en l’occurrence du texte.
Dans le cas de Data2vec, cependant, Alexei Baevski et ses collègues prennent un réseau neuronal appelé Transformer, développé par Ashish Vaswani et ses collègues chez Google en 2017, et l’étendent pour qu’il puisse être utilisé pour plusieurs types de données. La même structure du réseau neuronal peut servir à former les trois types de données – image, parole et texte – sans être modifiée pour répondre aux particularités de l’un d’entre eux, ce qui en fait un programme généraliste.
Méthode d’apprentissage auto-supervisé
Alexei Baevski et ses collègues étendent le Transformer à ce que l’on appelle l’apprentissage « auto-supervisé ». Dans un cadre auto-supervisé, un réseau neuronal est formé en passant par plusieurs étapes dont les résultats sont comparés les uns aux autres.
Tout d’abord, le réseau compresse un échantillon de données, ce que l’on appelle la construction d’une représentation des données d’entrée. Puis, dans une deuxième version du réseau, certains de ces éléments de données d’entrée sont « masqués », non révélés. Il doit reconstruire la représentation que la première version du réseau avait construite, ce qui oblige le second réseau à construire un meilleur modèle de la façon dont les données s’assemblent en remplissant essentiellement les blancs.
Les deux réseaux – celui qui dispose de la représentation compressée des données d’entrée complètes et non masquées, et celui qui dispose de la version incomplète qu’il tente de compléter – sont appelés, de manière assez sensée, respectivement Enseignant et Étudiant. Le réseau de l’étudiant tente de développer son sens des données, si vous voulez, en reconstruisant ce que l’enseignant a déjà réalisé malgré le masquage.
Décodeur convolutif
Cette fois, les auteurs ont apporté deux modifications essentielles à Data2vec pour le rendre plus rapide : l’utilisation de « convolutions » et l’« amortissement » des représentations compressées du réseau des enseignants.
Sur le premier point, le réseau de l’élève qui doit prédire les représentations de l’enseignant n’utilise plus la partie du Transformer appelée décodeur pour le faire.
C’est l’approche standard, pour dé-compresser, dans un sens, les représentations compressées du réseau de l’enseignant. Au lieu de cela, les auteurs utilisent ce qu’on appelle des réseaux neuronaux convolutifs, un outil de base dans les réseaux neuronaux pour représenter des échantillons de données sous forme comprimée, et un outil beaucoup plus ancien que le Transformer. C’est un bon exemple de la façon dont une technologie plus ancienne peut rester dans le domaine de la programmation.
« Au lieu d’utiliser un décodeur basé sur le Transformer, nous utilisons un décodeur convolutif plus petit, que nous trouvons plus facile et plus rapide à former », écrivent-ils.
Pour le deuxième changement, au lieu de créer à plusieurs reprises une représentation compressée dans le réseau de l’enseignant, le nouveau Data2vec crée la représentation une seule fois. Il la réutilise ensuite comme cible, l’élément à deviner, pour chacun des points de données masqués.
Comme l’expliquent les auteurs, « afin d’amortir le coût du calcul du modèle de l’enseignant, nous réutilisons la représentation de l’enseignant pour de multiples versions masquées de l’échantillon d’entraînement. »
« Concrètement, nous considérons M versions masquées différentes de l’échantillon d’entraînement et calculons la perte par rapport à la même représentation cible. »
Des résultats prometteurs
Dans la section des résultats de l’article, Alexei Baevski et son équipe expliquent comment ils ont réduit le temps de formation et amélioré la précision dans les trois domaines de la reconnaissance d’images, de la reconnaissance vocale et du traitement du langage naturel.
Pour le traitement des images, les auteurs ont utilisé Data2vec comme base pour affiner ce que l’on appelle « ViT », le « vision Transformer », un réseau neuronal spécialement conçu pour les tâches de vision qui a été présenté l’année dernière (PDF) par Alexey Dosovitskiy et ses collègues de Google. Le programme Data2vec est une base pré-entraînée, sur laquelle ViT est un réglage fin, selon les termes de la littérature.
Par rapport aux résultats de janvier, le ViT soutenu par Data2vec a une fois de plus dépassé les autres réseaux neuronaux utilisés comme base pour ViT en termes de précision sur ImageNet, le test classique d’attribution d’étiquettes aux images, et il a également dépassé la version précédente de Data2vec.
Outre la précision, le nouveau Data2vec a nécessité beaucoup moins d’époques d’apprentissage. La version précédente de Data2vec nécessitait 800 époques, cette fois, ce chiffre a été réduit à 150 époques. Et à côté d’un réseau auto-supervisé concurrent, les auto-encodeurs masqués, ou MAE, une autre création de Meta (PDF), la formation est passée de 1 600 étapes à 100, même si la précision du nouveau Data2vec a dépassé celle du MAE. Le régime d’entraînement plus rapide se traduit par une réduction importante du temps absolu d’entraînement, soit 66 heures seulement pour Data2vec 2.0 contre 113,6 heures pour MAE.
Optimisation du temps et de la précision
En reconnaissance vocale, la tâche consiste à compléter les parties manquantes d’un extrait d’un fichier audio d’une phrase prononcée. Le nouveau Data2vec s’est mesuré à plusieurs réseaux neuronaux concurrents pour la parole, dont le data2vec original et des programmes appelés Wav2vec, HuBERT et WavLM. En aucun cas Data2vec 2.0 n’a battu ces réseaux, mais il « obtient une plus grande précision que les autres modèles avec un temps d’apprentissage plus rapide. » Par exemple, 43 heures de formation de Data2vec 2.0 permettent d’atteindre une précision qui nécessite 57 heures pour le Data2vec original.
Dans le troisième domaine, le traitement du langage naturel, Data2vec 2.0 a été testé sur un spectre de défis comprenant le cadre d’évaluation de la compréhension générale du langage, connu sous le nom de GLUE, développé par le Courant Institute of Mathematical Sciences de NYU en 2019.
Dans un test, le réseau doit prédire si une phrase découle d’une autre (entaillement logique) tandis qu’une autre tâche représentative met le réseau au défi d’étiqueter une phase grammaticalement correcte ou non.
Face à la version originale de Data2vec, ainsi qu’à deux programmes basés sur Transformer, BERT de Google et une version révisée, appelée RoBERTa, introduite en 2019 par la Paul Allen School of Computer Science de l’Université de Washington et Meta, la version 2.0 de Data2vec obtient de bons résultats dans l’ensemble des résultats de GLUE tout en étant plus rapide à entraîner.
Le score moyen total de précision sur l’ensemble des tâches GLUE pour cette nouvelle version est de 82,6, juste un peu en dessous des 82,7 de la version originale de Data2vec, mais supérieur aux 81,2 de BERT et aux 82,5 de RoBERTa. Mais, Data2vec 2.0 ne prend que 28,2 heures pour atteindre ce niveau, moins de la moitié des 69 heures qu’il fallait pour le Data2vec original, et beaucoup moins que les 50,5 heures qu’il faut pour RoBERTa.
Ouvrir le système à d’autres types de données
Alexei Baevski et son équipe écrivent qu’ils étendront Data2vec à l’avenir à d’autres formes de données que la parole, l’image et le texte, ce qui ouvre la perspective d’une généralisation encore plus grande.
Une limitation semble devoir rester en place. Comme pour la version originale de Data2vec, la version 2.0 traite toujours chaque type de données différemment lorsqu’elles sont introduites pour la première fois dans le réseau pendant la formation. Cela signifie que Data2vec n’a pas encore développé une manière complètement générique de traiter les types de données.
L’image, la parole et le texte sont tous préparés par un prétraitement des données. De cette manière, l’aspect multimodal du réseau repose toujours sur des indices concernant les données, ce que l’équipe appelle des « petits codeurs d’entrée spécifiques à la modalité ».
De plus, chacun des encodages compressés du réseau de l’enseignant est créé séparément pour les trois types de données. Il n’est pas encore possible de créer une sorte de « supercodage » qui combinerait tous les types de données en une seule représentation.
Ainsi, comme dans le cas de Data2vec 1.0, un réseau neuronal qui pourrait vraiment être un réseau unique pour les gouverner tous reste la technologie du futur.
Source : ZDNet.com
(function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src = "//connect.facebook.net/fr_FR/all.js#appId=243265768935&xfbml=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk'));
Cliquez ici pour lire l’article depuis sa source.