NeurIPS 2021 – 10 articles à ne pas manquer

L'édition 2021 de la conférence la plus appréciée sur l'intelligence artificielle est là pour terminer l'année avec une "grande finale". La croissance de la conférence n'a pas cessé : la conférence de l'année dernière — que nous avons également examiné – avait 1899 articles principaux acceptés, contre 2334 cette année.

NeurIPS nombre de publications de la dernière décennie dans la piste principale.

Certains des articles publiés sont sur arxiv.org depuis un certain temps maintenant et ont déjà eu un impact. Par exemple, voici une liste des 10 articles NeurIPS les plus cités avant même le début de la conférence. C'est le premier bon point de départ pour parcourir le programme et regarder les auteurs présenter leur travail.

Citations	Titre	Auteurs
37	Apprentissage privé différentiel avec découpage adaptatif	Galien Andrew et al.
19	MLP-Mixer : une architecture entièrement MLP pour la vision	Tolostikhine et al.
19	Revisiter les ResNets : stratégies de formation et de mise à l'échelle améliorées	Irwan Bello et coll.
11	Propriétés intrigantes des pertes contrastives	Ting Chen et coll.
11	Apprentissage par renforcement bayésien variationnel avec limites de regret	Brendan O'Donoghe
11	Gradient Starvation : une propension à apprendre dans les réseaux de neurones	Mohammad Pezeshki et coll.
10	Quantification de l'incertitude et ensembles profonds	Rahul Rahaman et coll.
10	L'apprentissage en profondeur est adaptatif à la dimensionnalité intrinsèque du lissage du modèle dans l'espace de Besov anisotrope	Taiji Suzuki et coll.
10	COCO-LM : Corriger et contraster les séquences de texte pour la préformation du modèle de langage	Yu Meng et coll.
10	Faites attention aux MLP	Hanxiao Liu et coll.

Donner un sens à cette gamme impressionnante n'est pas une mince affaire, mais avec l'aide du Navigateur de recherche en IA at Zêta Alpha, nous sommes passés par articles NeurIPS les plus pertinents par citations, des présentations phares et quelques recommandations de la plateforme et nous avons identifié quelques œuvres sympas que nous aimerions mettre en avant ; certains sont déjà bien connus, et certains sont plus d'un gemme cachée. Bien sûr, ces choix ne visent pas à être un aperçu complet - nous manquerons de nombreux sujets tels que la théorie ML, l'apprentissage fédéré, le méta-apprentissage, l'équité - mais il n'y a que peu de choses que nous pouvons intégrer dans un article de blog !

Les les prix des meilleurs articles ont été annoncés, qui est aussi un bon point de départ bien qu'un peu lourd en théorie à notre goût.

Si ce contenu éducatif approfondi vous est utile, abonnez-vous à notre liste de diffusion de recherche sur l'IA d'être alerté lorsque nous publierons du nouveau matériel.

Par Shitong Luo, Jiaqi Guan, Jianzhu Ma et Jian Peng.

❓Pourquoi → ML bio a été l'un des domaines d'application et de progrès les plus importants des techniques d'apprentissage automatique. Il s'agit d'un exemple récent de la façon dont les modèles génératifs peuvent être utilisés dans la conception de médicaments basés sur des liaisons protéiques.

💡Points clés → L'idée de Masked Language Modeling (corruption d'une séquence en masquant certains éléments et en essayant de la reconstruire) s'avère également utile pour générer des molécules : masquant des atomes uniques et « reconstruisant » comment ils doivent être remplis. En faisant ce processus de manière itérative (par exemple « autorégressive »), cela devient un modèle génératif qui peut générer des molécules candidates.

La principale avancée de cet article par rapport aux travaux antérieurs est que la génération de molécules est conditionnée à des sites de liaison protéiques particuliers, ce qui donne aux chercheurs un meilleur mécanisme pour trouver des molécules candidates pour agir comme médicament dans un but particulier.

Pour cela, plusieurs astuces sont nécessaires pour la formation, comme la construction d'un encodeur invariant aux transformations rigides (translation et rotation), car les molécules ne se soucient pas de la façon dont elles sont orientées. Les résultats ne sont pas révolutionnaires et il y a encore des mises en garde à la méthode, comme le fait qu'elle peut souvent produire des molécules qui ne sont pas physiquement possibles, mais cette direction de recherche est certainement prometteuse pour l'avenir du développement de médicaments.

Autres travaux sur le ML pour les structures moléculaires à NeurIPS : Apprentissage de la représentation multi-échelle sur les protéines, Hit and Lead Discovery avec Explorative RL et Fragment-based Molecule Generation, Modèles génératifs basés sur le réseau de flux pour la génération non itérative de candidats divers.

Par Runtao Liu, Zhirong Wu, Stella Yu et Stephen Lin.

TL;DR des auteurs → Nous présentons un modèle zéro-shot applicable pour la segmentation d'objets en apprenant à partir de vidéos non étiquetées.

❓Pourquoi → Les humains peuvent facilement suivre des objets que nous n'avons jamais vus et que nous ne reconnaissons pas… Les machines devraient faire de même !

💡Points clés → La notion de objectivité est souvent désigné comme l'un des a priori humains importants qui nous permettent de voir et de raisonner sur ce que nous voyons. La clé ici est que nous n'avons pas besoin de savoir ce qu'est l'objet pour savoir que c'est un objet. Au contraire, lors de l'entraînement d'un réseau de neurones pour la segmentation d'images de manière supervisée, le modèle n'apprendra qu'à segmenter les objets vus lors de l'entraînement.

Cet article propose d'utiliser des données vidéo et des astuces astucieuses pour mettre en place une approche de formation auto-supervisée qui tire parti de la façon dont les objets et le premier plan ont tendance à se comporter différemment dans les enregistrements. Cela rappelle DINO [1] de Facebook, qui a découvert comment, après une formation auto-supervisée avec des images, les matrices d'attention de Transformers ressemblaient à une sorte de proto-segmentation.

Dans ce cas, les auteurs utilisent une combinaison de perte de reconstruction d'une seule image (le réseau de segmentation) et d'un réseau de mouvement qui tente de produire une carte des caractéristiques de la façon dont les pixels se déplacent dans une image. Cela leur permet de prédire une image future à partir d'une reconstruction et d'une carte de mouvement, qui est auto-supervisée de bout en bout.

De nombreuses autres astuces et considérations sont nécessaires pour que cela fonctionne, et les résultats ne sont toujours pas époustouflants. Pourtant, l'exploitation de données non étiquetées pour la vision par ordinateur à l'aide de vidéos est un développement clé pour l'avenir de l'apprentissage automatique, donc cette ligne de travail est vouée à avoir un impact.

Autres articles intéressants sur la vision par ordinateur à NeurIPS : Évoluer la vision avec un mélange clairsemé d'experts (nous avons déjà couvert il y a quelques mois!) Faites attention aux MLP (également couvert en juin), Propriétés intrigantes des transformateurs de vision, Apprentissage contrastif vidéo compressé.

Par Maria Tsimpoukelli, Jacob Menick, Serkan Cabi, SM Ali Eslami, Oriol Vinyals, Felix Hill.

TL;DR des auteurs → Nous présentons une approche simple pour transférer les capacités d'un modèle de langage figé vers un environnement multimodal (vision et langage).

❓Pourquoi → Le prompt est là pour rester : désormais multimodal et asynchrone Pouvez-vous exploiter les informations d'un modèle de langage pré-entraîné pour les tâches de vision sans le recycler ? Eh bien en quelque sorte… continuez à lire.

💡Points clés → L'idée que propose cet article est assez simple : former un Modèle de Langage, le congeler de sorte que ses paramètres restent fixes, puis former un encodeur d'image pour encoder une image dans une invite pour ce modèle de langage pour effectuer une tâche précise. J'aime le conceptualiser comme "l'apprentissage d'une invite conditionnelle d'image (image via un NN) pour que le modèle exécute une tâche".

C'est une voie de recherche prometteuse mais les résultats ne sont pas (encore ?) très impressionnants en termes de performances absolues. Cependant, il est intéressant de comparer le modèle entièrement affiné avec des données multimodales (Frozen finetuned) versus celui qui maintient le modèle de langage figé (Frozen VQA-blind) : seul ce dernier montre une bonne généralisation à partir du jeu de données d'apprentissage (Conceptual Captions [4 ]) sur l'ensemble de données d'évaluation cible (VQAv2 [5]), étant encore loin d'être un modèle entièrement supervisé.

Par Erik Lindgren, Sashank Reddi, Ruiqi Guo et Sanjiv Kumar.

TL;DR des auteurs → Nous développons un cache de flux négatif pour un entraînement efficace des modèles de récupération.

❓Pourquoi → L'échantillonnage négatif en récupération dense est l'un des sujets les plus saillants dans le domaine de l'IR neuronal ! Cela semble être une étape importante.

💡Points clés → Un modèle de récupération dense vise à coder les passages et les requêtes dans des vecteurs pour effectuer une recherche du voisin le plus proche afin de trouver des correspondances pertinentes. Pour la formation, une perte contrastive est souvent utilisée où la similarité des paires positives est maximisée et celle des paires négatives est minimisée. Idéalement, on pourrait utiliser toute une collection de documents comme « échantillons négatifs », mais cela serait d'un coût prohibitif, de sorte qu'à la place, des techniques d'échantillonnage négatif sont souvent utilisées.

L'un des défis des techniques d'échantillonnage négatif est que la qualité du modèle final dépend fortement du nombre d'échantillons négatifs utilisés - plus il y en a, mieux c'est - mais l'utilisation de nombreux échantillons négatifs est très coûteuse en calcul. Cela a conduit à des propositions populaires telles que ANCE [2] où des échantillons négatifs sont soigneusement mélangés avec des «négatifs durs» à partir d'un index mis à jour de manière asynchrone pour améliorer les performances d'un modèle à un coût de calcul raisonnable.

Dans ce travail, les auteurs proposent une solution élégante consistant à mettre en cache les plongements des documents lorsqu'ils sont calculés et à ne les mettre à jour que progressivement, ainsi au lieu de devoir effectuer une passe complète dans l'encodeur pour tous les échantillons négatifs, une grande partie de les documents mis en cache sont utilisés à la place, ce qui est beaucoup plus rapide.

Il en résulte une approche sans doute plus élégante et simple qui est empiriquement supérieure aux méthodes existantes.

Autres documents de recherche d'informations que vous pourriez aimer chez NeurIPS : Formation de bout en bout du lecteur et de la récupération de plusieurs documents pour la réponse aux questions dans le domaine ouvert, Modèle de réponse à une question pour de nombreuses langues avec récupération de passages denses interlinguistiques, SPANN : recherche de voisinage le plus proche à l'échelle d'un milliard très efficace.

Par Hassan Akbari, Liangzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui et Boqing Gong.

TL;DR des auteurs → Un pipeline purement basé sur Transformer pour apprendre des représentations sémantiques à partir de vidéo, d'audio et de texte bruts sans supervision.

❓Pourquoi → Un pas de plus vers le futur terrain multimodal promis.

💡Points clés → Un domaine encore sous-exploré pour les grands modèles de transformateurs à explorer est celui de la multimodalité. Ce travail vise à construire des représentations pour la vidéo, l'audio et le texte via un apprentissage auto-supervisé des données dans ces modalités en utilisant conjointement des variantes de pertes contrastives, de sorte que les trois modalités habitent le même espace d'intégration. Pour ce faire, ils utilisent l'estimation contrastive du bruit (NCE) et utilisent des triplets audio/vidéo/texte correspondants comme paires positives et des triplets non correspondants (par exemple, des segments non correspondants d'une vidéo) comme échantillons négatifs.

Cette méthode est similaire aux réseaux multimodaux précédents tels que les « réseaux polyvalents multimodaux auto-supervisés » [3], à la différence principale qu'elle repose sur une architecture Transformer pure. Il réalise SOTA dans les principales cinétiques de référence vidéo tout en évitant la pré-formation supervisée (par exemple en utilisant des étiquettes Imagenet à grande échelle pour pré-former le modèle) et en utilisant uniquement des techniques auto-supervisées.

Par Ben Eysenbach, Russ R. Salakhutdinov et Sergey Levine.

TL;DR des auteurs → Nous proposons une méthode pour apprendre des politiques robustes et prévisibles en RL en utilisant des idées issues de la compression.

❓Pourquoi → Excellent document à vol d'oiseau pour comprendre certains des défis fondamentaux de l'apprentissage par renforcement à travers le prisme de la compression.

💡Points clés → Bien que les observations de l'environnement soient souvent de grande dimension (par exemple, des millions de pixels à partir d'images), la quantité de bits d'informations nécessaires à un agent pour prendre des décisions est souvent faible (par exemple, faire le maintien de voie d'une voiture avec détection de caméra). Suite à cette idée, les auteurs proposent le contrôle robuste prévisible (RPC), une approche générique des politiques d'apprentissage qui utilisent peu d'informations.

Pour ce faire, ils fondent leur analyse sur la perspective théorique de l'information sur la quantité d'informations dont un modèle a besoin pour prédire un état futur : plus un état est prévisible, plus une politique peut être facilement compressée. Cela devient un facteur de régularisation pour que les agents apprennent à « jouer la sécurité » la plupart du temps (par exemple, un système de conduite autonome aura tendance à éviter les situations d'incertitude élevée).

Les spécificités de l'algorithme sont beaucoup plus complexes, vous devrez donc lire attentivement le document si vous souhaitez les approfondir. Au-delà de la mise en œuvre particulière et des bons résultats empiriques, cela semble être une perspective utile pour réfléchir aux compromis que l'on trouve lorsque l'on navigue dans des environnements incertains.

En savoir plus sur l'apprentissage par renforcement chez NeurIPS : Comportement du vide : pré-entraînement actif non supervisé, Communication discrète émergente dans les espaces sémantiques, Apprentissage par renforcement hors ligne quasi-optimal via la réduction de la double variance.

Par Jonathan Bragg, Arman Cohan, Kyle Lo et Iz Beltagy.

TL;DR des auteurs → Principes FLEX, benchmark et classement unifiant les meilleures pratiques pour évaluer la PNL à quelques coups ; et UniFew, un modèle simple et puissant basé sur des invites en unifiant les formats de pré-formation et de tâches en aval.

❓Pourquoi → Peu d'apprentissages ont été la PNL enfant cool depuis quelque temps maintenant. Il est temps qu'il ait sa propre référence !

💡Points clés → Depuis que GPT-3 [4] a fait irruption sur la scène en mai 2020 avec des performances surprenantes à zéro et à quelques coups sur les tâches NLP grâce à l'"invite", il est devenu courant pour les nouveaux grands modèles de langage de se comparer au zéro/quelques coups paramètre. Souvent, les mêmes tâches et ensembles de données ont été utilisés pour des modèles affinés, mais dans ce benchmark, le réglage zéro/quelques coups est un citoyen de première classe.

Cette référence issue de la Institut Allen pour l'IA cherche à normaliser les schémas observés dans la littérature sur les quelques clichés de la PNL, tels que Les principes sur lesquels repose cette référence sont les suivants : diversité des types de transfert, nombre variable de clichés et de classes, ensembles d'entraînement déséquilibrés, étiquettes textuelles, pas de méta-tests supplémentaires données, une conception raisonnée de la taille de l'échantillon et un rapport approprié des intervalles de confiance, des écarts-types et des résultats individuels. Espérons que cela facilitera la comparaison de pommes à pommes entre de grands modèles de langage, ce qui n'est pas garanti lorsque les pratiques d'évaluation sont un peu partout : le diable est dans les détails !

Les auteurs ont également mis en open source la boîte à outils Python utilisée pour créer le benchmark, ainsi que leur propre ligne de base pour ce benchmark appelé UniFew, et le comparent à une approche récente et populaire « Rendre les modèles de langage pré-formés meilleurs pour les apprenants à quelques coups » [5] et "Classification de texte à quelques coups avec signatures distributionnelles" [6].

Autres articles PNL que vous pourriez aimer chez NeurIPS : COCO-LM : Corriger et contraster les séquences de texte pour la préformation du modèle de langage.

Par Georgios Bouritsas, Andreas Loukas, Nikolaos Karalias et Michael Bronstein.

TL;DR des auteurs → Nous introduisons un cadre d'apprentissage automatique flexible et de bout en bout pour la compression de graphes sans perte basée sur le partitionnement de graphes, l'apprentissage de dictionnaires et le codage entropique

❓Pourquoi → Compression Standard Les données (c'est-à-dire une séquence de symboles comme les 1 et les 0) ont été largement étudiées depuis l'introduction de la théorie de l'information par Shannon en 1948, cependant, la compression des graphes a des particularités différentes qui sont moins bien comprises. Voici une étude sur la façon de compresser des graphiques à partir des premiers principes.

💡Points clés → 3 particularités doivent être prises en compte lors de la conception d'un algorithme de compression de graphes :

Isomorphismes de graphes : les graphes n'ont pas d'ordre inhérent de sommets, contrairement aux séquences de données ou aux tableaux, donc une représentation de mot de code compressée de manière optimale d'un graphe devrait être invariante à de tels isomorphismes.
Évaluation de la vraisemblance d'un graphe : un encodeur théoriquement optimal repose sur la connaissance de la probabilité de chaque configuration de données possible et sur l'attribution d'un code dont l'échelle est proportionnelle au logarithme de cette probabilité (par exemple, les graphes les plus probables sont plus compressés en codes plus courts et vice-versa). versa). Le calcul d'une telle vraisemblance est généralement insoluble en raison de l'explosion combinatoire des graphes moyens à grands ! Le problème a besoin de décomposition…
Si l'on construit un modèle complexe pour estimer la vraisemblance des graphiques et compresser en fonction de cela, la taille de ce modèle lui-même doit être prise en compte ! D'une manière générale, plus le modèle est complexe, mieux il pourra compresser les données, mais plus il sera volumineux, entraînant ainsi un compromis entre le nombre de bits que l'on dépense pour stocker un modèle et le nombre de bits que l'on dépense pour stocker chacun instance de graphe compressé.

Bien que les auteurs ne prétendent pas proposer une solution optimale, ils en présentent une pratique qui fonctionne vaguement comme suit : partitionner les graphes en sous-graphes communs pour lesquels vous conservez un dictionnaire de mots de code dont la longueur est proportionnelle au logarithme de la vraisemblance de chaque sous-graphe. La méthode est entièrement différentiable, de sorte qu'elle peut être optimisée avec une descente de gradient pour n'importe quel ensemble de données de graphes.

Comparé empiriquement aux méthodes existantes, il les surpasse, mais la question reste ouverte dans quelle mesure cela sera utilisé, compte tenu de la complexité introduite. Indépendamment de leur proposition particulière, il s'agit d'un excellent article pour comprendre comment compresser les choses à partir de zéro.

Autres articles intéressants sur le Graph Neural Network à NeurIPS: SIMONe : Représentations d'objets invariantes et temporellement abstraites via la décomposition vidéo non supervisée, VQ-GNN : un cadre universel pour mettre à l'échelle les réseaux de neurones graphiques à l'aide de la quantification vectorielle, GemNet : Réseaux de neurones à graphes directionnels universels pour les molécules.

Par Daniela Mihai et Jonathon Hare.

TL;DR des auteurs → Nous utilisons le jeu auto-supervisé pour entraîner des agents artificiels à communiquer par dessin, puis montrons qu'avec le biais inductif approprié, un humain peut jouer avec succès aux mêmes jeux avec l'agent de dessin pré-entraîné.

❓Pourquoi → Celui-ci est amusant.

💡Points clés → Deux modèles apprennent à communiquer sur les images en dessinant : un modèle expéditeur doit créer une représentation d'une image à l'aide d'un rastériseur différentiable qui produit des « traits », et un modèle récepteur doit choisir l'image que l'expéditeur représentait parmi un ensemble de images.

Une observation intéressante est de savoir comment, sans autres contraintes, l'expéditeur et le destinataire proposent des représentations de dessin qui ne sont pas interprétables par l'homme. Mais ils essaient une astuce de régularisation astucieuse pour inciter l'interprétabilité humaine : ajouter une « perte de perception » au stade précoce de la vision (c'est-à-dire dans les premières couches du modèle d'encodeur) de sorte que les activations dans le modèle pour l'image d'origine et le dessin se ressemblent. Ceci est inspiré par des observations empiriques sur la façon dont les activations neuronales chez l'homme sont similaires pour une image donnée et un dessin de celle-ci.

Par Ruihan Wu, Chuan Guo, Awni Hannun et Laurens van der Maaten.

TL;DR des auteurs → Nous étudions généralement les modèles d'apprentissage automatique de manière isolée. Mais les systèmes d'IA se composent de nombreux modèles d'apprentissage automatique. L'amélioration d'un modèle peut-elle aggraver le système ? Oui.

❓Pourquoi → Les modules qui forment un système d'IA peuvent interagir de manière complexe et non intuitive. Cet article stimulant étudie comment l'amélioration des sous-parties d'un système peut aggraver l'ensemble du système.

💡Points clés → Bien que cet article ne propose aucune méthode particulièrement impressionnante, c'est une matière à réflexion intéressante à toujours garder à l'arrière de votre tête. Les auteurs étudient et formalisent le problème important de savoir comment et pourquoi un système composé de divers sous-systèmes ML peut s'aggraver lorsque des parties individuelles sont améliorées. Ceci est d'une grande importance dans le domaine pratique car de nombreux systèmes d'IA sont composés.

L'analyse théorique va beaucoup plus loin que cela, mais l'essentiel est qu'il est probablement vrai que vous pouvez dégrader les performances d'un système d'IA en améliorant chacune de ses parties, alors réfléchissez à deux fois avant de recycler ce composant de pipeline ML !

Voici où se termine notre sélection. Malheureusement, nous n'avons pas pu inclure de nombreux travaux intéressants qui méritaient absolument d'être soulignés, vous devrez donc vous plonger dans la liste complète des documents de conférence pour les trouver. Par exemple, vous voudrez peut-être consulter le dernier Schmidhuber's La rétropropagation du méta-apprentissage et son amélioration, ou comment les Resnets ne sont pas morts Revisiter les ResNets : stratégies de formation et de mise à l'échelle améliorées, soit la dernière équivariance NN E(n) Flux de normalisation équivariants? Nous devrons nous arrêter ici par respect pour votre temps. Nous espérons que cela vous a plu, vous pouvez continuez à explorer la conférence sur notre plateforme.

Bibliographie

[1] « Propriétés émergentes dans les transformateurs de vision auto-supervisés » par Mathilde Caron et al. 2021.

[2] "Apprentissage contrastif négatif approximatif du voisin le plus proche pour la récupération de texte dense" par Lee Xiong et al. 2020.

[3] « Réseaux polyvalents multimodaux auto-supervisés » par Jean-Baptiste Alayrac et al. 2020.

[4] "Les modèles de langage sont des apprenants peu nombreux" par Tom B. Brown et al. 2020.

[5] « Rendre les modèles linguistiques pré-formés meilleurs pour les apprenants à quelques coups » par Tianyu Gao, Adam Fisch, Danqi Chen, 2021.

[6] "Classification de texte à quelques coups avec signatures de distribution" par Yujia Bao, Menghua Wu, Shiyu Chang, Regina Barzilay, 2019.

Cet article a été publié initialement le Zêta Alpha et republié sur TOPBOTS avec la permission de l'auteur.

Nous vous informerons lorsque nous publierons plus de formation technique.

Intelligence de données générative

NeurIPS 2021 - 10 articles à ne pas manquer

Bibliographie

Services Connexes

Robinhood s'attend à un chiffre d'affaires trimestriel le plus élevé depuis la frénésie boursière des mèmes - Reuters

Les traders d'argent intelligents privilégient PEPE et FLOKI avec plus de 50 millions de dollars investis

Dernières informations

Madeleine Pierpont du MoMA : les NFT font déjà partie de l'histoire de l'art

L'impact de MultiBank.io sur l'avenir du trading de crypto-monnaie – CryptoInfoNet

Comment vendre du Bitcoin contre de l'argent rapidement, facilement et en toute sécurité | BitPay

L'investisseur « Big Short » Steve Eisman déclare que la cryptographie est l'un des trois « grands thèmes de notre époque » – Voici ce qu'il veut dire – The Daily Hodl

L'ancienne star de la NFL, Rob Gronkowski, paiera 1.9 million de dollars pour régler le procès des investisseurs en cryptographie

Casino sans licence suédoise avec la meilleure expérience utilisateur

NeurIPS 2021 - 10 articles à ne pas manquer

Bibliographie

Profitez de cet article? Inscrivez-vous pour plus de mises à jour de l'IA.

Services Connexes

Dernières informations