Zephyrnet-logotyp

TF-replikerare: Distribuerad maskininlärning för forskare

Datum:

Bygga en plattform för AI-forskning på DeepMind

Genom att samarbeta nära med forskare under hela designen och implementeringen av TF-Replicator kunde vi bygga ett bibliotek som gör det möjligt för användare att enkelt skala beräkningen över många hårdvaruacceleratorer, samtidigt som vi lämnar dem kontrollen och flexibiliteten som krävs för att göra banbrytande AI-forskning . Till exempel har vi lagt till MPI-stil kommunikationsprioriteringar som all-reducera efter diskussion med forskare. TF-Replicator och annan delad infrastruktur gör det möjligt för oss att bygga allt mer komplexa experiment på robusta fundament och snabbt sprida bästa praxis över DeepMind.

I skrivande stund är TF-Replicator det mest använda gränssnittet för TPU-programmering på DeepMind. Även om biblioteket i sig inte är begränsat till utbildning av neurala nätverk, används det oftast för träning på stora mängder data. De Biggan modellen, till exempel, tränades på partier i storlek 2048 över upp till 512 kärnor av en TPUv3 pod. I Reinforcement Learning-agenter med en distribuerad uppsättning av skådespelare-elever, t.ex. vår viktade viktade aktör-elevarkitekturerskalbarhet uppnås genom att många aktörer genererar nya upplevelser genom att interagera med miljön. Dessa data behandlas sedan av eleven för att förbättra agentens policy, representerad som ett neuralt nätverk. För att hantera ett ökande antal aktörer kan TF-Replicator användas för att enkelt distribuera eleven över många hårdvaruacceleratorer. Dessa och andra exempel beskrivs mer detaljerat i vårt arXiv-papper.

TF-Replicator är bara ett av många exempel på påverkande teknik byggd av DeepMinds forskningsplattformteam. Många av DeepMinds genombrott i AI, från AlphaGo till AlphaStar, aktiverades av teamet. Om du delar vårt uppdrag och är glada över att påskynda den senaste AI-forskningen, leta efter öppna positioner inom Software Engineering i Research Platform på https://deepmind.com/careers (maskininlärningsupplevelse är valfritt för dessa roller).

Detta arbete avslutades av Research Platform Team på DeepMind. Vi vill tacka Frederic Besse, Fabio Viola, John Aslanides, Andy Brock, Aidan Clark, Sergio Gómez Colmenarejo, Karen Simonyan, Sander Dieleman, Lasse Espeholt, Akihiro Matsukawa, Tim Harley, Jean-Baptiste Lespiau, Koray Kavukcuoglu, Dan Belov och många andra på DeepMind för deras värdefulla feedback under utvecklingen av TF-Replicator. Vi vill också tacka Priya Gupta, Jonathan Hseu, Josh Levenberg, Martin Wicke och andra på Google för att dessa idéer är tillgängliga för alla TensorFlow-användare som en del av tf.distribute.Strategy.

Källa: https://deepmind.com/blog/article/tf-replicator-distribution-machine-learning

plats_img

Senaste intelligens

plats_img