TF-Replicator: Distributed Machine Learning For Researchers

Bygga en plattform för AI-forskning på DeepMind

Genom att samarbeta nära med forskare under hela designen och implementeringen av TF-Replicator kunde vi bygga ett bibliotek som gör det möjligt för användare att enkelt skala beräkningen över många hårdvaruacceleratorer, samtidigt som vi lämnar dem kontrollen och flexibiliteten som krävs för att göra banbrytande AI-forskning . Till exempel har vi lagt till MPI-stil kommunikationsprioriteringar som all-reducera efter diskussion med forskare. TF-Replicator och annan delad infrastruktur gör det möjligt för oss att bygga allt mer komplexa experiment på robusta fundament och snabbt sprida bästa praxis över DeepMind.

I skrivande stund är TF-Replicator det mest använda gränssnittet för TPU-programmering på DeepMind. Även om biblioteket i sig inte är begränsat till utbildning av neurala nätverk, används det oftast för träning på stora mängder data. De Biggan modellen, till exempel, tränades på partier i storlek 2048 över upp till 512 kärnor av en TPUv3 pod. I Reinforcement Learning-agenter med en distribuerad uppsättning av skådespelare-elever, t.ex. vår viktade viktade aktör-elevarkitekturerskalbarhet uppnås genom att många aktörer genererar nya upplevelser genom att interagera med miljön. Dessa data behandlas sedan av eleven för att förbättra agentens policy, representerad som ett neuralt nätverk. För att hantera ett ökande antal aktörer kan TF-Replicator användas för att enkelt distribuera eleven över många hårdvaruacceleratorer. Dessa och andra exempel beskrivs mer detaljerat i vårt arXiv-papper.

TF-Replicator är bara ett av många exempel på påverkande teknik byggd av DeepMinds forskningsplattformteam. Många av DeepMinds genombrott i AI, från AlphaGo till AlphaStar, aktiverades av teamet. Om du delar vårt uppdrag och är glada över att påskynda den senaste AI-forskningen, leta efter öppna positioner inom Software Engineering i Research Platform på https://deepmind.com/careers (maskininlärningsupplevelse är valfritt för dessa roller).

Detta arbete avslutades av Research Platform Team på DeepMind. Vi vill tacka Frederic Besse, Fabio Viola, John Aslanides, Andy Brock, Aidan Clark, Sergio Gómez Colmenarejo, Karen Simonyan, Sander Dieleman, Lasse Espeholt, Akihiro Matsukawa, Tim Harley, Jean-Baptiste Lespiau, Koray Kavukcuoglu, Dan Belov och många andra på DeepMind för deras värdefulla feedback under utvecklingen av TF-Replicator. Vi vill också tacka Priya Gupta, Jonathan Hseu, Josh Levenberg, Martin Wicke och andra på Google för att dessa idéer är tillgängliga för alla TensorFlow-användare som en del av tf.distribute.Strategy.

Källa: https://deepmind.com/blog/article/tf-replicator-distribution-machine-learning

Generativ dataintelligens

TF-replikerare: Distribuerad maskininlärning för forskare

Bygga en plattform för AI-forskning på DeepMind

Kan cannabis förstärka norrskenet

Marijuana Gummies kan göra bröllop enklare

Senaste intelligens

Reform: Vår industris stora uppdelning

Den nu bekräftade mindre Lucid SUV kommer att kallas "Earth", antyder varumärket - Autoblog

Etisk AI: Ta itu med bias och säkerställa rättvisa i maskininlärningsalgoritmer

MOTORS och Cinch kopplade till Cazoo brandförsäljning

NASA:s strategi för hållbarhet i rymden

Det schweiziska flyget LX80 lyfter till Toronto