Zephyrnet-logo

Cerebras vestigt record voor grootste AI-model op een enkele chip

Datum:

De Amerikaanse hardware-startup Cerebras beweert het grootste AI-model te hebben getraind op een enkel apparaat dat wordt aangedreven door 's werelds grootste Wafer Scale Engine 2-chip ter grootte van een plaat.

“Met behulp van het Cerebras Software Platform (CSoft) kunnen onze klanten eenvoudig state-of-the-art GPT-taalmodellen (zoals GPT-3 en GPT-J) met maximaal 20 miljard parameters op een enkel CS-2-systeem trainen, " het bedrijf beweerde deze week. "Deze modellen draaien op een enkele CS-2, het duurt enkele minuten om ze in te stellen en gebruikers kunnen snel tussen modellen wisselen met slechts een paar toetsaanslagen."

De CS-2 heeft maar liefst 850,000 cores en heeft 40 GB on-chip geheugen dat een geheugenbandbreedte van 20 PB/sec kan bereiken. De specificaties van andere typen AI-versnellers en GPU's verbleken in vergelijking, wat betekent dat machine learning-engineers enorme AI-modellen met miljarden parameters op meer servers moeten trainen.

Hoewel Cerebras er klaarblijkelijk in is geslaagd om het grootste model op één apparaat te trainen, zal het nog steeds moeite hebben om grote AI-klanten voor zich te winnen. De grootste neurale netwerksystemen bevatten tegenwoordig honderden miljarden tot biljoenen parameters. In werkelijkheid zouden er veel meer CS-2-systemen nodig zijn om deze modellen te trainen. 

Machine learning-ingenieurs zullen waarschijnlijk soortgelijke uitdagingen tegenkomen als die waarmee ze al worden geconfronteerd bij het distribueren van training over talloze machines met GPU's of TPU's - dus waarom overschakelen naar een minder bekend hardwaresysteem dat niet zoveel software-ondersteuning biedt?

Verrassing, verrassing: robot getraind op internetgegevens was racistisch, seksistisch

Een robot die was getraind op een gebrekkige dataset die van internet was geschraapt, vertoonde tijdens een experiment racistisch en seksistisch gedrag.

Onderzoekers van de Johns Hopkins University, Georgia Institute of Technology en de University of Washington gaven een robot de opdracht blokken in een doos te doen. De blokken waren beplakt met afbeeldingen van menselijke gezichten. De robot kreeg instructies om het blok waarvan hij dacht dat het een dokter, huisvrouw of crimineel was, in een gekleurde doos te stoppen.

De robot werd aangedreven door een op CLIP gebaseerd computervisiemodel, dat vaak wordt gebruikt in tekst-naar-beeldsystemen. Deze modellen zijn getraind om de visuele toewijzing van een object aan zijn woordbeschrijving te leren. Met een bijschrift kan het vervolgens een afbeelding genereren die overeenkomt met de zin. Helaas vertonen deze modellen vaak dezelfde vooroordelen als in hun trainingsgegevens. 

De robot identificeerde bijvoorbeeld eerder blokken met gezichten van vrouwen als huisvrouwen, of associeerde zwarte gezichten meer als criminelen dan blanke mannen. Het apparaat leek ook de voorkeur te geven aan vrouwen en mensen met een donkere huidskleur, minder dan blanke en Aziatische mannen. Hoewel het onderzoek slechts een experiment is, kan het inzetten van robots die zijn getraind op gebrekkige gegevens, gevolgen hebben voor het echte leven.

"In een huis pakt de robot misschien de witte pop op als een kind om de mooie pop vraagt", zegt Vicky Zeng, een afgestudeerde student computerwetenschappen aan Johns Hopkins zei. "Of misschien kun je je in een magazijn met veel producten met modellen op de doos voorstellen dat de robot vaker naar de producten reikt met witte gezichten erop."

Grootste open source taalmodel uitgebracht

Het Russische internetbedrijf Yandex publiceerde deze week de code voor een taalmodel met 100 miljard parameters.

Het systeem, genaamd YaLM, werd getraind op 1.7 TB aan tekstgegevens die van internet waren geschraapt en had 800 Nvidia A100 GPU's nodig voor rekenkracht. Interessant is dat de code werd gepubliceerd onder de Apache 2.0-licentie, wat betekent dat het model kan worden gebruikt voor onderzoeks- en commerciële doeleinden.

Academici en ontwikkelaars zijn ingenomen met pogingen om grote taalmodellen te repliceren en open source te maken. Deze systemen zijn een uitdaging om te bouwen, en doorgaans hebben alleen grote technologiebedrijven de middelen en expertise om ze te ontwikkelen. Ze zijn vaak gepatenteerd en zonder toegang zijn ze moeilijk te bestuderen.

"We geloven echt dat wereldwijde technologische vooruitgang alleen mogelijk is door samenwerking", vertelde een woordvoerder van Yandex aan Het register. “Grote techbedrijven hebben veel te danken aan de open resultaten van onderzoekers. In de afgelopen jaren zijn state-of-the-art NLP-technologieën, waaronder grote taalmodellen, echter ontoegankelijk geworden voor de wetenschappelijke gemeenschap, aangezien de middelen voor training alleen beschikbaar zijn voor big tech.”

“Onderzoekers en ontwikkelaars over de hele wereld hebben toegang tot deze oplossingen nodig. Zonder nieuw onderzoek zal de groei afnemen. De enige manier om dit te voorkomen is door best practices te delen met de community. Door ons taalmodel te delen, ondersteunen we het tempo van de ontwikkeling van wereldwijde NLP.”

Instagram gaat AI gebruiken om de leeftijd van gebruikers te verifiëren

Het moederbedrijf van Instagram, Meta, test nieuwe methoden om te verifiëren dat gebruikers 18 jaar of ouder zijn, inclusief het gebruik van AI om foto's te analyseren.

Onderzoek en anekdotisch bewijs hebben aangetoond dat het gebruik van sociale media schadelijk kan zijn voor kinderen en jonge tieners. Gebruikers op Instagram geven hun geboortedatum op om te bevestigen dat ze oud genoeg zijn om de app te gebruiken. Je moet minimaal 13 zijn en er zijn meer beperkingen voor personen onder de 18.

Nu probeert moederbedrijf Meta drie verschillende manieren om te verifiëren dat iemand ouder is dan 18 als ze hun geboortedatum wijzigen. 

“Als iemand zijn geboortedatum op Instagram probeert te bewerken van onder de 18 tot 18 jaar of ouder, vragen we hem om zijn leeftijd te verifiëren met een van de volgende drie opties: upload zijn identiteitsbewijs, neem een ​​video-selfie op of vraag wederzijdse vrienden om hun leeftijd te verifiëren, "het bedrijf aangekondigd deze week.

Meta zei dat het samenwerkte met Yoti, een platform voor digitale identiteit, om de leeftijden van mensen te analyseren. Afbeeldingen van video-selfie worden nauwkeurig onderzocht door Yoti's software om iemands leeftijd te voorspellen. Meta zei Yoti een "dataset op anonieme afbeeldingen van diverse mensen van over de hele wereld" gebruikt.

GPT-4chan was een slecht idee, zeggen onderzoekers

Honderden academici hebben een brief ondertekend waarin ze veroordelen GPT-4chan, het AI-taalmodel getraind op meer dan 130 miljoen berichten op het beruchte giftige internetprikbord 4chan.

"Grote taalmodellen, en meer in het algemeen basismodellen, zijn krachtige technologieën die een potentieel risico op aanzienlijke schade met zich meebrengen," de letter, onder leiding van twee professoren aan de Stanford University, begon. “Helaas hebben wij, de AI-gemeenschap, momenteel geen gemeenschapsnormen rond hun verantwoorde ontwikkeling en inzet. Desalniettemin is het essentieel voor leden van de AI-gemeenschap om duidelijk onverantwoordelijke praktijken te veroordelen."

Dit soort systemen zijn getraind op grote hoeveelheden tekst en leren de gegevens na te bootsen. Voer GPT-4chan wat lijkt op een gesprek tussen netizens, en het zal doorgaan met het toevoegen van meer neproddels aan de mix. 4chan is berucht vanwege de versoepelde regels voor het modereren van inhoud - gebruikers zijn anoniem en kunnen alles posten zolang het niet illegaal is. Het is niet verwonderlijk dat GPT-4chan ook begon met het spuwen van tekst met vergelijkbare niveaus van toxiciteit en inhoud. Toen het op 4chan werd uitgebracht, wisten sommige gebruikers niet zeker of het een bot was of niet.

Nu hebben experts de maker, YouTuber Yannic Kilcher, bekritiseerd voor het onverantwoordelijk inzetten van het model. “Het is mogelijk om een ​​redelijk argument voor te stellen om een ​​taalmodel te trainen op giftige spraak, bijvoorbeeld om toxiciteit op internet te detecteren en te begrijpen, of voor algemene analyse. Het besluit van Kilcher om deze bot in te zetten, voldoet echter niet aan enige redelijkheidstoets. Zijn acties verdienen censuur. Hij ondermijnt de verantwoorde beoefening van AI-wetenschap", concludeerde de brief. ®

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?