Zephyrnet-logo

Het nieuwe computervisie-model van Facebook bereikt ultramoderne prestaties door te leren van willekeurige afbeeldingen

Datum:

Sluit je aan bij Transform 2021 voor de belangrijkste thema's in enterprise AI & Data. Kom meer te weten.


Facebook heeft vandaag een AI-model aangekondigd dat is getraind op een miljard afbeeldingen en dat ogenschijnlijk state-of-the-art resultaten behaalt op een reeks computer vision-benchmarks. In tegenstelling tot de meeste computer vision-modellen, die leren van gelabelde datasets, genereert Facebook labels uit data door de relaties tussen de delen van de data bloot te leggen – een stap die van cruciaal belang wordt geacht om ooit intelligentie op menselijk niveau te bereiken.

De toekomst van AI ligt in het ontwikkelen van systemen die conclusies kunnen trekken uit de informatie die ze krijgen, zonder te vertrouwen op geannoteerde datasets. Op basis van tekst, afbeeldingen of een ander soort gegevens zou een AI-systeem idealiter objecten in een foto kunnen herkennen, tekst kunnen interpreteren of een van de talloze andere taken kunnen uitvoeren die ervan worden gevraagd.

Facebook beweert een stap in de richting hiervan te hebben gezet met een computervisiemodel genaamd SEER, wat staat voor SElf-supERvised. SEER bevat een miljard parameters en kan leren van elke willekeurige groep afbeeldingen op internet zonder dat er curatie of annotatie nodig is. Parameters, een fundamenteel onderdeel van machine learning-systemen, vormen het deel van het model dat is afgeleid van historische trainingsgegevens.

Nieuwe technieken

Zelftoezicht want visie is een uitdagende taak. Bij tekst kunnen semantische concepten worden opgedeeld in afzonderlijke woorden, bij afbeeldingen moet een model zelf beslissen welke pixel bij welk concept hoort. Om de zaken nog uitdagender te maken, zal hetzelfde concept vaak variëren tussen afbeeldingen. Om de variatie rond één concept te begrijpen, moet je dus naar veel verschillende beelden kijken.

Facebook-onderzoekers ontdekten dat het schalen van AI-systemen om met complexe beeldgegevens te werken minstens twee kerncomponenten vereiste. Het eerste was een algoritme dat kon leren van een groot aantal willekeurige afbeeldingen zonder enige metagegevens of annotaties, terwijl het tweede een convolutioneel netwerk was – ConvNet – dat groot genoeg was om elk visueel concept uit deze gegevens vast te leggen en te leren. Convolutionele netwerken, die voor het eerst werden voorgesteld in de jaren tachtig, zijn geïnspireerd door biologische processen, in die zin dat het connectiviteitspatroon tussen componenten van het model lijkt op de visuele cortex.

Bij de ontwikkeling van SEER profiteerde Facebook van een algoritme genaamd SwAV, dat voortkwam uit het onderzoek van het bedrijf naar zelfgecontroleerd leren. SwAV maakt gebruik van een techniek die clustering wordt genoemd om snel afbeeldingen van vergelijkbare visuele concepten te groeperen en hun overeenkomsten te benutten, waardoor het leren op eigen kracht wordt verbeterd ten opzichte van de vorige state-of-the-art, terwijl er tot zes keer minder trainingstijd nodig is.

Facebook-ZIENER

Boven: een vereenvoudigd schema dat de modelarchitectuur van SEER toont.

Afbeelding tegoed: Facebook

Voor trainingsmodellen op de omvang van SEER was volgens Facebook ook een architectuur nodig die efficiënt was in termen van runtime en geheugen, zonder concessies te doen aan de nauwkeurigheid. De onderzoekers achter SEER kozen ervoor om RegNets te gebruiken, of een type ConvNet-model dat in staat is om miljarden of potentieel biljoenen parameters op te schalen, terwijl het binnen de runtime- en geheugenbeperkingen past.

Facebook-software-ingenieur Priya Goyal zei dat SEER gedurende 512 dagen was getraind op 100 NVIDIA V32 GPU's met 30 ​​GB RAM.

Het laatste stuk dat SEER mogelijk maakte, was een bibliotheek voor algemene doeleinden genaamd VISSL, een afkorting van VIsion Library for State-of-the-art Self Supervised Learning. VISSL, dat Facebook tegenwoordig open source maakt, maakt training onder eigen toezicht mogelijk met een verscheidenheid aan moderne machine learning-methoden. De bibliotheek faciliteert zelfgecontroleerd leren op schaal door algoritmen te integreren die de geheugenbehoefte per GPU verminderen en de trainingssnelheid van elk bepaald model verhogen.

Prestaties en toekomstig werk

Na voortraining op een miljard openbare Instagram-afbeeldingen presteerde SEER beter dan de meest geavanceerde, ultramoderne, zelfgecontroleerde systemen, zegt Facebook. SEER presteerde ook beter dan modellen op taken als objectdetectie, segmentatie en beeldclassificatie. Wanneer SEER werd getraind met slechts 10% van de voorbeelden in de populaire ImageNet-dataset, slaagde hij er nog steeds in een nauwkeurigheid van 77.9% te bereiken. En bij training met slechts 1% was SEER 60.5% nauwkeurig.

Op de vraag of de Instagram-gebruikers van wie de afbeeldingen zijn gebruikt om SEER te trainen op de hoogte zijn gesteld of de kans hebben gekregen om zich af te melden voor het onderzoek, merkte Goyal op dat Facebook Instagram-accounthouders in zijn gegevensbeleid informeert dat het informatie zoals afbeeldingen gebruikt om onderzoek te ondersteunen, inclusief de soort ondersteunende SEER. Dat gezegd hebbende, is Facebook niet van plan de afbeeldingen of het SEER-model zelf te delen, deels omdat het model dit mogelijk bevat onbedoelde vooroordelen.

“Zelfgestuurd leren is lange tijd een focus geweest voor Facebook AI, omdat het machines in staat stelt rechtstreeks te leren van de enorme hoeveelheid informatie die beschikbaar is in de wereld, in plaats van alleen maar van trainingsgegevens die speciaal voor AI-onderzoek zijn gemaakt”, schreef Facebook in een blogpost. . “Zelfgestuurd leren heeft ongelooflijke gevolgen voor de toekomst van computervisie, net zoals dat op andere onderzoeksgebieden het geval is. Door de behoefte aan menselijke annotaties en metagegevens te elimineren, kan de computer vision-gemeenschap met grotere en meer diverse datasets werken, leren van willekeurige openbare beelden en mogelijk een aantal vooroordelen verzachten die een rol spelen bij datacuratie. Zelfgestuurd leren kan ook helpen modellen te specialiseren in domeinen waar we over beperkte beelden of metadata beschikken, zoals medische beeldvorming. En omdat er vooraf geen arbeid nodig is voor het labelen, kunnen modellen sneller worden gemaakt en geïmplementeerd, waardoor sneller en nauwkeuriger kan worden gereageerd op snel evoluerende situaties.”

VentureBeat

De missie van VentureBeat is om een ​​digitaal stadsplein te zijn voor technische besluitvormers om kennis op te doen over transformatieve technologie en transacties. Onze site biedt essentiële informatie over datatechnologieën en strategieën om u te begeleiden bij het leiden van uw organisaties. We nodigen u uit om lid te worden van onze community, om toegang te krijgen tot:

  • up-to-date informatie over de onderwerpen die u interesseren
  • onze nieuwsbrieven
  • gated thought-leader content en toegang met korting tot onze gewaardeerde evenementen, zoals Transform
  • netwerkfuncties en meer

Word lid

Afrekenen PrimeXBT
Handel met de officiële CFD-partners van AC Milan
De eenvoudigste manier om crypto te verhandelen.
Bron: https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/

spot_img

Laatste intelligentie

spot_img