Zephyrnet-logo

Heeft Google zijn Gemini AI-demovideo vervalst? – TechStartups

Datum:

Woensdag verraste Google iedereen met de lancering van Gemini, het grootste en krachtigste AI-model tot nu toe. Er zit echter een wending in het verhaal, aangezien het rapport van The Information zinspeelde op een mogelijke vertraging van de volledige lancering tot 2024. Het lijkt erop dat Google heeft besloten de release uit te stellen vanwege een aantal gereedheidsproblemen, wat herinneringen oproept aan de eerdere wankele release van AI-tools door het bedrijf. dit jaar.

Gemini, dat beschikt over het vermogen om beter te presteren dan OpenAI's GPT-4, kreeg onmiddellijke aandacht van verschillende technische media. Vooral TechCrunch publiceerde een artikel waarin werd beweerd dat “De beste Gemini-demo van Google was vervalst.” Het middelpunt van hun betoog is een video met de titel ‘Hands-on with Gemini: Interacting with multimodal AI’, die de afgelopen drie dagen bijna twee miljoen keer is bekeken.

Volgens TechCrunch werd de demovideo als nep beschouwd omdat deze niet in realtime of met daadwerkelijke steminteractie werd afgespeeld. Ze ondersteunden hun bewering met een tweet van Parmy Olson, die voor het eerst de discrepantie benadrukte op basis van een verklaring van de woordvoerder van Google die Olson vertelde dat de demonstratie niet in realtime of met gesproken stem plaatsvond, volgens een verklaring van een Google-woordvoerder. woordvoerder. In plaats daarvan werd het gemaakt door “stilstaande beeldframes uit de beelden te gebruiken en via tekst te vragen.”

“PSA over Google’s adembenemende videodemonstratie van Gemini – die met de eend:

“Het werd niet in realtime of met stem uitgevoerd. Het model kreeg stilstaande beelden te zien uit videobeelden en daarna werden menselijke aanwijzingen verteld, aldus een woordvoerder Meer hier: bloeiberg.com/opinion/articl' schreef Olson.

Heeft Google echt zijn hands-on Gemini AI-video vervalst?

Heeft Google dus daadwerkelijk zijn praktische demovideo voor Gemini AI vervalst? Om dit tot op de bodem uit te zoeken, is het van cruciaal belang op te merken dat het artikel van TechCrunch gebaseerd was op Olsons bericht op X, dat een link bevatte naar een inmiddels verwijderd Bloomberg-artikel.

Om nog een laag aan het verhaal toe te voegen, was het een Google-woordvoerder die Olson liet weten dat de Gemini-demo niet in realtime of met daadwerkelijke steminteractie werd uitgevoerd. In plaats daarvan kreeg het model stilstaande beelden te zien uit videobeelden, met daarna commentaar van menselijke aanwijzingen.

In tegenstelling tot wat het artikel impliceert, was de indrukwekkende hands-on Gemini AI-video die Google deelde tijdens de lancering van het platform in essentie niet helemaal echt. Het was ook geen volledige verzinsel, maar eerder een weergave van 'hoe Gemini eruit zou kunnen zien', die een glimp van het potentieel bood in plaats van een realtime demonstratie zoals veel kijkers dachten.

Sommigen beweren echter dat TechCrunch om 2:45 uur in de video een moment benadrukte waarop “een hand in stilte een reeks gebaren maakt. Gemini antwoordt snel: 'Ik weet wat je doet! Je speelt Steen, Papier, Schaar!'”

Beeldcredits: Google/YouTube

Zoals het artikel correct vermeldde, vermeldt de initiële informatie in de capaciteitsdocumentatie duidelijk dat het model geen gevolgtrekkingen maakt op basis van individuele gebaren. Het vereist dat alle drie de gebaren tegelijkertijd worden gepresenteerd, samen met een prompt.

“Maar het allereerste in de documentatie van de mogelijkheid is dat het model niet redeneert op basis van het zien van individuele gebaren. Het moet alle drie de gebaren tegelijk worden getoond en gevraagd worden: “Wat denk je dat ik aan het doen ben? Tip: het is een spel.” Het antwoordt: "Je speelt steen, papier, schaar."

Het artikel wees er ook op dat deze interacties, ondanks de schijnbare gelijkenis, niet hetzelfde overkwamen vanwege Gemini's beperkingen bij het uitvoeren van alle taken die in de praktische video werden gedemonstreerd. Als zodanig concludeerde TechCrunch dat de ‘interactie’ die in de video wordt getoond, niet heeft plaatsgevonden.

“Ondanks de gelijkenis voelen deze niet als dezelfde interactie. Ze voelen aan als fundamenteel verschillende interacties: de ene is een intuïtieve, woordeloze evaluatie die ter plekke een abstract idee vastlegt, de andere is een technische interactie met veel hints die zowel beperkingen als mogelijkheden demonstreert. Gemini deed het laatste, niet het eerste. De ‘interactie’ die in de video te zien was, heeft niet plaatsgevonden.”

Het tegenargument voor deze bewering is echter dat, zoals Olson ook opmerkte in haar stuk over Bloomberg, bevat de YouTube-beschrijving van de video de volgende disclaimer:

“Voor de doeleinden van deze demo is de latentie verlaagd en zijn de Gemini-uitvoer verkort voor de beknoptheid.”

Dit suggereert dat het AI-model mogelijk meer tijd nodig had om te reageren, aldus een Google-woordvoerder die erkende dat de demo was gemaakt door “stilstaande beeldframes uit de beelden te gebruiken en via tekst te vragen.”

Interessant genoeg is de manier waarop Gemini werkt meer AI-gericht dan de afgebeelde demo. Google's Vice President of Research en de co-lead voor Gemini lieten vervolgens de feitelijke werking van Gemini zien.

Heeft Google gelogen over de demovideo?

Nee, Google was duidelijk en openhartig dat de demo “niet in realtime of met gesproken stem werd uitgevoerd.” In een reactie op Bloomberg Opinion zei een woordvoerder van Google dat de video was gemaakt “met behulp van stilstaande beeldframes uit de beelden en met aanwijzingen via tekst.”

“In werkelijkheid werd de demo ook niet in realtime of met stem uitgevoerd. Toen Bloomberg Opinion naar de video vroeg, zei een woordvoerder van Google dat deze was gemaakt door “stilstaande beeldframes uit de beelden te gebruiken en te vragen via tekst”, en ze wezen naar een site die liet zien hoe anderen met Gemini konden communiceren met foto’s van hun handen. , of van tekeningen of andere voorwerpen. Met andere woorden, de stem in de demo las door mensen gemaakte aanwijzingen voor aan Gemini en liet hen stilstaande beelden zien. Dat is heel anders dan wat Google leek te suggereren: dat iemand een vloeiend stemgesprek met Gemini zou kunnen voeren terwijl hij in realtime naar de wereld om hem heen keek en reageerde,' zei Olso. schreef op Bloomberg.

[Ingesloten inhoud]


spot_img

Laatste intelligentie

spot_img