Google's Gemini: is het nieuwe AI-model echt beter dan ChatGPT?

MeSSrro/Shutterstock

Google Deepmind heeft onlangs Gemini aangekondigd, zijn nieuwe AI-model om te concurreren met OpenAI’s ChatGPT. Terwijl beide modellen voorbeelden zijn van “generatieve AI”, die leren om patronen te vinden in de input van trainingsinformatie om nieuwe gegevens te genereren (afbeeldingen, woorden of andere media), is ChatGPT een groot taalmodel (LLM) dat zich richt op het produceren van tekst.

Op dezelfde manier als ChatGPT een webapp is voor conversaties die is gebaseerd op het neurale netwerk dat bekend staat als GPT (getraind op grote hoeveelheden tekst), heeft Google een conversatie webapp genaamd Bard die was gebaseerd op een model genaamd LaMDA (getraind op dialoog). Maar Google is die nu aan het upgraden op basis van Gemini.

Wat Gemini onderscheidt van eerdere generatieve AI-modellen zoals LaMDA is dat het een “multimodaal model” is. Dit betekent dat het direct werkt met meerdere manieren van invoer en uitvoer: het ondersteunt niet alleen tekstinvoer en -uitvoer, maar ook afbeeldingen, audio en video. Daarom is er een nieuw acroniem in opkomst: LMM (large multimodal model), niet te verwarren met LLM.

In september kondigde OpenAI een model aan met de naam GPT-4Vision dat ook met afbeeldingen, audio en tekst kan werken. Het is echter geen volledig multimodaal model zoals Gemini belooft te zijn.

Terwijl ChatGPT-4, dat wordt aangedreven door GPT-4V, bijvoorbeeld kan werken met audio-inputs en spraakuitvoer kan genereren, heeft OpenAI bevestigd dat dit wordt gedaan door spraak om te zetten naar tekst op input met behulp van een ander deep learning model genaamd Whisper. ChatGPT-4 converteert ook tekst naar spraak met behulp van een ander model, wat betekent dat GPT-4V zelf puur met tekst werkt.

ChatGPT-4 kan ook afbeeldingen produceren, maar doet dat door tekstaanwijzingen te genereren die worden doorgegeven aan een apart deep learning-model genaamd Dall-E 2, dat tekstbeschrijvingen omzet in afbeeldingen.

Google heeft Gemini daarentegen ontworpen om “van nature multimodaal” te zijn. Dit betekent dat het kernmodel direct een scala aan invoertypes verwerkt (audio, afbeeldingen, video en tekst) en deze ook direct kan uitvoeren.

Het oordeel

Het onderscheid tussen deze twee benaderingen lijkt misschien academisch, maar het is belangrijk. De algemene conclusie van Google’s technische rapport en andere kwalitatieve tests tot nu toe is dat de huidige publiek beschikbare versie van Gemini, genaamd Gemini 1.0 Pro, over het algemeen niet zo goed is als GPT-4, en qua mogelijkheden meer lijkt op GPT 3.5.

Google kondigde ook een krachtigere versie van Gemini aan, Gemini 1.0 Ultra genaamd, en presenteerde enkele resultaten waaruit blijkt dat deze krachtiger is dan GPT-4. Het is echter moeilijk om dit te beoordelen. Het is echter moeilijk om dit te beoordelen, om twee redenen. De eerste reden is dat Google Ultra nog niet heeft uitgebracht, dus de resultaten kunnen op dit moment niet onafhankelijk worden gevalideerd.

De tweede reden waarom het moeilijk is om de beweringen van Google te beoordelen, is dat Google ervoor heeft gekozen om een enigszins misleidende demonstratievideo uit te brengen, zie hieronder. De video laat zien hoe het Gemini model interactief en vloeiend commentaar geeft op een live videostream.

Zoals Bloomberg aanvankelijk meldde, werd de demonstratie in de video echter niet in realtime uitgevoerd. Het model had bijvoorbeeld van tevoren een aantal specifieke taken geleerd, zoals de truc met drie kopjes en een bal, waarbij Gemini bijhoudt onder welke kopjes de bal zich bevindt. Hiervoor kreeg het een reeks stilstaande beelden te zien waarin de handen van de presentator op de verwisselde bekers liggen.

Veelbelovende toekomst

Ondanks deze problemen geloof ik dat Gemini en grote multimodale modellen een zeer opwindende stap voorwaarts zijn voor generatieve AI. Dat is zowel vanwege hun toekomstige mogelijkheden als voor het concurrentielandschap van AI-tools. Zoals ik in een eerder artikel heb opgemerkt, is GPT-4 getraind op ongeveer 500 miljard woorden – in wezen alle publiekelijk beschikbare tekst van goede kwaliteit.

De prestaties van deep learning-modellen worden over het algemeen bepaald door de toenemende complexiteit van het model en de hoeveelheid trainingsgegevens. Dit heeft geleid tot de vraag hoe verdere verbeteringen kunnen worden bereikt, aangezien we bijna geen nieuwe trainingsgegevens meer hebben voor taalmodellen. Multimodale modellen openen echter enorme nieuwe reserves aan trainingsgegevens – in de vorm van afbeeldingen, audio en video’s.

AI’s zoals Gemini, die direct op al deze gegevens kunnen worden getraind, zullen in de toekomst waarschijnlijk veel meer mogelijkheden hebben. Ik verwacht bijvoorbeeld dat modellen die getraind zijn op video verfijnde interne representaties zullen ontwikkelen van wat “naïeve fysica” wordt genoemd. Dit is het basisbegrip dat mensen en dieren hebben over causaliteit, beweging, zwaartekracht en andere natuurkundige verschijnselen.

Ik ben ook enthousiast over wat dit betekent voor het concurrentielandschap van AI. Ondanks de opkomst van veel generatieve AI-modellen zijn de GPT-modellen van OpenAI het afgelopen jaar dominant geweest en hebben ze een prestatieniveau laten zien dat andere modellen niet konden benaderen.

Google’s Gemini duidt op de opkomst van een grote concurrent die het veld vooruit zal helpen. Natuurlijk werkt OpenAI vrijwel zeker aan GPT-5, en we kunnen verwachten dat deze ook multimodaal zal zijn en opmerkelijke nieuwe mogelijkheden zal laten zien.

Lees meer:
Google’s Gemini AI hint naar de volgende grote sprong voor de technologie: het analyseren van real-time informatie

Dit gezegd hebbende, zie ik graag de opkomst van zeer grote multimodale modellen die open-source en niet-commercieel zijn, waarvan ik hoop dat ze er de komende jaren aankomen.

Ik ben ook blij met sommige functies van Gemini’s implementatie. Google heeft bijvoorbeeld een versie aangekondigd met de naam Gemini Nano, die veel lichter is en direct op mobiele telefoons kan draaien.

Lichtgewicht modellen zoals deze verminderen de milieu-impact van AI computing en hebben veel voordelen vanuit privacy-perspectief, en ik ben er zeker van dat deze ontwikkeling ertoe zal leiden dat concurrenten dit voorbeeld zullen volgen.

Michael G. Madden werkt niet voor, heeft geen adviesfuncties, bezit geen aandelen in en ontvangt geen financiering van bedrijven of organisaties die baat zouden hebben bij dit artikel en heeft geen relevante banden bekendgemaakt buiten zijn academische aanstelling.