door:
Loran Calbo – Graduate Intern

Wie de recente ontwikkelingen rondom LLMs (Large Language Models) enigszins heeft gevolgd, zal ervan op de hoogte zijn dat Google sinds kort haar verbeterde chatbot genaamd Bard heeft gelanceerd. Met de recente presentatie van het geavanceerdere GPT-4 model door OpenAI en de introductie van Microsoft Bing Chat, lijkt de LLM-race nu officieel van start te zijn gegaan. Lukt het Google om met Bard ChatGPT van de troon te stoten? Laten we even op onderzoek uitgaan.

Pipple kennisdeling | Bard vs. ChatGPT

Pipple kennisdeling | Bard vs. ChatGPT

Begin van dit jaar maakte Google een valse start in aanloop naar de lancering van Bard. In een promotiefilmpje werd een demonstratie van Bard getoond waarbij de chatbot werd gevraagd om bevindingen door de nieuwe James Webb Space Telescope (JWST) te delen die interessant zijn voor een negenjarige. Onder de drie bulletpoints stond vermeld dat de JWST de eerste foto’s van een exoplaneet had gemaakt, wat later onjuist bleek te zijn. Na de publicatie van een artikel door Reuters daalde de marktwaarde van Google met maar liefst 100 miljard dollar, waardoor ze nu een aanzienlijke uitdaging hebben om dat te herstellen.

Tijdens de Google I/O conferentie op 10 mei 2023 kondigde Sundar Pichai, CEO van Google, de lancering van PaLM 2 aan als opvolger van het oorspronkelijke PaLM model dat in 2022 werd gelanceerd. Dit nieuwe model fungeert als de verbeterde motor achter de AI producten van Google, waaronder Bard. Met deze upgrade is Bard nu, buiten het genereren van tekst, ook in staat uitgebreide redeneringen te geven, afbeeldingen te verwerken en ondersteuning te bieden voor het schrijven van code. Deze nieuwe functionaliteiten worden geleidelijk en wereldwijd uitgerold en zullen beschikbaar komen in meerdere talen. Evenals Microsoft dat heeft gedaan, heeft ook Google plannen om haar chatbot te integreren in bestaande apps en diensten, zoals Adobe Firefly. Hiermee wordt het binnenkort mogelijk om via een prompt naar Bard snel afbeeldingen van hoge kwaliteit te genereren. In de VS is deze uitgebreidere functie al beschikbaar, hier in Nederland moeten we er nog even op wachten. Hoewel de plannen veelbelovend klinken, rijst de vraag: hoe presteert Bard daadwerkelijk in de praktijk? Laten we het even aan een test onderwerpen!

Logisch Redeneren

Laten we beginnen met de vaardigheid om te redeneren; één van de upgrades waar Bard volgens Pichai over zou moeten beschikken. Wanneer we ‘bekende’ raadsels aan de modellen voorleggen, lossen ze deze moeiteloos op met correcte redenering. Dit is geen grote verrassing, aangezien de raadsels veelvuldig terug te vinden zijn in de voornaamste bron van de trainingsdata, namelijk het internet. Maar wat gebeurt er als we de modellen een vraag voorleggen die ze waarschijnlijk nog niet eerder hebben gezien?

Om dit te onderzoeken pakken we er een vraag bij uit de Nederlandse Wiskunde Olympiade van 2023. Voor het gemak stellen we de vraag aan beide modellen in het Engels. De vraag luidt:

“Line up the numbers 1 to 15 such that if you add any two numbers that are next to each other, you get a square number.

What do you get if you add the first and last number from the line?”

Bij deze opgave komt ChatGPT als winnaar naar voren. Ondanks dat Bard een uitgebreide redenering presenteert, zijn zowel deze redenering als de conclusie onjuist.

Bard - calculcatie test

Bard’s antwoord

 

ChatGPT daarentegen geeft binnen enkele seconden de juiste oplossing.

Logisch redeneren: ChatGPT komt als winnaar uit de bus

Wanneer we vervolgens vragen naar de manier waarop GPT tot dit antwoord is gekomen, geeft het een redenering die gebaseerd is op trial-and-error. Dit laat zien dat GPT de context van de vraag heeft begrepen, aangezien het alleen mogelijke combinaties vergelijkt (en niet alle combinaties ter grootte van 15!).

 

ChatGTP

ChatGPT laat met de redenering achter de oplossing zien de vraag wél begrepen te hebben

Creativiteit

Als volgend onderdeel gaan we het creatief vermogen van de modellen testen. In plaats van de gebruikelijke oefeningen, zoals het schrijven van gedichten, wilde ik de modellen uitdagen met de vraag waar gevoel voor taal hebben een vereiste is. Ik was nieuwsgierig of ze in staat zijn een zin te construeren in een verzonnen taal die lijkt op het Nederlands. Dit scenario vraagt van de modellen niet alleen een goed begrip van de taal, maar ook het creatieve vermogen om woorden te genereren die niet daadwerkelijk bestaan.

 

Bard - non existent language - example

Bard doet alsof het de vraag begrijpt, maar aan de uitleg is geen touw vast te knopen.

Wederom is het ChatGPT die met de winst aan de haal gaat. Hoewel de zinsstructuur nog niet helemaal logisch klinkt, laat het zien dat het niet alleen creatief is, maar ook een goed begrip heeft van de Nederlandse woordenschat. Daartegenover staat Bard, die doet alsof het de vraag begrijpt, maar vervolgens een Nederlandse zin geeft met een uitleg waar geen touw aan vast te knopen valt.

ChatGTP - non existent language - example

ChatGPT begrijpt niet alleen de vraag maar laat ook poëtische creativiteit zien

Actuele Kennis

Omdat Bard het in voorgaande tests niet zo goed deed, stellen we deze keer een vraag die beter in het straatje past bij Google’s chatbot. Als laatste uitdaging geven we beide modellen een vraag waarbij actuele kennis van pas kan komen. Ik ben benieuwd of ze mij een filmaanbeveling kunnen geven op basis van mijn favoriete acteurs.
Het is opvallend dat beide chatbots een soortgelijk antwoord geven. Wat echter nog verrassender is, is dat de nieuwe Barbie-film, hoewel bekend bij Bard, niet wordt genoemd. Dat lijkt een gemiste kans te zijn.

Movie recommendation test: Bard

Bard is niet volledig en komt met verzonnen feiten in de beschrijving

Bovendien vermeldt Bard ook nog eens dat Ryan Gosling de ex-vrouw van Tonya speelt in de film ‘I, Tonya’, wat opnieuw een verzonnen gegeven is.

Movie recommendation test: ChatGPT

Het antwoord van ChatGPT is wederom meer volledig

In conclusie; hoewel de LLM-race met de lancering van Bard officieel begonnen lijkt te zijn, lijkt de chatbot van Google moeilijk uit de startblokken te komen. Na een valse start in de aanloop naar de lancering blijkt Bard ook in praktijktesten niet goed te presteren. Er is echter de kans dat de integratie van nieuwe tools, zoals Google van plan is, positieve veranderingen met zich mee zal brengen. Maar op dit moment lijkt ChatGPT nog steeds comfortabel op de troon te zitten.

Vragen over het laatste nieuws, events en pr?

Thijs kan je alles over onze organisatie, missie en visie vertellen.
Hij komt graag met je in contact!

Thijs Verhaegh
Marketing Manager
communicatie@pipple.nl