Kan je stellen dat indrukwekkende taalmodellen zoals GPT steeds meer kunnen en deze zogenoemde Large Language Models ook op humanitair gebied een verschil kunnen maken? In deze blog kijkt Pippelaar Nina van Diermen hoe BERTopic het Rode Kruis kan ondersteunen in het verwerken van Telegram berichten. Wat doet BERTopic, hoe werkt het en welke oplossingen biedt het voor het Rode Kruis?

Social Media Listening

De afgelopen 2 jaar is het Rode Kruis bezig geweest met het monitoren van publieke Telegram kanalen die Oekraïense vluchtelingen gebruiken om informatie met elkaar te delen. Hierop bespreken ze allerlei zaken waar zij tegenaan lopen als vluchteling. Naar aanleiding van deze berichten, kunnen lokale Rode Kruis organisaties bepaalde taken worden opgedragen die beter inspelen op de behoeften van de vluchtelingen. Deze behoeften zijn echter moeilijk te herleiden van grote hoeveelheden ongeordende Telegram berichten. Het Rode Kruis categoriseert daarom de berichten onder verschillende kopjes, zoals onderdak of gezondheid. Het bedenken van een passend categorisatie schema heeft hen echter veel tijd gekost, omdat er herhaaldelijk door deze grote hoeveelheid berichten gespit heeft moeten worden. Deze tijd kan binnen een organisatie als het Rode Kruis op andere nuttige manieren besteed worden. Daarom zouden zij er veel baat bij hebben als de hiervoor benodigde tijd, in het geval van een nieuwe ramp, beperkt kan blijven.

BERTopic

In het verwerken van de Telegram berichten, blijkt Topic Modeling een tijdbesparende alternatieve methode te zijn waarbij het niet nodig is om zelf labels te definiëren. Deze methode clustert de berichten en geeft vervolgens een beknopte omschrijving van wat er besproken wordt in het betreffende cluster, ook wel topic genoemd. BERTopic is een manier van Topic Modeling die gebruik maakt van de kracht van LLMs. Grofweg gezien, bestaat BERTopic uit 4 stappen, die hieronder geïllustreerd zijn.

BERTopic bestaat uit 4 stappen

BERTopic bestaat uit 4 stappen

De LLM wordt gebruikt in de eerste stap; het maken van de embeddings. De embeddings zijn numerieke weergaven van de berichten, die de semantische inhoud bevatten. De kracht van een LLM in het maken van zulke embeddings is enerzijds te danken aan zijn Transformer-structuur. Dankzij deze structuur, kan het model de betekenis van woorden in hun context bevatten, zelfs als de woorden ver uit elkaar liggen. Anderzijds komt deze kracht van de grote hoeveelheden tekstdata waarop het model gepre-trained wordt. Tijdens dit pre-trainen doet het model veel kennis op over taal. Vervolgens kan het model gefinetuned worden voor specifiekere taken. Voor BERTopic wordt een LLM aangeraden die gefinetuned wordt om semantische overeenkomst tussen teksten te voorspellen.
Uiteindelijk zullen de numerieke representaties van de berichten geclusterd worden. Over het algemeen bevatten de embeddings echter een groot aantal features. Door ‘the curse of dimensionality’ kan dit problematisch zijn bij het clusteren. Volgens dit fenomeen verdwijnt namelijk het begrip afstand als je data hebt dat uit veel features bestaat, en laat dit nou net het aspect zijn waar clusteringen op gebaseerd worden. Om dit te voorkomen wordt dus eerst de dimensie verkleind voordat de clustering wordt toegepast.
Na de clustering heb je een groepering van de Telegram berichten op basis van semantische overeenkomsten. De berichten binnen een cluster bespreken dus min of meer hetzelfde; ze praten over een bepaald topic. Om ieder topic weer te geven, wordt er per cluster een representatie gevormd. Deze bestaat uit woorden die vaak voorkomen in dat specifieke cluster. Op deze manier is er dus geen categorisatie schema nodig, maar groepeert BERTopic de data en produceert zelf een soort labels.

Toepassing

Uiteindelijk is BERTopic ook toegepast op de beschikbare Telegram data van het Rode Kruis, om te kijken of het een uitkomst kan bieden in toekomstige situaties. Over het algemeen zijn de uitkomsten veel belovend. De volgende topics zijn uit de data herleid:

BERTopic topics gebaseerd op de beschikbare Telegram data van het Rode Kruis

BERTopic topics gebaseerd op de beschikbare Telegram data van het Rode Kruis

Hoewel de representaties niet altijd even informatief zijn, lijken de meeste topics goed onderscheid te maken in de berichten. In het geval van de Oekraïense vluchtelingen is het huidige classificatiemodel bruikbaar voor het Rode Kruis, gezien de expliciete focus op wat voor hen belangrijk is. Desondanks, laat het wel zien wat voor mogelijkheden er zijn in het geval van een nieuwe ramp. Als alternatief voor de standaard representaties van de topics, kan er voor geavanceerdere methodes gekozen worden om labels of zelfs hele samenvattingen van de topics te maken. Op deze manier, kan er snel een overzicht worden verkregen van de discussie op de sociale media omtrent de ramp. Ondanks de lagere kwaliteit van de groepering, wordt er veel tijd gewonnen door BERTopic wat betreft het definiëren van het categorisatie schema. Mogelijk kan het iteratief combineren van eigen labels met de uitkomsten van Topic Modeling een mooie balans hierin bieden.

Vragen over het laatste nieuws, events en pr?

Rob kan je alles over onze organisatie, missie en visie vertellen.
Hij komt graag met je in contact!

Rob Tillemans
Commercieel Directeur
commercie@pipple.nl