Ja, je leest het goed. Data Science is niet alleen van data informatie maken, maar het kan ook andersom! Analoge plattegronden en teksten uit pdf’s volautomatisch omzetten in gestructureerde data. Zelfs handgetekende kaarten. Ook als het een scan is met een hopeloos lage resolutie.
Opdrachtgevers Antea Group en Nazca Solutions hadden hun twijfels of het überhaupt kon. Ook Pipple moest zich even achter de oren krabben. Maar met scraping, Optical Character Recognition (OCR) en objectherkenning kregen ze het voor elkaar.
Een goed gevulde database
Diep in de digitale archieven van Nederlandse overheden bevinden zich honderdduizenden bodemrapporten, wachtend op een tweede leven. Eenmaal opgeborgen, aanschouwt slechts een fractie van deze bestanden nog eens het daglicht. Dat komt omdat het opgraven van een bestaand bodemverontreinigingsrapport tijdrovender is dan een nieuwe proefboring. Zonde, vond René Rummens, senior adviseur bij Antea Group. ‘Nederland is helemaal lek geboord, er is informatie in overvloed. Wat je nodig hebt, is een centrale, goedgevulde database.
Data verzamelen
En dus creëerden Antea Group en Nazca IT-Solutions samen Bodem Digitaal Op de Kaart (BDOK). BDOK verzamelt en bundelt actuele bodemdata tot producten voor aannemers, netbeheerders en adviesbureaus. Hiermee kunnen ze hun werkprocessen rondom graafwerkzaamheden in al dan niet verontreinigde bodems, optimaliseren. Het lastigst hierbij zijn de historische bronnen. ‘Uit de rapporten die beschikbaar zijn voor publiek gebruik, halen we alle informatie. Die structureren we zodat het in de database past en kan worden opgevraagd. De meeste van die rapporten bevinden zich als pdf-document in het archief bij overheden. Maar er zitten er ook fysiek in ordners’, vertelt René.
Gps-coördinaten herkennen
De eerste uitdaging die Pipple voorgeschoteld kreeg: laboratoriumuitkomsten in een pdf geautomatiseerd omzetten naar losse data. Dat lukte hen vrij snel met behulp van tekstherkenning. Of ze ook in de andere opdracht zouden slagen, was voor alle partijen een raadsel, bekent René. ‘Gps-coördinaten zijn een belangrijke parameter in onze database. Maar dat is een relatief nieuwe uitvinding. In oude rapporten worden boringlocaties simpelweg gemarkeerd door getekende kruisjes in een handgemaakte plattegrond. Zelfs een adres ontbreekt vaak. De uitdaging voor Pipple was om uit zo’n tekening toch geautomatiseerd de exacte coördinaten af te kunnen leiden.’
Het resultaat is wonderbaarlijk. Binnen twee maanden herkende Pipple bij 75% van de recente rapporten de boorlocaties automatisch.
Objectherkenning door machine learning
Pipple gebruikte zevenhonderd rapporten om een model te maken. Sommige waren jaren oud en andere meer recent. Het model analyseert in drie fasen. Dankzij objectherkenning onderscheidt het in een rapport een kaart. Vervolgens identificeert het, op basis van open source bronnen, de locatie. Ten slotte herleidt het de boorpunten tot een coördinaat. Het resultaat noemt René wonderbaarlijk. ‘Binnen twee maanden herkende Pipple bij 75% van de recente rapporten de boorlocaties automatisch, op enkele meters nauwkeurig. Dat wordt door machine learning alleen nog maar beter. Pipple is erin geslaagd om analoge informatie te veranderen in losse data. In archieven wachten nog honderdduizenden pdf’s meer op deze analysetoepassing. Hierdoor komt een berg aan data beschikbaar en kunnen we veel meer snelheid maken.’