Hoe zorgen we ervoor dat we gescande tekst doorzoekbaar maken voor lezers? We doen dit door de scans met speciale software om te zetten naar computerleesbare tekst. Dit proces noemen we optische tekenherkenning of, in het Engels, Optical Character Recognition (OCR). Door OCR kunnen niet alleen mensen de tekst op scans lezen, maar ook computers. De computer herkent de woorden op de scan en zo kun je als gebruiker de tekst doorzoeken op trefwoorden.

Wat is OCR?

Om historische teksten toegankelijk te maken en te behouden voor een breed publiek, digitaliseren we bij de KB veel teksten. De eerste stap in dit proces is het maken van een digitale scan. Dit is eigenlijk een soort foto van de tekst, bijvoorbeeld uit een boek. Door de pagina’s van een boek te scannen kunnen we die pagina’s als afbeeldingen op de computer bekijken. Mensen kunnen de tekst op zo’n afbeelding lezen, maar een computer kan dat niet vanzelf.

Scans computerleesbaar maken

Om te zorgen dat de tekst ook leesbaar wordt voor de computer, gebruiken we een techniek die Optical Character Recognition (OCR) heet. In het Nederlands noemen we dit optische tekenherkenning. De software herkent op een afbeelding:

  • waar de tekst staat
  • welke letters er in de tekst zitten
  • of de tekst op de pagina is opgedeeld in kolommen (vaak het geval bij kranten) of paragrafen
  • of er grafische elementen zoals afbeeldingen of illustraties op voorkomen

Door deze elementen te herkennen kan de software de tekst op een scan omzetten naar een tekst die voor een computer leesbaar is.

Beperkingen bij OCR

De kwaliteit van OCR wordt onder andere bepaald door:

  • De kwaliteit van het beeldbestand (de scan). De tekst is moeilijker te herkennen door de software als de scan van lagere kwaliteit is.
  • De kwaliteit van het bronmateriaal (bijvoorbeeld een boek). De software kan een tekst moeilijker herkennen als een pagina bijvoorbeeld beschadigd is. Ook is het bij oudere teksten voor de software moeilijker om letters van elkaar te onderscheiden.
  • De spelling van de originele tekst. Oude teksten kunnen woorden bevatten die anders zijn gespeld dan tegenwoordig.

OCR verbeteren

OCR kan op verschillende manieren verbeterd worden. Zo zijn er al oplossingen voor spellingsvarianten en kunnen we gebruikmaken van crowdsourcing, waarbij vrijwilligers de teksten handmatig verbeteren. Ook bestaat er al zelflerende OCR-software.

Waarom is OCR belangrijk?

Computerleesbare teksten brengen 3 grote voordelen met zich mee.

1. Volledig doorzoekbare teksten

OCR zorgt ervoor dat teksten volledig doorzoekbaar worden. Hierdoor is de gebruiker niet meer afhankelijk van alleen de metadata of bijvoorbeeld krantenkoppen. Daarnaast kunnen historische spellingsvarianten herkend worden. Dit betekent dat een gebruiker kan zoeken op een woord in moderne spelling (bijvoorbeeld 'mens') en resultaten vinden waar het woord in een oudere spellingvariant staat (bijvoorbeeld 'mensch'). Dit zorgt voor een grote verbetering van de doorzoekbaarheid van historische teksten.

2. Automatische indeling en samenvattingen van teksten

Computerleesbare teksten kunnen automatisch worden geclassificeerd. Dit betekent dat de software op een scan kan herkennen wat voor soort tekst het is en waar de tekst over gaat. Met die informatie maakt de software een indeling van de teksten. Dit gebeurt op basis van soorten en onderwerpen die we zelf van tevoren hebben vastgesteld. Zo kunnen bijvoorbeeld krantenberichten geclassificeerd worden als nieuwsbericht, familiebericht of advertentie en met onderwerpen als politiek, sport of cultuur.

Daarnaast kunnen computerleesbare teksten automatisch worden voorzien van een samenvatting. Een gebruiker kan snel de inhoud van de tekst beoordelen door die samenvatting te lezen. Verder maken samenvattingen het aanbrengen van classificaties makkelijker. Daarmee kan de volgorde van de zoekresultaten worden verbeterd.

3. OCR helpt bij grootschalig onderzoek

Onderzoekers kunnen door computerleesbare teksten op grote schaal onderzoek doen naar onderwerpen uit het verleden, zoals bijvoorbeeld de Spaanse griep. Omdat onderzoekers niet meer handmatig alles hoeven door te nemen, kunnen ze grotere hoeveelheden tekst meenemen in hun onderzoek.

Wat doen we zelf met OCR?

Op dit moment is een groot deel van de collectie op de websites van Delpher en de Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) gedigitaliseerd. We digitaliseren ook nog steeds nieuw materiaal.

OCR bij DBNL

De kwaliteit van OCR op de DBNL is erg hoog. Dit komt omdat we de teksten handmatig controleren en corrigeren. Daardoor zijn teksten die op de DBNL verschijnen 99,995 procent correct.

OCR bij Delpher

De kwaliteit van OCR op Delpher is wisselend. De kwaliteit van het gescande materiaal van sommige historische kranten is bijvoorbeeld van slechte kwaliteit, waardoor het lastig is om een goede gedigitaliseerde tekst te krijgen. We richten ons momenteel op verder onderzoek naar het monitoren, controleren en eventueel verbeteren van de kwaliteit van OCR op Delpher.

Voor de pers: meer weten?

Helen Johnson
Persvoorlichter
06 - 42 26 88 11