• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

De rol van de mens bij kunstmatig-intelligent machinelezen

27 mei 2025 door Nicoline van der Sijs 3 Reacties

Als aanvulling op het stuk van Marita Mathijsen ‘Proeven met kunstmatig-intelligente machinelezers’ en de reactie daaronder van Marc van Oostendorp, stip ik graag twee aspecten aan die niet zozeer met de techniek als wel met de menselijke kant van de zaak te maken hebben. Het machinelezen heeft namelijk gevolgen voor de manier waarop een digitaliseringsproject is opgezet.

Vrijwilligers

Veel digitaliseringsprojecten zijn sterk afhankelijk van het werk van vrijwilligers. Een belangrijke vraag is dus wat hun ervaringen en wensen zijn: wat vinden zij prettig werken? Om dat te achterhalen heb ik onlangs een kleine enquête gehouden onder vrijwilligers die eerder meegewerkt hebben aan het overtikken van de zeventiende-eeuwse kranten (inmiddels hier beschikbaar) en die tegenwoordig werken aan het corrigeren van zeventiende-eeuwse kranten die door Transkribus zijn ‘gelezen’. Van die kranten moeten ze niet alleen de tekst maar ook de vormgeving controleren. Bovendien moeten ze metadata zoals koppen en onleesbare tekst voorzien van een tag. Vrijwilligers die aan beide projecten hebben meegewerkt, kunnen goed de twee verschillende werkwijzes – overtikken versus machinegelezen tekst corrigeren en verrijken – beoordelen.

Uit de enquête, die door 28 mensen is ingevuld, van wie de meeste ervaring hadden met beide werkwijzen, blijkt dat de helft van de vrijwilligers het werken met Transkribus efficiënter vindt dan het overtikken. Dertig procent geeft ook de voorkeur aan het werken met Transkribus, maar daarnaast geeft drieëntwintig procent van de vrijwilligers aan liever alles zelf te willen overtikken, zodat alle aandacht uitgaat naar de inhoud. Het grootste kritiekpunt op Transkribus is dat er telkens onverwacht en zonder toelichting door de technici grotere en kleinere veranderingen worden aangebracht in het programma.

Uit deze gegevens lijkt er een voorkeur voor Transkribus onder de vrijwilligers te bestaan, maar dat beeld is enigszins vertekend, want van de vrijwilligers die aan eerdere projecten hebben meegewerkt en die gevraagd zijn mee te werken met Transkribus, is maar liefst iets meer dan de helft gestopt of zelfs niet eens begonnen: een enkele maal vanwege persoonlijke omstandigheden, maar vaker omdat de werkwijze niet beviel of het werk als te ingewikkeld werd ervaren.

Projectleiders

Ook voor projectleiders/onderzoekers heeft het werk met een tool als Transkribus gevolgen. Voor een onderzoeker die zo geprivilegieerd is dat hij of zij technische ondersteuning krijgt vanuit een instituut – zoals ikzelf krijg van het Instituut voor de Nederlandse Taal – scheelt het werken met Transkribus in tijd: er is veel minder coördinatie nodig en de vrijwilligers produceren meer teksten in kortere tijd. Die technische ondersteuning is vrij veelomvattend: de machinelezende tool moet worden getraind en gevoed met teksten, de vrijwilligers moeten worden getraind om met de tool te werken, de porties moeten gecoördineerd worden uitgedeeld en er moet een globale nacontrole plaatsvinden van het vrijwilligerswerk.

Als de projectleider al die taken zelf moet uitvoeren, kost hem of haar dat veel meer tijd dan wanneer  de vrijwilligers ‘ouderwets’ de complete teksten overtikken en een apart groepje vrijwillige correctoren de teksten zorgvuldig nakijkt. Tijd die ten koste gaat van het onderzoek.

De balans

Zonder enige twijfel leidt de samenwerking tussen mens en machine tot tijdwinst, maar ook tot afhankelijkheid van techniek en technici (waardoor programma’s plotseling kunnen veranderen). Het gevaar bestaat dat het leukste deel van het vrijwilligerswerk – het bezig zijn met de inhoud – ondergesneeuwd raakt door aandacht voor vormgeving en tagging. Voor projectleiders hangt de te kiezen werkwijze sterk af van de technische ondersteuning die ze krijgen, en van de tijd die beschikbaar is om een project uit te voeren.

De keuze van de werkwijze hangt bovendien ook af van de tekstsoort. Die heeft namelijk grote invloed op de kwaliteit van het machinelezen. Het lezen van gedrukte krantenteksten gaat de machine vrij goed af, maar met handgeschreven teksten zoals de preken van François HaverSchmidt gaat ze vaak de mist in door moeilijk herkenbare invoegingen, vervangingen, weglatingen en doorstrepingen, die allemaal door de vrijwilligers of de projectleiding moeten worden gecorrigeerd, waardoor de tijdwinst weer verloren gaat.

We bevinden ons momenteel in een overgangsperiode: de tijd zal leren wat de optimale werkwijze is. De problemen van projectleiders zouden wel eens heel snel kunnen worden opgelost door een Large Language Model van het type Google Gemini die, zo laat Marc van Oostendorp zien, veel laagdrempeliger werkt dan een tool als Transkribus en geen extra training nodig heeft. Vermoedelijk is de eerstvolgende vraag die ik aan de vrijwilligers zal moeten stellen dus: hoe prettig of onprettig is het om te werken met het resultaat van een Large Language Model?

Delen:

  • Klik om af te drukken (Opent in een nieuw venster) Print
  • Klik om dit te e-mailen naar een vriend (Opent in een nieuw venster) E-mail
  • Klik om te delen op Facebook (Opent in een nieuw venster) Facebook
  • Klik om te delen op WhatsApp (Opent in een nieuw venster) WhatsApp
  • Klik om te delen op Telegram (Opent in een nieuw venster) Telegram
  • Klik om op LinkedIn te delen (Opent in een nieuw venster) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: editie, kunstmatige intelligentie, transcriberen, transcriptie

Lees Interacties

Reacties

  1. Marc van Oostendorp zegt

    27 mei 2025 om 10:43

    Het is misschien een voordeel dat Google Gemini zonder training werkt, maar het is ook een nadeel dat het niet of nauwelijks mogelijk is het te trainen. Er is weinig garantie dat het systeem bij de ene sessie op precies dezelfde manier werkt – en bijvoorbeeld bepaalde problemen op dezelfde manier oplost – als bij de volgende. Dit kan neem ik aan deels worden opgelost door een heel precieze ‘prompt’ te schrijven die iedere vrijwilliger dan op dezelfde manier moet invoeren – die prompt bevat dan alle informatie die je als training kunt beschouwen – maar mij lijkt er op dit moment toch ook wel een voordeel aan gespecialiseerde, en echt trainbare, modellen.

    Beantwoorden
    • Nicoline van der Sijs zegt

      27 mei 2025 om 11:17

      eens, maar het trainen vergt veel tijd en gespecialiseerde kennis, niet iedereeen beschikt daarover, en het resultaat van welke tool dan ook dient slechts als input voor het werk van de vrijwilligers, en wordt dus nog handmatig gecontroleerd.

      Beantwoorden
  2. Henri Brandenburg zegt

    28 mei 2025 om 21:28

    Ik werk graag met Transkribus: voor een eenduidig handschrift zijn 50 pagina’s eigen transcriptie voldoende om het systeem een passend model te laten maken waarmee de rest peanuts is. Werkt zelfs voor het handschrift van Albert Joachimi dat voor een gewone sterveling onleesbaar is.
    zie https://www.nationaalarchief.nl/onderzoeken/archief/1.01.02/invnr/5890/file/NL-HaNA_1.01.02_5890_0197?eadID=1.01.02&unitID=5890&query=

    Beantwoorden

Laat een reactie achter bij Henri BrandenburgReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Frans Budé • Parkscènes

Hij begroet de bomen, zwaait naar de eenden
in de vijver, de blinkende kiezels op de bodem.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

De koeien schemeren door de heg,
het paard is uit taaitaai gesneden,
in ieder duindal ligt dun sneeuw.

De branding vlecht een veren zee
waar zon over omhoog stijgt, licht waarin
geen plaats om uit te vliegen is.

Bron: Uit de hoge boom geschreven, 1967

➔ Bekijk hier alle citaten

Agenda

11 december 2025: Anne Frank, schrijfster

11 december 2025: Anne Frank, schrijfster

3 december 2025

➔ Lees meer
11 december 2025: Proefcollege Nederlands

11 december 2025: Proefcollege Nederlands

2 december 2025

➔ Lees meer
5 december 2025: Intreerede Jolyn Philips

5 december 2025: Intreerede Jolyn Philips

28 november 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1946 Dick Wortel
➔ Neerlandicikalender

Media

Dichter Esther Jansma (24 december 1958-23 januari 2025)

Dichter Esther Jansma (24 december 1958-23 januari 2025)

2 december 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

De postkoloniale podcast met Remco Raben over Pramoedya Ananta Toer

30 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

Peter van Zonneveld over Tjalie Robinson/Vincent Mahieu (1993)

29 november 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d