• Door naar de hoofd inhoud
  • Skip to secondary menu
  • Spring naar de eerste sidebar
  • Spring naar de voettekst
Neerlandistiek. Online tijdschrift voor taal- en letterkunde

Neerlandistiek

Online tijdschrift voor taal- en letterkundig onderzoek

  • Over Neerlandistiek
  • Contact
  • Homepage
  • Categorie
    • Neerlandistiek voor de klas
    • Vertelcultuur
    • Naamkunde
  • E-books
  • Neerlandistische weblogs
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal

De rol van de mens bij kunstmatig-intelligent machinelezen

27 mei 2025 door Nicoline van der Sijs 3 Reacties

Als aanvulling op het stuk van Marita Mathijsen ‘Proeven met kunstmatig-intelligente machinelezers’ en de reactie daaronder van Marc van Oostendorp, stip ik graag twee aspecten aan die niet zozeer met de techniek als wel met de menselijke kant van de zaak te maken hebben. Het machinelezen heeft namelijk gevolgen voor de manier waarop een digitaliseringsproject is opgezet.

Vrijwilligers

Veel digitaliseringsprojecten zijn sterk afhankelijk van het werk van vrijwilligers. Een belangrijke vraag is dus wat hun ervaringen en wensen zijn: wat vinden zij prettig werken? Om dat te achterhalen heb ik onlangs een kleine enquête gehouden onder vrijwilligers die eerder meegewerkt hebben aan het overtikken van de zeventiende-eeuwse kranten (inmiddels hier beschikbaar) en die tegenwoordig werken aan het corrigeren van zeventiende-eeuwse kranten die door Transkribus zijn ‘gelezen’. Van die kranten moeten ze niet alleen de tekst maar ook de vormgeving controleren. Bovendien moeten ze metadata zoals koppen en onleesbare tekst voorzien van een tag. Vrijwilligers die aan beide projecten hebben meegewerkt, kunnen goed de twee verschillende werkwijzes – overtikken versus machinegelezen tekst corrigeren en verrijken – beoordelen.

Uit de enquête, die door 28 mensen is ingevuld, van wie de meeste ervaring hadden met beide werkwijzen, blijkt dat de helft van de vrijwilligers het werken met Transkribus efficiënter vindt dan het overtikken. Dertig procent geeft ook de voorkeur aan het werken met Transkribus, maar daarnaast geeft drieëntwintig procent van de vrijwilligers aan liever alles zelf te willen overtikken, zodat alle aandacht uitgaat naar de inhoud. Het grootste kritiekpunt op Transkribus is dat er telkens onverwacht en zonder toelichting door de technici grotere en kleinere veranderingen worden aangebracht in het programma.

Uit deze gegevens lijkt er een voorkeur voor Transkribus onder de vrijwilligers te bestaan, maar dat beeld is enigszins vertekend, want van de vrijwilligers die aan eerdere projecten hebben meegewerkt en die gevraagd zijn mee te werken met Transkribus, is maar liefst iets meer dan de helft gestopt of zelfs niet eens begonnen: een enkele maal vanwege persoonlijke omstandigheden, maar vaker omdat de werkwijze niet beviel of het werk als te ingewikkeld werd ervaren.

Projectleiders

Ook voor projectleiders/onderzoekers heeft het werk met een tool als Transkribus gevolgen. Voor een onderzoeker die zo geprivilegieerd is dat hij of zij technische ondersteuning krijgt vanuit een instituut – zoals ikzelf krijg van het Instituut voor de Nederlandse Taal – scheelt het werken met Transkribus in tijd: er is veel minder coördinatie nodig en de vrijwilligers produceren meer teksten in kortere tijd. Die technische ondersteuning is vrij veelomvattend: de machinelezende tool moet worden getraind en gevoed met teksten, de vrijwilligers moeten worden getraind om met de tool te werken, de porties moeten gecoördineerd worden uitgedeeld en er moet een globale nacontrole plaatsvinden van het vrijwilligerswerk.

Als de projectleider al die taken zelf moet uitvoeren, kost hem of haar dat veel meer tijd dan wanneer  de vrijwilligers ‘ouderwets’ de complete teksten overtikken en een apart groepje vrijwillige correctoren de teksten zorgvuldig nakijkt. Tijd die ten koste gaat van het onderzoek.

De balans

Zonder enige twijfel leidt de samenwerking tussen mens en machine tot tijdwinst, maar ook tot afhankelijkheid van techniek en technici (waardoor programma’s plotseling kunnen veranderen). Het gevaar bestaat dat het leukste deel van het vrijwilligerswerk – het bezig zijn met de inhoud – ondergesneeuwd raakt door aandacht voor vormgeving en tagging. Voor projectleiders hangt de te kiezen werkwijze sterk af van de technische ondersteuning die ze krijgen, en van de tijd die beschikbaar is om een project uit te voeren.

De keuze van de werkwijze hangt bovendien ook af van de tekstsoort. Die heeft namelijk grote invloed op de kwaliteit van het machinelezen. Het lezen van gedrukte krantenteksten gaat de machine vrij goed af, maar met handgeschreven teksten zoals de preken van François HaverSchmidt gaat ze vaak de mist in door moeilijk herkenbare invoegingen, vervangingen, weglatingen en doorstrepingen, die allemaal door de vrijwilligers of de projectleiding moeten worden gecorrigeerd, waardoor de tijdwinst weer verloren gaat.

We bevinden ons momenteel in een overgangsperiode: de tijd zal leren wat de optimale werkwijze is. De problemen van projectleiders zouden wel eens heel snel kunnen worden opgelost door een Large Language Model van het type Google Gemini die, zo laat Marc van Oostendorp zien, veel laagdrempeliger werkt dan een tool als Transkribus en geen extra training nodig heeft. Vermoedelijk is de eerstvolgende vraag die ik aan de vrijwilligers zal moeten stellen dus: hoe prettig of onprettig is het om te werken met het resultaat van een Large Language Model?

Delen:

  • Klik om af te drukken (Wordt in een nieuw venster geopend) Print
  • Klik om dit te e-mailen naar een vriend (Wordt in een nieuw venster geopend) E-mail
  • Klik om te delen op Facebook (Wordt in een nieuw venster geopend) Facebook
  • Klik om te delen op WhatsApp (Wordt in een nieuw venster geopend) WhatsApp
  • Klik om te delen op Telegram (Wordt in een nieuw venster geopend) Telegram
  • Klik om op LinkedIn te delen (Wordt in een nieuw venster geopend) LinkedIn

Vind ik leuk:

Vind-ik-leuk Aan het laden...

Gerelateerd

Categorie: Artikel Tags: editie, kunstmatige intelligentie, transcriberen, transcriptie

Lees Interacties

Reacties

  1. Marc van Oostendorp zegt

    27 mei 2025 om 10:43

    Het is misschien een voordeel dat Google Gemini zonder training werkt, maar het is ook een nadeel dat het niet of nauwelijks mogelijk is het te trainen. Er is weinig garantie dat het systeem bij de ene sessie op precies dezelfde manier werkt – en bijvoorbeeld bepaalde problemen op dezelfde manier oplost – als bij de volgende. Dit kan neem ik aan deels worden opgelost door een heel precieze ‘prompt’ te schrijven die iedere vrijwilliger dan op dezelfde manier moet invoeren – die prompt bevat dan alle informatie die je als training kunt beschouwen – maar mij lijkt er op dit moment toch ook wel een voordeel aan gespecialiseerde, en echt trainbare, modellen.

    Beantwoorden
    • Nicoline van der Sijs zegt

      27 mei 2025 om 11:17

      eens, maar het trainen vergt veel tijd en gespecialiseerde kennis, niet iedereeen beschikt daarover, en het resultaat van welke tool dan ook dient slechts als input voor het werk van de vrijwilligers, en wordt dus nog handmatig gecontroleerd.

      Beantwoorden
  2. Henri Brandenburg zegt

    28 mei 2025 om 21:28

    Ik werk graag met Transkribus: voor een eenduidig handschrift zijn 50 pagina’s eigen transcriptie voldoende om het systeem een passend model te laten maken waarmee de rest peanuts is. Werkt zelfs voor het handschrift van Albert Joachimi dat voor een gewone sterveling onleesbaar is.
    zie https://www.nationaalarchief.nl/onderzoeken/archief/1.01.02/invnr/5890/file/NL-HaNA_1.01.02_5890_0197?eadID=1.01.02&unitID=5890&query=

    Beantwoorden

Laat een reactie achterReactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

Primaire Sidebar

Gedicht van de dag

Frans Buyle • Anders

Het was anders. De wind
was anders van toon.
Ik vroeg de weg: het kind
aarzelde ongewoon.

➔ Lees meer

Bekijk alle gedichten

  • Facebook
  • YouTube

Chris van Geel

BERICHT HOE WE ZITTEN

Adem zien te halen
is het enige en
kijken of er geen paard aan komt.
 

Bron: Het Zinrijk, 1971

➔ Bekijk hier alle citaten

Agenda

25 augustus 2025: Het Colloquium Neerlandicum 2025

25 augustus 2025: Het Colloquium Neerlandicum 2025

23 juni 2025

➔ Lees meer
19 september 2025: Laatzomer Conferentie NDN

19 september 2025: Laatzomer Conferentie NDN

22 juni 2025

➔ Lees meer
2 juli 2025: Boekpresentatie ‘Een nieuw geluid’

2 juli 2025: Boekpresentatie ‘Een nieuw geluid’

21 juni 2025

➔ Lees meer
➔ Bekijk alle agendapunten

Neerlandici vandaag

geboortedag
1921 Albert Sassen
➔ Neerlandicikalender

Media

Hoe je taal maakt en hoe taal je raakt

Hoe je taal maakt en hoe taal je raakt

22 juni 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
De structuur van wetenschappelijke artikelen

De structuur van wetenschappelijke artikelen

21 juni 2025 Door Marc van Oostendorp 1 Reactie

➔ Lees meer
Het culturele landschap van Frits van Oostrom

Het culturele landschap van Frits van Oostrom

19 juni 2025 Door Redactie Neerlandistiek Reageer

➔ Lees meer
➔ Bekijk alle video’s en podcasts

Footer

Elektronisch tijdschrift voor de Nederlandse taal en cultuur sinds 1992.

ISSN 0929-6514
Bijdragen zijn welkom op
redactie@neerlandistiek.nl
  • Homepage
  • E-books
  • Neerlandistische weblogs
  • Over Neerlandistiek
  • De archieven
  • Contact
  • Facebook
  • YouTube

Inschrijven voor de Dagpost

Controleer je inbox of spammap om je abonnement te bevestigen.

Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

  • Homepage
  • Categorie
    • Voor de klas
    • Vertelcultuur
    • Naamkunde
  • Archief
    • 10 jaar taalcanon
    • 100 jaar Willem Frederik Hermans
  • E-books
  • Neerlandistische weblogs
  • Jong Neerlandistiek
  • Frisistyk
  • Mondiaal Neerlandistiek
  • Over Neerlandistiek
  • Contact
 

Reacties laden....
 

    %d