Onze online poll aangaande het thema van de komende cursusdag van de VWM heeft uitgewezen dat een ruime meerderheid van de leden het thema “Topic Modeling” verkiest. Hierbij gaat nogmaals het wervingstekstje. Wij zullen deze cursusdag nu organiseren, vermoedelijk voor de periode April/Mei. Wij willen iedereen nogmaals danken voor het uitbrengen van zijn of haar stem.
Topic Modeling: thematische analyse van een groep documenten
“Topic modeling” is een toepassing in de Digital Humanities waarbij men zich richt op de automatische analyse van de onderwerpen in een ongestructureerde groep documenten — te denken valt literaire corpora, verzamelingen oorkonden of wetenschappelijke artikels. Hoewel de onderliggende statistiek erg ingewikkeld is, is het resultaat van topic modeling bijzonder eenvoudig. Een algoritme bepaalt eerst volledig automatisch de interessante “topics” in het corpus, oftewel groepjes van woorden die geregeld in dezelfde context opduiken. (Een groep woorden als kerk, priester, altaar, … kan bv. het topic “Religie” in het corpus voorstellen.) Vervolgens kan het programma automatisch bepalen in welke mate een bepaald onderwerp wordt behandeld in een document. (Een krantenartikel over een voetbaltransfer kan bv. voor 80% over sport gaan, maar ook 20% over economie.) Vervolgens kan men de samenstelling van interessante topics in het corpus bestuderen of de ontwikkeling ervan diachroon uittekenen, hetgeen steevast verrassende inzichten oplevert. In deze hands-on workshop leren de deelnemers een toegankelijk en veelgebruikt software-pakket (Mallet) besturen, dat van de gebruiker geen speciale ICT-vaardigheden vereist. Centraal staat de vraag hoe men deze onderzoekstechniek op relevante wijze kan aanwenden binnen mediëvistisch onderzoek.