Workshop Data Scopes - Methoden voor omgang met digitale data in humanities onderzoekspraktijk
Data Scopes zijn een concept voor de omgang met samengestelde data in een humanities context. Met data scopes willen we bijdragen aan methodologische reflectie op en consolidatie van de verzameling methoden die door velen in de menswetenschappen (vaak in de vorm van tools) al worden gebruikt in aanvulling op de bestaande methoden. De workshop wordt georganiseerd door het KNAW Humanities Cluster.
In de workshop besteden we aandacht aan de verschillende vormen van bewerking van geesteswetenschappelijk materiaal, en hoe deze zowel kennis en interpretatie van het materiaal vereisen als invloed hebben op de analyse en interpretatie verderop in het onderzoeksproces.
De workshop duurt 5 dagen van 11:00 tot 16:30 uur en bestaat uit hands-on sessies waarin deelnemers in kleine groepen samenwerken aan het bewerken van kleine data sets. De volgende onderwerpen komen aan bod:
- Van bron naar data - omzetten van verschillende soorten bronnen naar computer bewerkbare gegevens.
- Modelleren - vormgeving van gegevens om antwoord te geven op onderzoeksvragen.
- Exploreren van data voor onderzoek - methoden van close reading, distant reading, analyse.
- Reduceren van complexiteit - gebruik van methoden en tools om overzicht en inzicht te krijgen in data.
We onderscheiden vijf verschillende activiteiten in het onderzoek met data scopes: modelleren, selecteren, normaliseren, linken en categoriseren van data. Elke dag richten we ons op één of twee van deze thema’s, maar alle activiteiten komen dagelijks terug in het werken met de verschillende data sets.
Doelstelling
Het doel is onderzoekers zich bewust te laten worden van de verschillende aspecten van de omgang met grootschalige data. In de dagelijkse onderzoekspraktijk:
-
moeten onderzoekers toevlucht nemen tot handwerk waar geautomatiseerde methoden ze veel werk uit handen zouden kunnen nemen
-
hebben ze wel data verzameld, maar kunnen die niet zo vormgeven dat hun onderzoek ermee wordt bediend
-
kunnen ze de data in hun database niet goed (genoeg) bevragen
-
is het moeilijk de output van geavanceerde tools kritisch te beoordelen
Met data scopes willen we het volgende bereiken:
- Inzicht in data verwerkingsproces: data verwerking is een essentieel en onlosmakelijk onderdeel van het onderzoek, en niet een noodzakelijk technisch proces waarna het echte onderzoek kan beginnen,
- Transparantie van onderzoek: zorgen voor meer transparantie bij de totstandkoming van onderzoek dat gebaseerd is op de verwerking en analyse van grote en complexe hoeveelheden data
- Methodologische discussie: consolideren van digitale methoden om te komen tot coherente en breed gedragen onderzoeksmethodologieën
In de workshop besteden we aandacht aan een systematische benadering van de omgang met data. We hanteren daarvoor het concept data scopes, dat is gericht op het proces van interactie tussen onderzoeker en data. We gebruiken datasets van het Huygens ING en vragen uit de onderzoekspraktijk.
Het programma is niet opgehangen aan tools, al gebruiken we die natuurlijk wel. We besteden wel aandacht aan een aantal basis computervaardigheden zoal:
- omgaan met de command line
- dataformaten en de omgang daarmee
- een begrip van clients en servers
Programma
Datum: 16-20 april (11:00-16:30) Locatie: OIH A0.03
De workshop bestaat iedere dag uit een inleiding en twee praktische sessies waarin de deelnemers zelf aan het werk gaan. We eindigen steeds met een discussie over hoe deze handelingen in de onderzoekspraktijk passen en interpretatie beïnvloeden. Hieronder een korte opsomming per dag en wat je er leert.
- Trends uit een groot tekstcorpus. Dag 1 en 2
- Corpus Tijdschrift voor Geschiedenis
- Vaardigheden:
- grip krijgen op grote tekstbestanden met grotendeels onbekende inhoud en grote variatie
- mogelijkheden om patronen te ontdekken
- gestructureerd omgaan met ongestructureerde data
- ‘Metadata’ en toegang tot een grootschalige tekstuele bron dag 2/3
- Corpus Generale Missiven VOC
- Vaardigheden:
- Gebruik van bestaande indices voor ontsluiten van serie tekstuele bronnen
- Disambigueren van geografische en persoonsnamen
- Linken van data uit verschillende bronnen
- Serieel gebruik van samengestelde kwalitatieve bronnen voor structurele vragen. Dag 4/5
- Corpus Biografisch portaal
- Vaardigheden:
- Data selectie
- Data structurering
- Segmentatie en stapsgewijze aanpak
Op dag 5 is er gelegenheid voor uitloop of om terug te komen op eerdere onderwerpen.
Instructors
- Rik Hoekstra - KNAW Humanities Cluster - Research and Development
- Marijn Koolen - KNAW Humanities Cluster - Research and Development