Workshop Data Scopes
Coherente methoden voor onderzoek met heterogene digitale bronnen
- Data scope: bijeen brengen van verschillende materialen en ze zodanig opschonen, aanvullen en verbinden zodat je bepaalde analyses kunt doen
- Weinig consensus over hoe je dingen doet
- Weinig begrip van hoe dit proces eruit ziet en hoe het vervolgstappen (e.g. analyse) beinvloed
- Vaak onterecht gezien als voorbereiding op het “echte” onderzoek
Doel workshop
Het doel is onderzoekers zich bewust te laten worden van de verschillende aspecten van de omgang met grootschalige data. Met data scopes willen we het volgende bereiken:
- Inzicht in databewerkingsproces: data verwerking is een essentieel en onlosmakelijk onderdeel van het onderzoek, en niet een noodzakelijk technisch proces waarna het echte onderzoek kan beginnen,
- Transparantie van onderzoek: zorgen voor meer transparantie bij de totstandkoming van onderzoek dat gebaseerd is op de verwerking en analyse van grote en complexe hoeveelheden data
- Methodologische discussie: consolideren van digitale methoden om te komen tot coherente en breed gedragen onderzoeksmethodologieën
- Ontwikkelen van samenwerkingsvorm: data bijeenbrengen, opschonen en koppelen vergt veel kennis, zowel technisch als inhoudelijk. Een goede manier om samen te werken en kennis te delen is essentieel.
Opzet workshop
- Tutorial: uitleg Data scopes concepten
- Hands-on sessies: werken in kleine groepen aan opdrachten rondom Data scopes concepten
- wees creatief: opdrachten hebben geen “correcte” oplossing, wij hebben de goede antwoorden ook niet
- zen: het wordt een zootje, alles gaat mis, maar dat hoort erbij en alles komt ook weer goed
- Discussie: vergelijken van groepsopdrachten, reflectie op Data scopes als handvat voor onderzoeksproces
Programma
Vandaag:
- 11:00-11:30 Workshop introductie
- 11:30-12:00 Data Scopes achtergrond
- 12:00-13:00 Hands-on sessie 1: greppen in TvG data
- 13:00-13:30 Lunch
- 13:30-15:30 Hands-on sessie 2: Frequentielijsten, namen en temporele expressies
- 15:30-16:30 Bespreken van bevindingen, reflectie op Data Scopes
Rest van de week:
- 17-04:
- ochtend: TvG, structureren ongestructureerde data
- middag: Generale Missiven, vergelijken indices, linken en classificeren van trefwoorden
- avond: borrel en diner (op de Nes, e.g. Brakke Grond of Mappa)
- 18-04:
- ochtend: Generale Missiven, vergelijken indices, linken en classificeren van trefwoorden
- middag: Generale Missiven, vergelijken indices, linken en classificeren van trefwoorden
- 19-04:
- ochtend: Biografisch Portaal
- middag: Biografisch Portaal
- 20-04:
- ochtend: Biografisch Portaal
- middag: Pot luck, samenvatten bevindingen
Deelnemers
- Wat is je achtergrond? Wat is je ervaring met digitale methoden in onderzoek/data ontsluiting?
- Waarom doe je mee? Wat zijn je verwachtingen?
Deel 1
- vaardigheden:
- grip krijgen op grote tekstbestanden met grotendeels onbekende inhoud en grote variatie
- mogelijkheden om patronen te ontdekken
- gestructureerd omgaan met ongestructureerde data
- Corpus: Tijdschrift voor Geschiedenis
Tijdschrift voor Geschiedenis (TvG)
- Retrodigitalisering TvG online beschikbaar
- edities: 121 (1886-2008)
- teksten: 22,682 (artikelen, mededelingen, boekbesprekingen, …)
- pagina’s: 60,751
- Woorden - totaal = 30,861,146
- Woorden - uniek = 932,766
- OCR data:
- incompleet, ongestructureerde tekst, beperkte ontsluiting
UNIX Command Line
- Exotische commando’s en syntax:
- grep, awk, sed, cat, tr, sort, uniq, cut, paste
- Waarom?
- laat goed zien waar moeilijkheden met data interactie zitten
- biedt natuurlijke methode voor transparant onderzoek
- generieke toolset voor data exploratie en extractie
- pipelines voor ketens van stappen
Reguliere expressies
- CTRL-F on steroids
- voor patronen herkennen en transformeren
–
Hoe hou ik bij wat ik gedaan heb?
- gebruik
history
commando - kopieer commando’s naar een bestand
-
script: UNIX kan bestand met lijst van commando’s uitvoeren (herhaalbaarheid)
- We claimen niet dat alle onderzoek voortaan via de command line moet!
- maar het illustreert goed waar data scopes over gaat: transparent maken van het process
–
Transparantie
Op welk detail niveau moet het process vastgelegd zijn voor transparantie?