Data Scopes workshop - opdracht levensverwachting
Introductie
In de ze opdracht gaan we ons bezig houden met meer gestructureerde data, om een. Ze zijn verzameld voor een ander doel dan waarvoor wij ze gaan gebruiken. Ze moeten daarvoor worden geschoond en stapsgewijs verwerkt.
In de opdracht hieronder zijn de stappen aangegeven, maar probeer zelf eerst een globaal plan te maken hoe je dit zou aanpakken. Lees eerst de vraag te lezen en bekijk de data.
Centrale vraag
Originele aanleiding: In “Er was iets met die schilders in de Gouden Eeuw” (NRC, 24-11-2011, pp.14-15) werden demografen Frans van Poppel, Dirk van de Kaa en Govert Bijwaard die op basis van de database van het Rijksbureau voor Kunsthistorische Documentatie stelden dat in de zeventiende eeuw schilders langer leefden dan aristocraten. De vraag: is dat zo?
N.B. Het originele artikel staat voor de geïnteresseerden bij de data in de map schildersGoudenEeuw
vraag Hoe was het verloop van de levensduur in de loop der eeuwen?
Data
Input is een dataset van personen uit het Biografisch Portaal. DIe is niet helemaal up-to-date, maar dat is voor deze opdracht verder niet bezwaarlijk.
De data zijn op https://surfdrive.surf.nl/files/index.php/s/f0Wf6KGFRooTauO toegankelijk, als gezipt bestand onder de naam datasets_dag4.
opdracht
Wat moet je doen
-
Opschonen en verwerken van tabellarische data tot overzicht
-
Beginnen met de bioport interface zelf?
stap 1:
de data zijn in csv formaat, en niet helemaal in bruikbare vorm
Opschonen:
- omzetten numeriek getallen naar echter getallen;
- datatimegetallen naar data;
- Verwijderen nulls (dat is optisch, maar al die Nullen storen);
- controle op importfouten
Tools:
- Open Refine,
- Spreadsheet (Excel, Libre Office, Google Spreadsheets),
- programmatisch (bv Python Pandas).
Let Op: er zit een encoding probleem in ivm ‘locale’ gekte van MySql. Open Refine importeert de dataset goed, andere programmatuur kan er niet goed mee overweg zonder nadere ingrepen. Kijk in hoeverre dit een probleem is
stap 2:
Selecteer data voor verdere bewerking Voor lang niet alle personen zijn de gegevens benodigde gegevens compleet.
Probleem
- Welke datum kiezen we
- Wat te doen met overbodige gegevens (namen, extra datums, geboorte-/sterfplaats)?
Tools: idem als boven.
Uitwerking Geboortejaar en sterfjaar zijn het meest compleet, dus geven meeste resultaten. Dat is wel minder precies, maar in dit geval te verkiezen boven minder data (die ook niet altijd exact zijn). We gaan ervan uit dat de afwijkingen in leeftijdsberekeningen elkaar uitmiddelen. Alleen personen met zowel geboorte- als sterfjaar doen mee. Neem ook degenen mee zonder sterfdatum , maar met een begraafdatum.
stap 3:
Maak overzicht van de data
-
sterfjaar en geboortejaar van elkaar aftrekken. Voeg extra kolom toe, zo te zien kan dat niet zomaar in Google Refine, gebruik dan een spreadsheet
-
maak draaitabellen van de spreadsheet. Dit gaat niet automatisch helemaal goed, want de draaitabellen:
- groeperen naar ranges jaren, bijvoorbeeld per eeuw. Bedenk ook dat een tabel op een pagina moet passen!
- Houd daarbij ook rekening met de evidente fouten die in het bestand zitten (weggooien !), want die vertekenen de uitkomsten. Er zijn waarschijnlijk nog meer fouten, door verkeerde invoer, bijvoorbeeld. Die zijn niet uit te filteren, maar ga ervan uit dat ze uitmiddelen. Voor de periode vóór 1500 wordt het aantal personen wel erg klein, overwegen weg te laten
- Het overzicht kan worden gemaakt voor het totaal aan data, maar voor een fijnmaziger verdeling kan ook gebruik worden gemaakt van de onderverdeling naar categorieën. Dit behoeft wel enige massage (samenvoegen categorieën, ordenen, weglaten als er te weinig data zijn?)
stap 4:
analyseer de data: welke conclusies kunnen we trekken tav van de vraag?
- Welke kanttekeningen zijn er te zetten bij de conclusies?
- Zijn er behalve de oorspronkelijke vraag nog andere conclusies?
- Hoe representatief zijn deze data?
Extra mogelijkheden:
Extra mogelijkheden: andere analyses die met de dataset zijn te maken.
Voorbeelden:
- Van wie zijn de exacte geboorte/sterfdata bekend? Wat kun je met onbekende geboorte/sterfdata??
- Vergelijk geboorte en sterfteplaatsen in de tijd en per groep. Laat ze op een kaart zien. Bijvoorbeeld met Palladio
- Uitbreiden van de dataset met de dominees uit Mining Ministers.