View on GitHub

Data Scopes workshop materials

Data Scopes Workshop, 16-20 April 2018

Home | Algemeen | Dag 1 | Dag 2 | Dag 3 | Dag 4 | Dag 5 | Data Scopes Home

Data Scopes workshop - opdracht levensverwachting

Introductie

In de ze opdracht gaan we ons bezig houden met meer gestructureerde data, om een. Ze zijn verzameld voor een ander doel dan waarvoor wij ze gaan gebruiken. Ze moeten daarvoor worden geschoond en stapsgewijs verwerkt.

In de opdracht hieronder zijn de stappen aangegeven, maar probeer zelf eerst een globaal plan te maken hoe je dit zou aanpakken. Lees eerst de vraag te lezen en bekijk de data.

Centrale vraag

Originele aanleiding: In “Er was iets met die schilders in de Gouden Eeuw” (NRC, 24-11-2011, pp.14-15) werden demografen Frans van Poppel, Dirk van de Kaa en Govert Bijwaard die op basis van de database van het Rijksbureau voor Kunsthistorische Documentatie stelden dat in de zeventiende eeuw schilders langer leefden dan aristocraten. De vraag: is dat zo?

N.B. Het originele artikel staat voor de geïnteresseerden bij de data in de map schildersGoudenEeuw

vraag Hoe was het verloop van de levensduur in de loop der eeuwen?

Data

Input is een dataset van personen uit het Biografisch Portaal. DIe is niet helemaal up-to-date, maar dat is voor deze opdracht verder niet bezwaarlijk.

De data zijn op https://surfdrive.surf.nl/files/index.php/s/f0Wf6KGFRooTauO toegankelijk, als gezipt bestand onder de naam datasets_dag4.

opdracht

Wat moet je doen

stap 1:

de data zijn in csv formaat, en niet helemaal in bruikbare vorm

Opschonen:

Tools:

Let Op: er zit een encoding probleem in ivm ‘locale’ gekte van MySql. Open Refine importeert de dataset goed, andere programmatuur kan er niet goed mee overweg zonder nadere ingrepen. Kijk in hoeverre dit een probleem is

stap 2:

Selecteer data voor verdere bewerking Voor lang niet alle personen zijn de gegevens benodigde gegevens compleet.

Probleem

Tools: idem als boven.

Uitwerking Geboortejaar en sterfjaar zijn het meest compleet, dus geven meeste resultaten. Dat is wel minder precies, maar in dit geval te verkiezen boven minder data (die ook niet altijd exact zijn). We gaan ervan uit dat de afwijkingen in leeftijdsberekeningen elkaar uitmiddelen. Alleen personen met zowel geboorte- als sterfjaar doen mee. Neem ook degenen mee zonder sterfdatum , maar met een begraafdatum.

stap 3:

Maak overzicht van de data

stap 4:

analyseer de data: welke conclusies kunnen we trekken tav van de vraag?

Extra mogelijkheden:

Extra mogelijkheden: andere analyses die met de dataset zijn te maken.

Voorbeelden: