View on GitHub

Data Scopes workshop materials

Data Scopes Workshop, 16-20 April 2018

Home | Algemeen | Dag 1 | Dag 2 | Dag 3 | Dag 4 | Dag 5 | Data Scopes Home

Binnenhalen van web data - boekrecensies van leestafel.info

Modelleren en selecteren in Biografisch Portaal data

Hoe passen de handelingen die je verricht hebt voor de Biografisch Portaal opdracht in het data scopes concept en de bijbehorende activiteiten modelleren, selecteren, normaliseren, linken en classificeren?

Web data verzamelen: crawling en APIs

Soms wil je data van het web binnenhalen om te analyseren of om andere bronmateriaal te verrijken of complementeren.

Een volledige website crawlen:

wget -w 2 -m http://nos.nl/
wget -w 2 -m http://www.deleesfabriek.nl/

De optie -m staat voor mirror en zorgt ervoor dat wget de gehele site crawled, maar geen links volgt naar pagina’s buiten de site (waarbij site standaard naar de domeinnaam verwijst maar gespecificeerd kan worden een of meer delen van een website).

De optie -w 2 geeft aan dat wget twee seconden wacht tussen elke download-poging. Dit is een zeer belangrijke parameter, want zonder wachttijd zou wget de bandbreedte van de website teveel belasten.

Andere opties

Huygens Resources

De resources van het Huygens ING zijn relatief makkelijk te downloaden met een simpel script.

De OCR data van individuele pagina’s is te downloaden als HTML bestanden. Je kunt zien wat de URLs voor deze pagina’s zijn via de pagelist van een gedigitaliseerde bron. Als voorbeeld de pagelist voor de 121ste editie van Tijdschrift voor Geschiedenis:

Application Programmer Interfaces

Er zijn ook allerlei online services die je kunt programmatisch kunt benaderen via zgn. Application Programmer Interfaces (APIs). Bijvoorbeeld de WorldCat xISBN API van OCLC. WorldCat is een union catalog van tienduizenden bibliotheken over de hele wereld. De xISBN service mapt ISBNs en andere boekidentificatiecodes zodat je a.d.h.v. een specifieke identificatiecode andere codes kunt vinden, en ook ISBNs van verschillende edities van hetzelfde werk.

Bij het verzamelen van boekbesprekingen van het web kun je de ISBNs die je vindt opzoeken via deze service om recensies van verschillende edities van hetzelfde werk te linken. Als voorbeeld een ISBN van het boek Witte Tanden van Zadie Smith:

http://xisbn.worldcat.org/webservices/xid/isbn/9789044601534?method=getEditions&format=xml&fl=form,year,lang,ed

Met de optie fl kun je bepalen welke informatie je per ISBN wilt zien. In bovenstaand geval is dat vorm, publicatiejaar, taal en editie. Met fl=* krijg je alle beschikbare gegevens te zien:

http://xisbn.worldcat.org/webservices/xid/isbn/9789044601534?method=getEditions&format=xml&fl=*

Boek review data verzamelen en modelleren

Boekrecensies zijn een manier om receptie van literatuur te onderzoeken. Lezers die recensies schrijven over wat ze gelezen hebben, bieden een waardevol perspectief op hoe mensen de impact van het lezen van een boek ervaren en hun recensies bevatten patronen die gebruikt kunnen worden om daar grip op te krijgen.

Boekreview sites en andere website met een focus op boeken en lezen bevatten een goudmijn aan informatie over de receptie van literatuur. Een uitdaging is het vinden van websites waarop relevant informatie staat. Een tweede uitdaging is hoe je de relevante informatie uit die websites kunt halen en kunt structureren in een data scope waarmee je onderzoeksvragen kunt beantwoorden over e.g. de receptie van literatuur. Wat zeggen boekrecensies over hoe lezers het lezen van een boek ervaren? Welke impact heeft het lezen van verschillende boeken op lezers, in termen van emotie, kennis, perspectief, meningen, houding ten opzichte van anderen, etc.?

De opdracht is:

Overigens wordt de Leestafel website ook gearchiveerd door de Koninklijke Bibliotheek.