Cursus datajournalistiek: Les 2

Vanaf dinsdag 7 februari volg ik een cursus datajournalistiek. In vier lesavonden probeer ik meer structuur in mijn werk te vinden en heb ik een excuus om met data te spelen.

Wat is een typische Academy Award-winnende film? Zo begon ik mijn eerste blog over de cursus datajournalistiek ook. Ben ik in de tussentijd dichter bij het antwoord gekomen? Nog niet echt, maar ik weet nu waar ik mijn informatie vandaan wil halen en hoe ik mijn data kan omzetten naar iets bruiksbaars.

Zie hieronder de slides van het college van Peter Verweij.

Peter Verweij liet tijdens de tweede cursusavond datajournalistiek zien hoe je data kunt vinden. Dat betekent vaak dat je informatie in een formaat krijgt waar je in een spreadsheet niet mee kunt werken. Goed voorbeeld: de lijst met burgemeesters in Nederland.

In die PDF staat enorm veel nuttige informatie: namen, gemeenten, man/vrouw, etc. Maar je kunt die informatie niet selecteren, kopiëren en plakken naar Excel. Informatie komt dan in de verkeerde cellen, waardoor je handmatig ontzettend veel moet verbeteren. Welke opties blijven dan nog over? De lijst erbij pakken en overtikken, waarbij je nog steeds veel kans op fouten hebt. Of je stuurt de PDF naar Cometdocs (bedankt voor de tip, Peter Verweij!), die het automatisch voor je in een spreadsheet zet.

Vorige week vond ik een Wikipedia-pagina met alle Academy Award-winnende films. Deze informatie staat in een HTML-tabel. Nog een tip: een HTML-tabel kun je niet naar Excel kopiëren – alle informatie wordt dan in één cel geplaatst – maar in een Google Spreadsheet gaat het wel goed. Eerder heb ik daar een flinke tijd mee zitten stoeien in Google Refine. Nu kost het me 5 seconden werk.

Maar waar sta ik nu met mijn eigen dataproject? Ik heb al een lijst met alle voorgaande ‘Best Motion Pictures’ van de Academy Awards genomineerden en winnaars van de Academy Awards in de categorie Best Motion Picture. Die lijst wil ik nu aanvullen met overige relevante informatie. Wat overweeg ik?

  • Welke overige films waren genomineerd in datzelfde jaar?
  • Wat zijn de scores van het publiek voor die films?
  • Op welke datum was de film in de bioscoop te zien?
  • Welke locaties worden in de film bezocht?
  • Welk genre?
  • Uitgebracht door welke filmstudio?
  • Veel data kan ik wel vinden en handmatig in een sheet zetten, maar ik doe deze cursus voornamelijk om sneller te leren werken. Via Twitter kreeg ik al een aantal hele goede tips voor API’s van filmdatabases, bijvoorbeeld de onofficiële IMDB-API en die van Rotten Tomatoes. Weet iemand hoe ik deze spreadsheet daaraan kan koppelen om snel die informatie eruit te krijgen?

    Als bovenstaande lukt en ik heb tijd over, ga ik me ook in Cinemetrics verdiepen. Daarmee kun je bijvoorbeeld beeldanalyse van trailers doen.

    Other Entries

    Over mij

    Dit is het weblog van Jerry Vermanen (21-12-1984). Hier plaats ik artikelen die ik heb geschreven tijdens mijn studie en naast mijn werk als internetredacteur.

    Klik voor contactgegevens en Curriculum Vitae

    Waar ben ik trots op?

  • Mijn baan als datajournalist bij NU.nl.
  • Mijn e-book met verzamelde artikelen over datajournalistiek.
  • Mijn vierdelige serie over datajournalistiek in 609 - Cultuur En Media op De Nieuwe Reporter.
  • Mijn bijdrage aan het Data Journalism Handbook.
  • RegioHack, een datajournalistiek project waarin journalisten met programmeurs 30 uur met elkaar samenwerken.
  • Sinterklaasproject voor de Stentor / Deventer Dagblad.
  • De gamecursus die ik heb afgerond. Ik heb onderzocht hoe moeilijk het is om een journo-game te maken.
  • Multimediaweek voor LeidenLokaal (week 1, 2, 3 en 4), een initiatief van Universiteit Leiden en Leidsch Dagblad
  • Mijn artikelen bij Bashers, een website 'voor gamers die verder kijken'
  • Download mijn e-book over datajournalistiek

    VERZAMELING ARTIKELEN OVER DATAJOURNALISTIEK
    Versie 1.0
    Zeven artikelen over datajournalistiek in ePub-formaat.

    Lees hier meer over dit e-book of download hieronder.

    Klik hier om te downloaden, rechtermuisknop, opslaan als

    Volg mij op Twitter

    Adwords