Vanaf dinsdag 7 februari volg ik een cursus datajournalistiek. In vier lesavonden probeer ik meer structuur in mijn werk te vinden en heb ik een excuus om met data te spelen.
Het einde van de cursus datajournalistiek nadert. Mijn spreadsheet met genomineerden en winnaars van de Academy Awards in de categorie Best Motion Picture begint al redelijk vorm te krijgen. Alleen één dilemma: ik moet ontzettend veel informatie handmatig invoeren of leren programmeren.
Maar allereerst naar de derde cursusavond. Eugene Tjoa gaf een presentatie over visualisatie: wat werkt, waarom werkt dat en hoe kun je dat in jouw voordeel laten werken?
Een tip heb ik met een flink uitroepteken ervoor op mijn notitieblok geschreven: Kies één verhaal. Dat klinkt als een open deur, maar in veel datajournalistieke verhalen werken de kop, het verhaal en de visualisatie niet met elkaar samen. Je maakt het voor jezelf en de lezers een stuk eenvoudiger als je een aspect neemt en daar een verhaal omheen bouwt. “En kies eventueel nog een ander detail om erbij te vertellen”, aldus Tjoa.
Daarom specificeer ik mijn onderzoek uit het eerste blog naar één onderwerp: de releasedatums van films ten opzichte van de uitreiking van de Academy Awards. Mijn vermoeden is namelijk dat Oscar-winnaars hun film op een strategisch moment in de bioscoop laten draaien om zo’n gouden beeldje in de wacht te slepen.
Maar goed, mijn dataset is nog niet compleet. Ik heb al een aantal films handmatig voorzien van een releasedatum, maar voor 490 titels is dat iets te gortig. Ik moet het zien te automatiseren.
Via deze onofficiële IMDB-API kan ik informatie vrij netjes oproepen. Het probleem is echter nog steeds dat ik voor 490 films een oproep moet doen. Ik heb Eugene Tjoa en Bas Broekhuizen om hulp gevraagd om aan de hand van de lijst met films een herhaaldelijke oproep te doen bij die API: Oproep voor film A, informatie film A wordt in spreadsheet opgeslagen, oproep voor film B, etc.
Dankzij een tip via Twitter ben ik ook al iets dichter bij de oplossing gekomen. Maar toch, voor een niet-programmeur is dit echt heel erg pittig.
@JerryVermanen Als je filmnamen in spreadsheet hebt staan, zou je per film requestkunnen doen en JSON-respons inlezen ramblings.mcpher.com/Home/excelquir…
— Willy Bakker (@FrieseWoudloper) februari 21, 2012
Maar goed, stel dat ik straks al mijn data heb, dan weet ik in ieder geval al hoe ik het ga visualiseren. Ik heb een paar opties (hier en hier) die teveel programmeerwerk vergen.
Waar ik wel voor ga: een mooie dashboard in Tableau. Met de kleine dataset die ik nu heb kan ik in ieder geval een werkend prototype maken.
Het gaat mij voor de laatste les waarschijnlijk niet meer lukken om de dataset compleet te krijgen. Jammer! Maar als iemand suggesties heeft voor een goede basiscursus programmeren (voornamelijk gericht op API’s aanroepen) die ik hierna kan volgen, graag! Beloning voor de gouden tip: Eeuwige dank + een eervolle vermelding in het laatste blog.
Ben je al geholpen?
Ja, maar als je nog andere goede methoden hebt… graag! Altijd handig om een paar extra truuks in mijn gereedschapskist te hebben. 🙂
TMDB heeft ook een aardige API. Die gebruik ik zelf om screenshots te tonen op mijn site, zie bijv. de background op deze pagina: http://www.shopvolvoordeel.nl/dvd/artikel/harry-potter-en-de-halfbloed-prins/id/1002004009068287/ waar dan weer de reviews uit moviemeter komen en de rating van IMDB:)
Ik kwam op je site doordat ik op de tag API ergens aan het zoeken was en vond het interessant hoe je het vraagstuk rondom Journalistiek benaderd. Ik zal er binnenkort ook eens een blogpost op mijn site http://www.apiblog.nl aan wagen.
Tof. Laat maar weten zodra het online staat. 🙂