Jak je sladěná Mirka Spáčilová s Františkem Fukou, ČSFD a IMDB?
Michal Bláha nedávno napsal skvělý blog post s analýzou recenzí Mirky Spáčilové. V komentářích se objevily nápady na porovnání s recenzemi Františka Fuky a hodnocením na csfd.cz a imdb.com. Samotného mě to zajímalo, navíc je to výborná ukázka použití Apify, tak jsem se do toho pustil.
A jak to dopadlo? Podařilo se mi najít celkem 553 filmů, na které napsali recenze Mirka Spáčilová (MS) i František Fuka (FF) a současně pro ně existují hodnocení na csfd.cz a imdb.com (vyhledáváním podle názvu filmu a roku uvedení). Veškerá data jsou dostupná v tomto spreadsheetu. Lze v nich dohledat například toto:
- Průměr hodnocení - ČSFD a IMDB jsou až neuvěřitelně sladění (ČSFD 66,01 %, IMDB 66,15 %), MS a FF jsou také docela vyvážení, ale o dost níž (MS 58,03 %, FF 59,67 %).
- Gaussově rozdělení více odpovídá MS a IMDB, viz graf počtu recenzí podle hodnocení (MS používá pouze násobky 5, FF násobky 10, ČSFD a IMDB průměr hodnocení svých uživatelů).
- FF vydává recenze v průměru o 5 dní dříve než MS (u českých filmů stáhla MS zpoždění na 3 dny).
- Největší rozdíly v hodnocení způsobily nuly od MS nebo 100% od FF. Např. Konečná (The Last Stand) od diváků 68 %, resp. 64 % a od kritiků 0 % a 40 %.
- Na druhou stranu lze najít plno filmů, kde se kritici s diváky shodnou:
- Top 10 v součtu hodnocení (z českých filmů až na 18. místě Pouta):
- Z druhé strany už máme v první desítce 5 českých kousků:
- Další graf ukazuje průměr hodnocení podle roku vydání filmu, v případě MS a FF prakticky také podle roku vydání recenze. Trend by měl být stejný pro všechny zdroje, ČSFD a IMDB hezky kolerují. U FF je vidět silný rok 2011 a především rostoucí průměr hodnocení od roku 2012, kdy ostatní klesají. Průměr za posledních 10 let klesl z 67,2 % na 61,6 %.
Jak jsem získal data?
Nejprve jsem upravil Michalův crawler a stáhl všechny filmové recenze Mirky Spáčilové z idnes.cz. Jedná se celkem o 1314 recenzí od roku 1998. Je jich o 19 méně, než stáhl Michal, jelikož jsem crawler omezil pouze na filmové recenze. Naopak jsem počítal i s případy, kdy v rámci jednoho článku vyšly 2 recenze. Crawler je dostupný zde, data jsou v sheetu MS.
Opravdu ani jednou 100 %, pouze dvakrát 0 %.
Pak jsem obdobným způsobem stáhl všechny filmové recenze Františka Fuky z jeho webu fffilm.name. Jedná se o 1518 recenzí od roku 2007. Crawler dostupný zde, data v sheetu FF. Název a hodnocení jsem musel parsovat z nadpisu, ale regulární výraz to vyřešil.
Tady už máme 44 x 100 % a 16 x 0 %.
Následně jsem našel průnik recenzí podle názvu filmu (není to 100 %, ale rychlým porovnáním to našlo cca 95 % stejných filmů — problém je u odlišných apostrofů apod). Výsledkem je 662 filmů, na které napsali recenze oba dva.
Následující graf už tedy zobrazuje rozložení hodnocení pro stejné filmy.
Poté jsem pro všechny filmy (nejem průnik) stáhl data z csfd.cz. Používal jsem jejich search, kde jsem hledal podle českého názvu. Z nalezených filmů jsem vzal první, kde seděl i rok vydání, který jsem stáhl z recenze MS. U některých filmů ho MS neuvedla, tam jsem kontrolu roku nedělal. Naopak jsem našel pár filmů, kde rok vydání nesedí u MS a ČSFD — v takovém případě jsem film nezařadil do finálního seznamu. Konfigurace crawleru je zde, data v sheetu ČSFD.
Potom jsem obdobným způsobem stáhl data pro seznam filmů z imdb.com. Vyhledával jsem podle originálního názvu, který jsem získal z csfd.cz. Opět pomocí názvu filmu a roku vydání. Crawler zde, data v sheetu IMDB.
Z těchto grafů je patrné, že kritici mají svá hodnocení daleko více rozložená po celé škále, naopak diváci se drží většinou mezi 60 % a 80 %.
Nakonec jsem spojil všechna data do jednoho sheetu pomocí názvu filmu a ručně vyhodil pár špatně namapovaných filmů (např. Taková normální rodinka z roku 1971 a 2008). Některé se nepodařilo dohledat na csfd.cz případně imdb.cz (nebo neměly dostatečný počet recenzí), takže jsem se dostal na zmiňovaných 553 filmů s recenzemi od všech zúčastněných. Tento výsledek můžete prohledávat v sheetu join. Mimochodem, pro spojení dat z více scheetů jsem použil Merge sheets add-on.
Co dál?
Myslím, že se jedná o zajímavý dataset na hraní. Pokud byste někdo chtěl stáhnout další filmy, můžete využít zmiňované crawlery (Apify je zadarmo do 10,000 stránek měsíčně). Pokud byste potřebovali jiná data z webu, dejte mi vědět na jakub@apify.com.
Kdybyste někdo chtěl udělat další grafy, případně hezkou infografiku nad těmito daty, budu jenom rád. Jen bych vás poprosil o použití loga Apify.