neděle 29. listopadu 2009

Hodnocení her, část 3/4

Poslední dobou se všude (u Overwatche a Tlamiczky :) píše o hodnocení her. Místo toho, abych psal dlouhé komentáře, které by si maximálně přečetli těch pár diskutujících, tak jsem se rozhodl, že napíšu dlouhý článek (který si snad přečte více lidí :). Ve třetí části rozeberu různé systémy hodnocení a pokusím se zjistit, jaký je nejlepší způsob hodnocení her.

První otázka je, jestli hodnotit pouze jedním číslem či mít nějaký složitější systém, kterým by se počítala konečná známka. Dříve jsem takto hodnotil i na Skilltime, ale potom jsem si uvědomil, že je to ve skutečnosti chybný. Každá hra je odlišná (teď si odpustím nějaký rádoby vtip o sériích FIFA a NHL :) a nikdy nejde procentuálně specifikovat, jak moc na nás působí různé části hry jako je hratelnost, grafika, hudba a další, takže nelze zjistit, jakou váhu mají tyto aspekty v celkovém prožitku ze hry. Proto nejde přesně stanovit, že např. hratelnost bude 30%, příběh 20%, ovládání 15% apod. U některých žánrů hraje příběh mnohem větší roli než u jiných a já nevidím důvod, proč by nemohla existovat dokonalá závodní, bojová či strategická hra, kde by místo příběhu šlo o hratelnost a výzvu.

Způsob, jak se toho vyvarovat je možná uvést různé hodnocení pro jednotlivé žánry či pro různé skupiny her. Já jsem dříve na Skilltime všechny hry rozlišoval do tří skupin: Příběhové hry, Malé hry a Kombinace, přičemž každá skupina měla jiné rozložení těchto aspektů (více o tom jak jsem dříve hodnotil hry zde). Nemyslím si ale, že by to bylo řešení, akorát budeme muset problém řešit méně často. Až vyjde hra, která nepůjde jednoduše zařadit do určitého žánru či kategorie, tak bude problém ji spravedlivě ohodnotit.

Navíc je tu problém toho, že by neznalý nechápal, proč různé hry mají jiné procentuální hodnoty u všech aspektů. Je to podobný jako IGN, kde jsou lidi zpočátku zmatení kvůli tomu, že konečná známka není průměrem všech kategorií. Když člověk nechápe systém hodnocení, je možné, že bude radši volit stránku či časopis s přímočařejším hodnocením, kterému rozumí.

Taky jsem někde slyšel názor, že by se mělo jednoduše vyjmenovat seznam plusů a seznam mínusů a známka by byla buďto poměrem mezi plusy a mínusy nebo rozdílem. Toto je samozřejmě naprosto nefunkční, protože každý plus a mínus má úplně jinou důležitost. Třeba mínus dlouhé nahrávání pozice bude logicky mít mnohem menší váhu než třeba mínus celá technická část. Stejně tak plus hádanky bude mít menší váhu než plus zábavný level design.

Zatím jsme se tedy dostali k tomu, že je nejlepší hodnotit jedním číslem. Otázka je však: jakou škálou? Crispy Gamer používá pouze tři známky – Buy, Try, Fry. Na druhou stranu třeba Gamespot či IGN mají k dispozici 100 stupínků. Já si obecně myslím, že recenzent by hře mohl dát jakoukoliv známku chce a jakkoliv přesnou, takže by to byla nekonečná stupnice. Dejme tomu, že by to vždycky bylo z deseti, protože to mi přijde nejpřirozenější, a počet desetinných čísel by nebyl omezen. Je to nejlepší systém, protože v něm můžete hře dát 7/10 nebo ekvivalent třeba 3/5, ale v jednodušším systému hře nemůžete dát 8,5/10. Každý si může vybrat, jakou stupnicí bude hodnotit, myslím si ale, že z tří či z pěti nikdo hodnotit nebude, protože mají možnost využít i jiná čísla. Když se nad tím zamyslíme, tak je velmi malá šance, že nás názor bude přesně sedět jedné stupnici ze tří nebo z pěti – v naprosté většině případů to bude někde mezi. Stejně tak pochybuju, že v praxi by někdo dával hodnocení s více než jedním desetinným místem, protože to už je podle mě hranice, kdy preciznější hodnocení ztrácí smysl.

Pokud jste někdy hodnotili hru, určitě se vám stalo, že jste museli opravdu dlouho přemýšlet, jestli hře dáte třeba 7 nebo 8. Tak proč byste měli být omezeni a nedovoleni hře dát 7,5? Nevidím žádný důvod, proč takto recenzenta svazovat. Když už se rozhodne pro známku 7 či 8, tak to vždycky bude trošku nepřesné, protože jeho první dojem byl něco mezi 7 a 8.

Největší výhoda tohoto systému je u velmi podobných her, obzvlášť her v jedné sérii. Dejme tomu, že vyjdou dvě velmi podobné hry (a to nemusí být ani ve stejném časovém období), přičemž jedna je o trochu lepší (například není tolik zabugovaná nebo má extra mód v multiplayeru). V našem systému by recenzent mohl v hodnocení vyjádřit, že jedna je o trochu lepší tím, že by jí pár desetinných čísel přidal, zatímco v Crispy Gameru by pravděpodobně dostaly stejné hodnocení. Podobné je to se sériemi jako je FIFA či NHL. NHL 08, 09 i 10 dostaly všechny na Crispy Gamer známku Buy, přičemž Gamerankings skóre těchto her je 85, 88, 89 respektive. Zde je tedy vidět, že se série pomaličku zlepšuje, což u hodnocení od Crispy Gamer čtenář nezjistí.

Další výhodu, kterou tento systém přináší, je, že hodnocení je potom mnohem zajímavější pro čtenáře. U systému ze tří stupňů si můžeme dopředu tipnout hodnocení s mnohem větší pravděpodobností než u přesnějšího systému, tím pádem je také mnohem více předvídatelné. A když vyjde naprosto perfektní hra, tak v jednodušším systému dostane 3/3 či 5/5, čímž se zařadí do dlouhého zástupu stejně hodnocených her, zatímco když tato hra dostane 100/100, tak to je o něco pozoruhodnější hodnocení.

Častým protiargumentem je to, že recenze je subjektivní názor jednoho člověka a proto pro nás může být jedno, jestli hra dostala 6 nebo 6,3. Tím že recenzent hře dá 6,3, přece nevyjadřuje o nic menší subjektivitu a o nic větší objektivitu, než když jí dá 6. Čtenáře zajímá názor recenzenta a chce, aby recenzent byl schopen tento názor vyjádřit co nejpřesněji, bez žádných omezení.

Sečteno a podrženo, složité systémy počítání konečné známky nejsou spravedlivé, protože předpokládají, že nás na každé hře baví to samé. Kdyby různé kategorie her měly různé systémy hodnocení, bylo by to moc žánrově orientované a svazující a časem by se vyskytovaly problémy. Myslím si, že nejlepší typ hodnocení je jedno číslo, které může být přesné jakkoliv recenzent chce. Tím by se recenzent nemusel omezovat a mohl by hře dát přesně takovou známku, jakou prvotně zamýšlel. Díky tomuto způsobu půjdou také lépe zvýraznit např. rozdíly mezi dvěma hry ze stejné série či obecně dvě podobné hry a hodnocení bude zajímavější pro čtenáře.

Celý článek

úterý 10. listopadu 2009

Hodnocení her, část 2/nejspíš-3

Poslední dobou se všude (u Overwatche a Tlamiczky :) píše o hodnocení her. Místo toho, abych psal dlouhé komentáře, které by si maximálně přečetli těch pár diskutujících, tak jsem se rozhodl, že napíšu dlouhý článek (který si snad přečte více lidí :). Ve druhé části se podíváme na průměr hodnocení, proč je tak vysoké a co s tím udělat.

Je vůbec průměr 7/10? Gamerankings na svých stránkách poskytují vyčerpávající seznam všech stránek, který kdy přispěly k hodnocení a průměrné hodnocení těchto stránek. Průměr všech 256 972 recenzí na Gamerankings je 72%. Takže ne, 7/10 je dokonce podprůměr :), přestože průměr by teoreticky měl být 5,5 (většina lidí si mylně myslí, že 5, přitom (1 + 10) / 2 = 5,5).

Otázka je, proč tomu tak je? Podle mě to nelze svést na jeden konkrétní důvod, je tu ale mnoho faktorů, které k tomu přispívají. Nejpodstatnější je podle mě vztah média s distributorem. Bylo to řečeno již tisíckrát; recenzent se nechce dostat do konfliktu s distributorem, protože následky by pro médium byly nepříznivé. Distributor by kvůli nízkému hodnocení mohl zrušit inzerci, odebrat časopisu exkluzivitu prvních recenzí příštích her či jim již nadále neposílat informace, trailery, screenshoty apod. a nezvat je na různé konference, show a prezentace. Kvůli tomuto mají výhodu tituly, které spadají pod velkého distributora, protože nepřízeň velkého a vlivného publishera je horší než nepřízeň malého publishera. Mám dobré důvody proč si myslet, že v ČR, nebo minimálně v Levelu, korupce není (kvůli vyjádření Martina Bacha nebo když si o tom povídají lidi v hPodu), ale v západním světě je tlak distributora velmi silný a může povznést konečné hodnocení.

Weby, které mají povoleno publikovat recenzi na očekávanou hru, většinou této hře dají vyšší hodnocení, než se později stane průměrem. U 30 her, které vyšly za poslední dva roky, jsem spočítal, jestli průměr prvních tří recenzí byl vyšší nebo nižší než průměr všech recenzí. Těch s vyšším počátečním hodnocením bylo přesně dvakrát více než těch s nižším iniciálním hodnocením. To nám říká, že weby s exkluzivitou dávají hře více než weby bez exkluzivity, takže náklonnost distributora má vliv na hodnocení. Může to ovšem také znamenat, že weby chtějí čtenáře zaujmout vysokým hodnocením. Prvních pár recenzí jsou pro hru nejpodstatnější, protože toto bývají ty nejčtenější recenze. Navíc prvních pár hodnocení mají na čtenáře největší vliv. Když vidím, že nějaká hra dostala 7 jakožto první recenzi, rovnou ji přestávám sledovat a recenzi si ani nepřečtu.

Další možný důvod je hype, který se u některých her uskutečňuje. Distributor kolem hry vytvoří hype marketingovou masáží, vysokými hodnoceními v oficiálních časopisech, správně zvolenými slovy v interview, dobře provedenou announcement show či podporou komunity kolem dané hry, což zahrnuje fanstránky, fóra, angažování se na populárních stránkách jako Facebook, YouTube či Twitter a různé události typu maraton v Dragon Age či fotbálek na počest launche FIFA 10. Velmi vysoké očekávání způsobí to, že hodnocení prakticky začíná na 8/10. S marketingem souvisí také to, že obzvlášť velké firmy se snaží získat přízeň recenzentů např. tím, že je zvou na večírky nebo že jim zasílají speciální sběratelské edice a různé postavičky, trička a další typy merchandise. Otázka je, jestli to dělají v lásce k recenzentovi nebo kvůli tomu, že se snaží pohnout s hodnocením.

Jaký vliv má Gamerankings a Metacritic na průměr hodnocení? Zaprvé recenze jsou seřazeny podle hodnocení, takže weby, které dané hře daly vysoké hodnocení, budou v seznamu výše než weby, od kterých dostala méně. Je samozřejmě větší šance, že čtenář klikne na první link, než že bude scrollovat dolů a klikat na nějaký spodnější. Další vliv průměrného hodnocení je to, že se tomu recenzenti povědomě přizpůsobují. Podle mě v dnešní době, kdy Metacritic má v herním průmyslu tak podstatný vliv, neexistuje recenzent, který by se před udělením finální známky nekoukl, kolik dostala od ostatních recenzentů. Další vliv je že člověk si radši přečte recenzi s hodnocením, které je co nejblíže průměrné hodnocení té hry, protože to vyjadřuje průměrný a většinový názor na hru. Já osobně si vždycky čtu průměrnou recenzi (což je většinou Gamespot nebo IGN). Tím, že recenzent nasměruje hodnocení více k průměru, si může zajistit více prokliků a tím pádem i nějaký ten bonus k platu.

Další věc jsou oficiální časopisy herních společností. Přiznám se, že nevím přesně, jak funguje vztah mezi redakcí a herní firmou, ale myslím si, že recenze v sobě moc objektivity nemají. Úspěch tohoto časopisu je přímo úměrný úspěchu dané konzole, proto je v zájmu redakce co nejvíce podpořit prodeje. Problém je v tom, že tohoto lze docílit třeba tím, že budete všem hrám dávat vyšší hodnocení, takže ve finále to bude vypadat tak, že vaše konzole má lepší hry než konkurenční systém. Pokud je hodnocení ovlivněno nějakými lidmi seshora, tedy samotnou herní firmou, pak by mohly naschvál dávat first-party hrám vyšší hodnocení než third-party, aby posílili vlastní prodeje.

To bylo pár důvodů, proč je praktický průměr teoretickým nadprůměrem. V tom případě jak může nastat situace, že nová hra dostane 75% a fóra jsou zaplněná nesouhlasnými pokřiky?

Výborných her je čím dál tím více, takže hráč může být vybíravý a hrát pouze ty nejlepší z nejlepších. Já jsem si teď spočítal průměrné hodnocení her, které jsem dohrál za posledních pár měsíců. Výsledek? 91,5%! Jakmile v Levelu nějaká hra dostane 7 nebo méně, jsem si skoro jist, že si ji nepořídím. Nestíhám hrát ani hry s hodnocením 9, tak proč bych se měl obtěžovat s tak podřadnými hry? Statistika nám říká, že každý měsíc vyjdou přibližně dvě hry, které dosáhnou průměrného hodnocení přes 90% a pod tuto hranici ten počet roste exponenciálně.

Další důvod je očekávání způsobené marketingem. Hra má takový hype, že lidi od ní neočekávají žádný průměr, ale výbornou hru s odpovídajícím hodnocením. Proto jsou lidi naštvaní, když hra dostane průměrnou známku. Já se přiznám, že jsem byl trochu zklamaný, když Dragon Age dostalo v Levelu 9/10. Přece jenom další hry co dostaly 10 byly Fallout 3, Mass Effect či Oblivion a myslím si, že Dragon Age se jim plně vyrovná. Kvůli těmto důvodům si myslím, že je zcela platný být zklamaný, že nějaká hra nesplnila očekávání, která si stanovila a tím pádem dostala průměrné či lehce nadprůměrné hodnocení.

Vliv na to také mohou mít různé způsoby hodnocení her. Zaprvé čím přesnější hodnocení, tím menší šance, že budou padat absolutní hodnocení. Média, která hodnotí na škále pěti budou hrám dávat ekvivalent 100% mnohem častěji než médium, které hodnotí v procentech. Za druhé čím méně přesné hodnocení, tím vyšší je procentuální ekvivalent nejnižšího bodu. Vzhledem k tomu, že v naprosté většině systémů nelze hře dát nulu, tak nejnižší hodnocení u škály z pěti bude 20%, zatímco u procentuální škály je to 1%. A za třetí bude také průměrná známka mít vyšší procentuální ekvivalent čím menší je škála. Na škále z pěti je průměr 3, což je 60%, na škále z deseti už je to 5,5 = 55% a na procentuální škále je to (1 + 100)/2 = 50,5%. Toto jsou všechno vlivy způsobu hodnocení, které zvyšují hodnocení her.

Měl by průměr tedy být 5,5/10? Odpověď by mohla být ano za předpokladu, že by časopis recenzovat všechny hry, i ty špatné, i ty dobré. Skutečnost je však jiná, např. více než jedna třetina všech Wii her má dvě a méně recenzí a to bývají zpravidla právě hry, u kterých jsou nízká očekávání. Stránky v tomto seznamu jsem zpracoval do grafu podle jejich průměrného hodnocení. Jak je vidět z lineární regrese, průměr hodnocení klesá čím více her to médium recenzovalo. Průměrné hodnocení nějakého časopisu či webu tedy záleží z velké části na tom, kolik her je celkově recenzováno. Pokud se všechna média budou snažit využívat celou škálu hodnocení, tedy mít vlastní průměr kolem 5,5, jednotlivá ohodnocení nepůjdou mezi sebou srovnávat, a tím pádem budou mít stránky typu databaze-her.cz, Gamerankings či Metacritic nulovou vypovídací hodnotu. Proto by každé médium a každý člověk (na dh) měl hodnotit stejným měřítkem i za cenu toho, že pak nevyužije celou dostupnou škálu.

Nejsem si jist, že jsem to dobře vysvětlil, proto radši uvedu příklad. Na dh hodnotí lidi hru X, která není nijak světoborná. Pepa hraje pouze ty nejlepší hry, proto u něj tato hra moc nezabodovala. Přesněji řečeno to u něj bude nejhorší hra, kterou kdy na dh hodnotil. Jestliže se bude snažit mít průměr 5,5, tak této hře dá 1 nebo 2. Honza hrál více her a tím pádem i více špatných her. U něj tato hra patří k průměru, proto hře dá 5,5. Potom hru hodnotí Level, který hodnotí obrovské množství her a tato hra od redaktora dostane 8/10. Tohle vše za předpokladu, že se hra líbila všem stejně. Jak je vidět, skóre je pouze ovlivněno počtem recenzí, který to médium či člověk recenzuje. Je to hodnocení, které je relativní k ostatním hodnocením daného média, takže samostatně nemá žádný význam. Aby měla dh smysl, musíme všichni hodnotit stejným měřítkem, nejjednodušší bude tedy škálou "velkých" časopisů a webů jako Level či Eurogamer.

Je mnoho faktorů, které zvyšují hodnocení her. Proto je také průměr hodnocení vyšší, než by ve skutečnosti měl být. První recenze jsou vysoká, protože recenzenti jsou u velkých titulů mnohdy ovlivněni hypem nebo v tom figuruje korupce, ať už v  klasickým médiu či v oficiálním časopisu. Další recenze jsou ovlivněny tímto průměrným skórem. Toto se děje pořád v jakémsi koloběhu, přičemž se pořád zvyšuje laťka průměru. V dnešním světě je perfektních her tolik, že hráč si může vybírat pouze ty nejlepší, proto je i lehký nadprůměr mnohými (třeba mnou) považovaný za podřadnou kategorii her. Všichni by měli hodnotit hru navzájem relativně, aby zprůměrovaná hodnocení měla nějaký smysl.

Celý článek