Nejsou data jako data, nejsou dataři jako dataři

adminUncategorized

Ekonom Ondřej Zaoral v Deníku N varuje před dataři: „Žádný návrat ke starému normálu se konat nebude. Nenechme datové skladníky definovat náš nový svět.“ Vhodná četba pro každého, koho zajímá, jak pracujeme s daty o koronaviru. Zaoralovo varování – „pokud jde o statistiky, tak opatrně“ – se totiž neozývá dost často. Článek tak stojí za přečtení, i když Zaoral občas míří vedle nebo trefuje slaměné panáky. (Všechny citace níže jsou z článku.)

Z titulku jsem měl původně dojem, že půjde o polemiku v duchu „data(ři) útočí, braňme se“, tedy kategorické odmítnutí velkých dat. S takto postavenou debatou, tj. „kvanta, nebo kvalita?“, jsem se prvně setkal při studiu společenských věd. Byl jsem tehdy rád, že studuju politologii v Evropě, protože evropská politická věda je kvalitativní (hluboké zkoumání málo případů), zatímco za oceánem vládnou kvantitativní metody. (Záleží na tom? Ano, většina velkých otázek politologie se dost blbě kvantifikuje – př. „jaké jsou příčiny etnických konfliktů?“.) Nicméně časem jsem si uvědomil, že nejvýhodnější je rozumět oběma skupinám metod.

Zaoralova kritika je naštěstí vytříbenější. Nevaruje před dataři obecně, ale před „datovými skladníky“:

A datoví skladníci by se taky měli držet své práce – měli by nadále přehazovat data v databázích a přestat se pokoušet spasit svět pomocí nástrojů vhodných tak akorát na hodnocení marketingových kampaní. Protože svými v realitě nesmyslnými daty často jen dávají zbraně přátelům starých pořádků a podkopávají snahy zbytků občanské společnosti vypořádat se s virem západním způsobem. 

Zaoralovo varování přesahuje koronakrizi. Jako lidstvo sbíráme čím dál více dat, která mají formu čísel seřazených v tabulkách. S těmito daty umíme čím dál lépe pracovat. Čím dál více nám tato data pomáhají. Nicméně velká data mají tvořit pouze jeden z prvků našeho rozhodování. Jako společnost budeme mít v dalších desetiletích problém s tím, že na to budeme zapomínat. Zaoralův text je o tom, že na to zapomínáme už dnes – když koukáme na exponenciální grafy nebo hodnoty R.

Statistické závěry jsou velmi náchylné na špatná nebo nedostatečná nebo špatně vybraná data. Data o koronaviru, s nimiž dnes pracujeme, mají všech těchto problému víc než dost:

Média každý den prezentují počty provedených testů, nakažených a mrtvých. Počítají poměry v procentech na jedno až dvě desetinná místa. Hovoří o tvrdých datech. Přitom nemáme v ruce nic než agregovaná data (tj. data bez původního kontextu), u nichž máme vlastně jednu jedinou jistotu – že jsou extrémně nepřesná.

Velký problém je také chybná (nebo příliš zkratkovitá) interpretace. Dochází k ní velmi snadno, když jsou statistiky dekontextualizované – běžný jev v případě datových grafů v novinách.

Stále častěji se v současné situaci potýkáme i se zcela obyčejnými dezinterpretacemi. Hodnoty počtu provedených testů jsou často prezentovány jako počet unikátně otestovaných lidí. Počet pozitivně testovaných se pak často interpretuje jako počet nemocných, což je zavádějící právě z důvodu výběrového zkreslení v testované populaci. Stále se mluví o zplošťování křivky jako způsobu řízení zátěže zdravotnického systému, počty těžkých případů na JIP se už tak často neuvádí, a kdo se o ně zajímá, musí hledat.

Není na škodu si tato úskalí při čtení Zaoralova textu připomenout, resp. pro mnohé to možná bude novinka.

Ale zas tak jednoduché to také není

Ve snaze podpořit svůj argument Zaoral užitečnost velkých dat během koronakrize podceňuje. Např. umělá inteligence urychluje výběr léků, které stojí za to dále testovat pro jejich účinnost na Covid19. Nebo Zaoralem zesměšněný „dashboard“ kreditních a telekomunikačních dat – to je něco, co pro posuzování toho, jak se obyvatelé chovají (v makro měřítku), využívají všechny vyspělé státy. A koneckonců i naše schopnost velmi efektivně využívat dostupné kapacity zdravotního systému se opírá o statistické informace, které sbírá Ústav zdravotnických informací a statistiky.

Také není realistické myslet si, že všechny „datové skladníky“ zaženeme zpátky do podzemí, a bude klid. Pandemie, na rozdíl třeba od výše zmíněných etnických konfliktů, je problém, který jde velmi dobře měřit v číslech. Šíření viru a dopady nákazy, zejm. na zdraví lidí, ale i na ekonomiku, můžeme v principu dobře sledovat v číslech. Problémy popisované Zaoralem se dnes týkají především sběru, analýzy, prezentace a interpretace dat – v tom všem je naše snaha zatím nedostatečná. Ale teoreticky bychom lepší odpovědi mít mohli (a časem je budeme mít). Většina otázek, které si klademe („jak rychle se virus šíří“, „jak moc škodlivý je pro jaké skupiny obyvatel“ apod.), je zodpověditelná statistikou.

A ještě závěrem některá tvrzení, která jsou zcela vedle. Zaoral si stěžuje jak na „samozvané“ ajťáky připravující a propagující chytrou karanténu, tak – hned vzápětí – na nedostatečnou inspiraci Jižní Koreou. Chytrá karanténa je ale přitom důležitý prvek korejského úspěchu, a toho si lidé v tech skupině Covid19cz všimli jako první – v situaci, kdy naše reakce musela být co nejrychlejší.

Zaoral také vyčítá médiím zaměření na R s tím, že to „dělá to borec z Oxfordu“, čímž zřejmě myslí Jana Kulveita. Kulveit se podílí na tvorbě systému chytré karantény, ale v ČR je hlavním „garantem“, pokud jde o hodnotu R, někdo jiný: Ústav zdravotnických informací a statistiky (který je, zdá se, k možnostem chytré karantény spíše skeptický).

Bez širší diskuse byl prosazen koncept „chytré karantény“, vytvořený skupinkou IT firem, jejichž ajťáci jsou přesvědčeni o tom, že virus se dá „porazit“ daty.

Stále silněji je tlačen pohled, že v současné situaci je na výběr pouze mezi svobodou a zdravím, případně mezi destrukcí ekonomiky a zdravím. Názory nesouhlasící s formulací těchto voleb nemají prostor, brání přece rychlému vybojování války. Nesmíme se na nic ohlížet, musíme bojovat.

Hlavně bojovat. Jediné, co se k nám přes zavřené hranice dostalo, je čínský styl odpovědi na virus. Kdokoli se podívá například do Jižní Koreje a vznese logickou otázku „proč to neděláme jako tam, když nemají exponenciální růst a obchody jsou otevřené“, je okamžitě uzemněn univerzálním argumentem, že tam je to přece úplně jiné.