Jaroslav Vážný: The Hitch-Hacker’s Guide to Data Science

Ve čtvrtek 3. dubna 2014 vystoupil v Bloku expertů Jaroslav Vážný. Vážný je doktorand oboru Teoretická fyzika a astrofyzika na Přírodovědecké fakultě Masarykovy univerzity a pracuje ve start-upu Gauss Algorithmic, která se zabývá data miningem a strojovým učením.

Vážný začal svou přednášku otázkou, která dosud nebyla uspokojivě zodpovězena: „Co je věda?“. Podle Alberta Einsteina „celá věda není nic víc než tříbení každodenního myšlení“ (The whole of science is nothing more than a refinement of everyday thinking). Vážný pokračoval příklady nejnovějších vědeckých poznatků a objevů jako je např. objev polarizace reliktního záření, čímž de facto došlo k potvrzení části inflační teorie, která hovoří o rozpínání vesmíru těsně po jeho vzniku. Za všemi podobnými objevy stojí obrovské úsilí a práce špičkových vědců, což je, mimochodem, spojuje např. se špičkovými sportovci. Je však třeba říci, že ne každý, kdo na sobě pracuje, bude úspěšný. Pokud chceme být v něčem skutečně dobří, musíme to skutečně dělat. A dnes „něco dělat“ je velice jednoduché, zvláště pokud máme MOOC (Massive open online course; masivní otevřené online kurzy) jako poskytuje Coursera.org atp.

Jaroslav Vážný: Stopařův průvodce po Data Science from KISK on Vimeo.

Podle tradičního pojetí nepublikující vědec jakoby neexistoval a „vědeckost vědce“ se měří jeho publikacemi a autory, kteří jej citují. Lpění na podobných principech dnes může být poněkud nebezpečné a vůbec celý koncept už ztrácí na významu. Vážný uvedl za příklad nástroj SCIgen, který dokáže vygenerovat „vědecký článek“ pomocí jednoho tlačítka. I když nástroj může působit jako špatný vtip, text vygenerovaný tímto nástrojem byl skutečně přijat na jednu vědeckou konferenci jako regulérní příspěvek.

Jak by vědecké články mohly vypadat, ukazuje nástroj IPython, který umožňuje vytvořit dokument, který může obsahovat grafiku a hlavně matematiku. Jeho klíčová funkce spočívá v tom, že obsahuje zdrojové údaje k tomu, aby si člověk mohl některá tvrzení ověřit. Typicky lze takový matematický příklad se zdrojovými údaji stáhnout a znovu spočítat.

Pomocí dalších příkladů Vážný demonstroval trvalou přítomnost iluzí v našem světě. Některé (typicky optické) iluze jsou iluzemi i poté, co víme, že se jedná o iluze. Naše smysly a náš mozek s nimi jednoduše nedovedou pracovat. To je jeden ze zásadních důvodů, proč potřebujeme statistiku a matematiku. Klasickým příkladem neintuitivního, pravděpodobnostního problému, je Monty Hallův problém.

Vážný publiku doporučil dvě knihy: Thinking, Fast and Slow od Daniela Kahnemana a The Honest Truth About Dishonesty od Daniela Arielyho. Autoři se v publikacích zabývají tím, jak moc se lidé v běžném životě mýlí. Kniha od Arielyho přibližuje to, jak moc a často lidé lžou. Obě knihy staví na experimentech, takže výsledky, se kterými přichází, jsou relativně dobře ověřitelné. 

Vážný pokračoval výkladem o záplavě dat, která nás čeká v budoucnu. Podle něj budou data narůstat zejména díky medicínským aplikacím ze zařízení, která budou mít lidé na sobě. Další data budou produkovat vědecká střediska. CERN, kde Vážný v minulosti působil, už v současné době vyprodukuje 1PB dat denně – nutno však podotknout, že většina z těchto dat bude stejně smazána. Je prakticky nemyslitelné, aby se všemi těmito daty probíral člověk. Data zpracovávají počítače, které mají tu nevýhodu, že jsou „strašně hloupé“ a člověk je v celém procesu zpracování dat stále klíčový prvek. Data totiž jsou a budou především o interpretaci. Podíváme-li se do minulosti, zjistíme, že dříve tomu bylo naprosto jinak: dat byl těžký nedostatek. Tycho de Brahe napozoroval pouze pár desítek kB a přesto z nich Kepler dokázal odvodit své zákony.

Jedno z posledních témat, které Vážný otevřel, byla umělá inteligence a proces učení. Abychom jednou byli schopni umělou inteligenci stvořit, musíme naučit stroje učit se. V učení existují dva základní modely: učení s učitelem a učení bez učitele.

Na úplný závěr přednášející doporučil některé nástroje na práci s daty a statistiku, kterými jsou kromě zmíněných:

  • Github – služba, která umožňuje hosting open-source projektů. Podle Vážného je tato služba hojně používána, a pokud někdo tvoří nějaký software, je velká pravděpodobnost, že bude umístěn na tomto serveru;
  • Pandas – statistický nástroj.

Zdroj titulního obrázku: http://blogs.law.harvard.edu/signal/2012/08/03/my-data-science-roadmap/

Fotogalerie

Líbil se vám článek?
Stáhnout článek v PDF

0 komentářů

Přidat komentář

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback