Příručka zaklínadel pro mírně pokročilé motáky

Tak už je to tady! Závěrečný projekt, nejvýživnější úkol a zároveň poslední zkouška, která má prověřit naše čarodějné schopnosti!

Zadání bylo jasné - vyberte si téma a na něm předveďte, že jste schopni použít aspoň čtyři probraná zaklínadla, ehm, vlastně nástroje. Přeloženo do studentského jazyka - vyberte si čtyři nástroje, ze kterých se vám aspoň trochu nechtělo brečet (ano, R, na tebe se dívám) a naroubujte na ně nějaké hezké téma.

(To je samozřejmě jen vtip. Ha ha!)

 

Datus Importus!

Svůj magický projekt jsem se rozhodla začít scrapováním dat z několika různých zdrojů. Jako téma jsem si vybrala Harryho Pottera, konkrétně knihy a filmy. Z webu GoodReads jsem si pomocí nástroje Import.io stáhla data o všech knihách, které mají v názvu "Harry Potter". Stejný postup jsem aplikovala na webu IMDb.

 

 

Data z Import.io jsem si následně stáhla ve formátu CSV. Výsledkem tohoto kouzla tedy byly dva CSV soubory, jeden s daty o knihách a druhý o filmech.

 

Tablus Unificus!

Oba CSV soubory jsem si následně otevřela v Google Fusion Tables. Tam jsem tabulky trochu pročistila a měla v úmyslu je pomocí funkce "Merge" spojit dohromady. Tady nastal první zádrhel. Neuvědomila jsem si totiž, že se první film a první kniha nejmenují stejně (a jaký je vlastně rozdíl mezi "Sorcerer" a "Philosopher"?). Odstranit samotný zádrhel ovšem už nebylo tak složité jako přijít na jeho příčinu.

 

 

Na screenshotu je vidět, že výsledný dataset ani po zběžném "vyčištění" ve fusion tables stále nebyl úplně top. Chvíli jsem zvažovala použití OpenRefine, ale po zralé úvaze, ve které hrála nemalou roli nechuť strávit půl dne koukáním na nápis "Loading", jsem se rozhodně tuhle fázi vynechat a dataset upravit až v Power BI. Nakonec, i v tomhle nástroji jde data čistit poměrně obstojně.

 

 

Z fusion tables jsem si dataset opět stáhla v CSV formátu a otevřela si jej v rozhraní Power BI.

 

Vizualizacio!

Teď tedy mohla konečně začít pořádná legrace! Díky tomu, že jsem z GoodReads měla k dispozici čtenářská hodnocení jednotlivých knih, neodolala jsem vizualizaci právě těchto hodnot. Jak je vidět v grafu níže, výsledek je hodně natěsno, ale v srdcích čtenářů si vítězné vavříny vydobyl poslední díl série, Harry Potter a relikvie smrti. Nejméně se naopak líbil druhý díl, Harry Potter a tajemná komnata.

 

 

Protože obyčejný pruhový graf se mi zdál jako úkol nehodný Power BI, rozhodla jsem se zajít ještě dál a zjistit, jestli existuje nějaká závislost mezi průměrným hodnocením a jejich počtem. V bodovém grafu výše lze vidět, že až na úplně první díl počet hodnocení žádné knihy nijak výrazně nevybočuje z průměru. Což je pro první díl vlastně tak trochu nelichotivý výsledek - i přes množství hodnocení se v jejich průměru zasekl na druhém místě. Od konce.

 

 

Librus Analiticus!

Ve druhé části úkolu jsem se rozhodla zaměřit na obsah všech sedmi knih a k jeho analýze využít svůj oblíbený nástroj Voyant Tools, který pro mě, i přes nedávné testování funkcí, stále z části představovalo neprobádané území. Mým cílem tedy bylo vyzkoušet si nové funkce Voyant Tools.

Protože Voyant Tools nabízí možnost analýzy více PDF souborů zaráz, začala jsem tím, že jsem se pokusila nahrát všech sedm dílů. Jenže to jsem neměla dělat...

 

 

A situace se nezměnila ani po osmi hodinách načítání. Bohužel zatím nevlastním kámen mudrců, takže si nemůžu připravit lektvar pro věčný život, musela jsem se tedy spokojit s omezeným množstvím analyzovaných dokumentů. Po několika neutěšených minutách zkoumání jsem dospěla ke konečnému počtu knih, nad kterými se nástroj neseká, a to přesně jedna. Analýze jsem tedy podrobila každý díl zvlášť.

Pro první díl jsem se rozhodla použít jeden z nástrojů, které jsem ještě nezkoušela, a to RezoViz. Jeho účelem je vizualizovat vztahy mezi osobami, místy, institucemi a jinými pojmenovanými entitami. Pro zjednodušení jsem výběr omezila na jména osob (tedy přesněji řečeno na výrazy, které program vyhodnotil jako jména osob). Na výsledné vizualizaci je vidět, že se v první knize v podstatě všechno točí kolem postavy Snapea. Poněkud překvapivě má totiž právě on nejvíce vztahů s ostatními postavami. V těsném závěsu je Brumbál (Dumbledore), u kterého ovšem není počet vztahů na první pohled tak markantní, protože program bohužel zatím není schopen spojit různé verze téhož jména. Snad na to někdo brzy vymyslí efektivní zaklínadlo.

 

 

Pro analýzu druhého díla jsem se rozhodla použít nástroj Knots, který slouží k vizualizaci "cesty" vybraných pojmů textem. Čám vzdálenější od sebe jsou linie, které tyto pojmy reprezentují, tím fakticky vzdálenější jsou od sebe samotné pojmy v textu. Na zkoušku jsem se rozhodla vizualizovat cesty sourozenců Weasleyových. Zcela podle očekávání vycházejí ze společného bodu a na mnoha místech se protínají, někteří z nich drží společně déle než ostatní (Fred a George!). Je zajímavé sledovat, jak daleko od ostatních se ke konci dostává Ginny. Kudy by asi putovala linie Toma Riddlea?

Nástroj Links, podobně jako RezoViz, vizualizuje vztahy mezi jednotlivými pojmy, tentokrát ovšem bez ohledu na to, o jaký slovní druh jde. Pojmy navíc shlukuje do clustrů podle toho, nakolik se v textu vyskytují společně. Výsledek této analýzy by už tím pádem skutečně mohl o příběhu něco prozradit. Na obrázku je ukázka vztahů pojmů ze třetího dílu série. Přítomnost pojmů jako "Sirius", "Azkaban" a "dementors" ve stejném clusteru asi nikoho nepřekvapí, ale pro nepoučeného čtenáře by např. takové spojení Petera Petigrewa a Vy-víte-koho mohlo představovat nepěkný spoiler.

 

 

Ve čtvrtém dílu jsem se rozhodla zaměřit se na vizualizaci frekvence slov v jednotlivých segmentech knihy, a to pomocí nástroje TermsRadio. Tento nástroj je schopen knihu rozdělit až na sto segmentů, v nichž poté frekvenci nejhojněji se vyskytujících slov vizualizuje prostřednictvím frekvenčních křivek. Stálicemi jsou Harry, Ron, Hermiona, Brumbál (Dumbledore), ale pozor, tentokrát tu máme také několik nováčků, mezi nimiž excelují především profesor Moody a pan Skrk (Crouch). Vzhledem k tomu, jak se SPOILER ALERT! nakonec vyvrbí situace kolem právě těchto dvou (nebo tří?) osob, je docela zajímavé sledovat vzájemný vztah těchto jmen.

 

 

Domnívám se, že jako doplnění ukázek funkcí Voyant Tools čtyři příklady stačí. Možností má tento nástroj samozřejmě ještě mnohem více, a pro reprezentaci všech se nemusí hodit právě literatura faktu (vlastně fikce, co kdyby to četl nějaký mudla...).

Kouzlení zdar!

Fotogalerie

Líbil se vám článek?
Stáhnout článek v PDF

33 komentářů

Obrázek uživatele Helena N

Skvělá práce, Týno x-)

Obrázek uživatele Anonym
Anonym
7. 2. 2019

Hello. excellent job. I did not imagine this. This is a splendid story. Thanks! word brain games

Obrázek uživatele Anonym
Anonym
5. 3. 2019
Very useful post. This is my first time i visit here. I found so many interesting stuff in your blog especially its discussion. Really its great article. Keep it up. inflatable rentals cincinnati
Obrázek uživatele Anonym
Anonym
5. 3. 2019
Very useful post. This is my first time i visit here. I found so many interesting stuff in your blog especially its discussion. Really its great article. Keep it up. bounce house rentals cincinnati
Obrázek uživatele Anonym
Anonym
5. 3. 2019
Very useful post. This is my first time i visit here. I found so many interesting stuff in your blog especially its discussion. Really its great article. Keep it up. bounce house rentals cincinnati
Obrázek uživatele Anonym
Anonym
7. 3. 2019
This blog website is pretty cool! How was it made ! canna line
Obrázek uživatele Anonym
Anonym
7. 3. 2019
Pretty nice post. I just stumbled upon your weblog and wanted to say that I have really enjoyed browsing your blog posts. After all I’ll be subscribing to your feed and I hope you write again soon! canna line
Obrázek uživatele Anonym
Anonym
7. 3. 2019
Pretty nice post. I just stumbled upon your weblog and wanted to say that I have really enjoyed browsing your blog posts. After all I’ll be subscribing to your feed and I hope you write again soon! canna line
Obrázek uživatele Anonym
Anonym
7. 3. 2019
Pretty nice post. I just stumbled upon your weblog and wanted to say that I have really enjoyed browsing your blog posts. After all I’ll be subscribing to your feed and I hope you write again soon! Cannaline
Obrázek uživatele Anonym
Anonym
10. 3. 2019
Thanks for your insight for your fantastic posting. I’m glad I have taken the time to see this. Amber Park
Obrázek uživatele Anonym
Anonym
10. 3. 2019
Best work you have done, this online website is really cool with great facts. Amber Park floor plan
Obrázek uživatele Anonym
Anonym
10. 3. 2019
I got what you mean , thanks for posting .Woh I am happy to find this website through google. Amber park location
Obrázek uživatele Anonym
Anonym
9. 4. 2019
Best work you have done, this online website is really cool with great facts. latest technology news
Obrázek uživatele Anonym
Anonym
10. 4. 2019
I'm glad to see the great detail here!. health articles
Obrázek uživatele Anonym
Anonym
10. 4. 2019
I'm glad to see the great detail here!. health articles
Obrázek uživatele Anonym
Anonym
10. 4. 2019
I'm glad to see the great detail here!. future technology news
Obrázek uživatele Anonym
Anonym
11. 4. 2019
Excellent article. Very interesting to read. I really love to read such a nice article. Thanks! keep rocking. Roof Replacement Contractor
Obrázek uživatele Anonym
Anonym
11. 4. 2019
Exactly, you're very kind of us about comment!. Indianapolis roofing
Obrázek uživatele Anonym
Anonym
11. 4. 2019
Exactly, you're very kind of us about comment!. Indianapolis roofing
Obrázek uživatele Anonym
Anonym
11. 4. 2019
I have read your blog it is very helpful for me. I want to say thanks to you. I have bookmark your site for future updates. ahealthytalk.com
Obrázek uživatele Anonym
Anonym
11. 4. 2019
I gotta favorite this website it seems very helpful . Healthy Talk
Obrázek uživatele Anonym
Anonym
11. 4. 2019
I gotta favorite this website it seems very helpful . Healthy Talk
Obrázek uživatele Anonym
Anonym
14. 4. 2019
Thanks for your post. I’ve been thinking about writing a very comparable post over the last couple of weeks, I’ll probably keep it short and sweet and link to this instead if thats cool. Thanks. Lawyers
Obrázek uživatele Anonym
Anonym
14. 4. 2019
Thanks for your post. I’ve been thinking about writing a very comparable post over the last couple of weeks, I’ll probably keep it short and sweet and link to this instead if thats cool. Thanks. Lawyers
Obrázek uživatele Anonym
Anonym
17. 4. 2019
You make so many great points here that I read your article a couple of times. Your views are in accordance with my own for the most part. This is great content for your readers. latest tech
Obrázek uživatele Anonym
Anonym
17. 4. 2019
including reasonable comments here... technology updates
Obrázek uživatele Anonym
Anonym
17. 4. 2019
including reasonable comments here... technology updates
Obrázek uživatele Anonym
Anonym
22. 4. 2019
I learn some new stuff from it too, thanks for sharing your information. Cheap Condos for sale Lapu Lapu City
Obrázek uživatele Anonym
Anonym
23. 4. 2019
This is really a nice and informative, containing all information and also has a great impact on the new technology. Thanks for sharing it mlb live streaming
Obrázek uživatele Anonym
Anonym
23. 4. 2019
This is really a nice and informative, containing all information and also has a great impact on the new technology. Thanks for sharing it mlb live streaming
Obrázek uživatele Anonym
Anonym
24. 4. 2019
I got what you mean , thanks for posting .Woh I am happy to find this website through google. 2019 Mercedes Benz C300 Facelift AMG

Přidat komentář

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback