Google Refine a velký podzimní úklid

Nástroj Google Refine je distributorem popisován jako "power tool for working with messy data". Úkolem tohoto týdne bylo tedy otestovat, jak moc "messy" data tento nástroj zvládne.

Pro začátek si neodpustím poznámku, že kdokoliv z České obchodní inspekce vytvářel dataset s výsledky kontrol, neodvedl zrovna nejlepší práci. Nekompletní údaje (protože spotřebitel určitě nepotřebuje vědět, kde přesně v Praze tato konkrétní kontrola proběhla), vícero způsoby zaznamenaná adresa (Nám. Míru a Náměstí Míru? Tak určitě...), ignorace předdefinovaných sloupců (aneb číslo popisné jako součást názvu ulice určitě nebude problém), a spousta dalších failů se jeví být neoddělitelnou součástí tohoto datasetu.

Pořádně vyčistit tato data by byl běh na velmi dlouhou trať, alespoň o základní "úklid" se ale pokusit můžeme.

Nejprve jsem se pokusila minimalizovat počet prázdných buněk, a to tak, že jsem si postupně rozklikla sloupce "Kraj", "Okres" a "Obec" a podle PSČ či rozdělením informací koncentrovaných v jediném sloupci jsem u všech, kde to bylo možné, ručně zaplnila i prázdné buňky (např. podle PSČ doplnila "Obec", apod.). HATE ALERT! Při té příležitosti opět musím složit "poklonu" tvůrci datasetu - netušila jsem, že i k této činnosti lze uplatnit kreativní přístup.

Dále jsem si všimla, že dataset obsahuje spoustu záznamů, které tvoří pouze jeden či dva vyplněné sloupce. Protože z tak omezeného množství údajů nelze tvořit závěry, byla dalším krokem eliminace všech řádků, které neobsahovaly celou adresu. To jsem provedla pomocí funkce "Text facet", kde jsem vyselektovala prázdné buňky a ty následně smazala.

Oříškem byly názvy ulic, na kterých se tvůrci datasetu skutečně vyřádili. Pomocí clusterizace jsem eliminovala nejobjemnější shluky (hádejte, kolika způsoby jde pojmenovat jediné náměstí!) a objem dat tak snížila skoro o 10 %. Nutno ovšem přiznat, že ani clusterizace na všechny neduhy nestačí a i tak zůstal dataset plný duplicitních záznamů, které pak bylo nutné dohledávat ručně.

Další radostí bylo oddělování čísel popisných od názvů ulic. Co naplat, že číslo popisné má svůj vlastní sloupec, u většiny adres se zkrátka vyskytovalo v jedné buňce s názvy ulic. Můj původní záměr, rozdělit sloupeček na dva, přičemž by jako oddělovač fungovalo číslo, bohužel nevyšel, proto jsem se musela uchýlit k nepatrně krkolomějšímu řešení. Sloupec s adresami jsem zkopírovala a z kopie odstranila textové prvny pomocí regulárního výrazu. A heuréka! - máme oddělen název ulice a číslo popisné.

Teď už zbývá jen spojit dohromady oba sloupečky obsahující čísla popisná. To uděláme opět pomocí regulárního výrazu. Stejně jako většina výše popsaných funkcí, ani tato nespojila sloupečky zcela bezchybně  a chtěli-li bychom dokonale vyčištěý dataset, bylo by nutné si data projít ručně.

Prostřednictví těchto úprav se nám podařilo dataset alespoň částečně vyčistit, ačkoliv do ideálního stavu má stále poměrně daleko. Nežádoucí variabilita záznamů bohužel způsobuje to, že je velmi těžké data čistit hromadně a takřka vždy se ve vyčištěné části vyskytne nějaký "černý pasažer". Ruční úpravy jsou v tomto případě bohužel nutností, těmi se zde ale už zabývat nebudeme.

Making Sense of Data

Abych ale tento článek nezakončila tak beznadějne, na závěr se s vámi podělím o velmi pozitivní zkušenost, kterou mám s on-line kurzem Making Sense of Data. V kurzu se účastníci dozví úplné základy datové analytiky, od pokládání vhodných otázek a uspořádání dat v tabulce, až po jejich čištění a interpretaci. V úvodu kurzu se zájemci dozví, že není nutné disponovat znalostmi statistiky, a já to mohu jen potvrdit.

V úvodu kurzu je pro uživatele připraven krátký test, v němž si ověří, co z datové analytiky již zvládají a kde mají mezery. Obsah veškerých otázek je v osnově kurzu, předpokládá se tudíž, že po dokončení kurzu by měl být uživatel schopen dosáhnut v testu plného počtu bodů.

Kurz je postaven na filosofii, že nejvíce se člověk naučí tím, že sám zkusí vyřešit nějaký problém. Každá kapitola tudíž nezačíná výkladem, ale úkolem. Až poté, co uživatel úkol (ne)splní, dostane se k výkladu, kde se dozví, jak úkoly tohoto typu správně řešit. Z mého pohledu se jedná o velmi neotřelý způsob výuky, který má mnoho výhod. Myslím, že se hodí především pro uživatele, kteří už nějaké znalosti o problematice mají a chtějí se zaměřit na to, co jim dělá problém. Chcete-li si doplnit či osvěžit vzdělání v této oblasti, můžu tento kurz jedině doporučit.

Fotogalerie

Líbil se vám článek?
Stáhnout článek v PDF

4 komentáře

Obrázek uživatele Anonym
Anonym
22. 7. 2019

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees manufacturers</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees manufacturers</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a>

https://www.madheswaransilkshop.com<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees manufacturers</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a><br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees manufacturers</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a>

<br><a href="https://www.madheswaransilkshop.com">kanchipuram silk sarees</a>

 

Přidat komentář

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback