K budoucnosti vyhledávání informací: legislativní, personální a technická omezení

Vyhledávání informací a dat prostřednictvím počítačů patří nepochybně mezi rychle se rozvíjející oblasti. Přesto je však možné hovořit o existenci limitů, které v této oblasti jsou. V zásadě je možné hovořit o legislativních, technologických a osobních omezeních.

 

Efektivní vyhledávání dat a informací je jednou z nejdůležitějších činností, bez kterých se informační společnost nemůže obejít.
V zásadě všichni vnímají jako velký problém dolování dat, neboť počítače nemají schopnost textu porozumět a pochopit jej. Umějí ho jen (lépe či hůře) analyzovat. Proto se začal stále intenzivněji budovat koncept sémantického webu, který se snaží užít XML formáty k tomu, aby bylo možné vytvořit datovou strukturu, která by byla pro počítače co možná nejpřehlednější a umožnila jim odvozování nových znalostí nebo práci s přirozeným jazykem. Do určité míry se tak otázky vyhledávání informací staly problémem čistě technologickým.

 

Je ale třeba si uvědomit, že celá problematika je podstatně složitější. Předně je třeba vzít v potaz legislativní prostředí, které je v oblasti práce s informacemi mimořádně složité a nepřehledné. S trochou nadsázky je možné říci, že jej nechápe nikdo. Výroky soudů ohledně patentových sporů se liší země od země, tribunál od tribunálu a nikdo si nemůže být ničím jist. Všichni vědí, že současná ochrana autorských práv je jaksi nedokonalá, ale jen velmi obtížně se hledá konsensus ohledně toho, jak by právní úprava měla vypadat. Vyhledávání informací je otázkou z hlediska práva velice komplikovanou také proto, že zasahuje do oblasti mezinárodního práva, ale také do legislativních norem všech stát, které v procesu vyhledávání informací libovolným uživatelem vystupují. Ať již jde o stát, kde se nachází server s daty, DNS nebo samotná počítačová síť.

Současně je třeba vidět ještě jedno omezení, které je na úrovni každého jednotlivce, jakožto lidské osoby. V západní civilizaci má většina lidí za to, že soukromí je hodnota, která má mimořádnou cenu a je třeba ji bránit. Často i za cenu, že nedostaneme maximální možný profit. Tyto tři pilíře do určité míry principiálně omezují možnosti efektivního vyhledávání dat, případně jejich dalšího zpracování. Jelikož je tento triptych často přehlížen a akcentovaná je jen jedna z jeho složek, myslím, že je nanejvýš žádoucí se pokusit alespoň o stručný celkový pohled, i když i ten bude mimořádně selektivní a neúplný. Přesto věřím, že může být pro čtenáře inspirující pro jejich další samostatné úvahy.

Technologická omezení - sémantická data v nedohlednu

Vede-li se diskuse o vyhledávání informací, zřejmě největší naděje jsou vkládány do konceptu sémantického webu či desktopu (ten je méně známý, ale relativně podrobně jsme se mu věnovali [1]). Oba jsou založeny v zásadě na stejné myšlence. Vytvořit databází znalostí, ve které budou udržovány nejen jednotlivé entity, ale také vztahy mezi nimi. Princip odvozování nových informací by byl řešen (alespoň do určité míry) prostřednictvím logického odvozování, tak jak je známé například z jazyka Prolog.

Samozřejmostí by měla být v budoucnu pěstovaná umělá inteligence, která by uměla provádět stále lepší rezoluci. Technologicky je možné v pozadí již zde vidět první problém. Velké databáze, které mají být rozumě rychlé není možné tvořit pomocí SQL databázových systémů, které jsou spolehlivé, komplexní, ale nepříliš rychlé. Proto jsou často doplňovány (či nahrazovány) NoSQL databázemi, které umožňují pracovat s daty se složitou vnitřní strukturou (ty v SQL nejde rozumným způsobem nijak zpracovat), užívá se model key-value (jednoduché, rychlé, ale stereotypní), síťové databáze (pracují s entitami a jejich vztahy) a řada dalších.

Tyto databáze v zásadě fungují a běžně se užívají (Red Hat, LinkedIn, Twitter, Facebook a další), ale ukazuje se, že daň za strukturovaně uložená data je malá rychlost, za rychlé databáze, pak možnost vyhledávat jen podle jednoho klíče, tedy malá flexibilita. V zásadě je možné říci, že na úrovni databází znalostí není zatím žádné komplexně funkční řešení, které by bylo použitelné pro sémantický web.

Druhým problémem je, že se autorům nechce sémantické informace k dokumentům připojovat. Je to pomalé, finančně neefektivní a proto zatím zbytečné. O konceptu sémantického webu se mluví již hodně dlouho a zatím je možné vidět jen několik málo dílčích úspěchů, které spíše připomínají jeden z pilířů sémantického webu - prostupnost dat skrze formáty (např. iCal), než původně plánované vyhledávání v přirozeném jazyce.

Současné trendy jsou překvapivě takové, že se sémantickým webem úplně nepočítají. Má docházet k stále lepšímu popisu dokumentů a objektů (parametr alt v HTML), ale nikoli k  nějaké velké sémantizaci. Co se daří u HTML 5, které postupně přebírá otěže dominantní webové technologie, tak oddělení obsahu od vzhledu. Díky atributům bude možné snadno odlišit článek, rozhovor a třeba navigační menu či patičku webu. Jde o velice dobrý krok směrem ke strojovému zpracování dat, ale také pro přístupnost webu nevidomým osobám či slabozrakým.

HTML 5 tak představuje jednoznačně pozitivní pokrok v tom, jak je možné s webem v budoucnu pracovat - bez Flash, ze kterého nikdo nic strojově nepřečte, bez designu plného tabulek, ve kterých se nemá šanci stroj vyznat a případně bez dynamicky se měnících skriptů, jenž lze systematicky analyzovat také jen velmi obtížně. Nová technologie umožňuje oddělit vzhled od obsahu (plně) a u konkrétního obsahu navíc velice dobře specifikovat, co je to zač.

Jestliže se dnes intenzivně pracuje na prohledávání a analýze multimediálních dat, tak HTML 5 nabízí možnost jednoduchého spojení textu s těmito informacemi do logického celku velice jednoduše a elegantně. Připojuje se tedy alespoň základní logická struktura k dokumentu, což je pro strojové zpracování mimořádně důležité a užitečné.

 

Legislativní omezení

Zatímco se všude hovoří o Open Access a otevřeném přístupu k informacím, skutečnost je o poznání složitější. Osobně si myslím, že je třeba rozlišit dvě základní skutečnosti. Především jsou to země, které na základě svého politického zřízení (nedemokratického) zabraňují občanům k přístupu k informacím zcela obecně a systematicky. Může to být na základě literární cenzury, technických prostředků (Čínský firewall) nebo blokováním vybraných služeb internetu, které vyhledávání informací umožňují (Čína, Írán, Sýrie a řada dalších). Pro obyvatele těchto států je problémem dostat se k jakýmkoli informacím a legislativní omezení představuje vůbec největší překážku.

Druhou skupinou zemí jsou demokratické společnosti, které z různých důvodů neumožňují přístup ke všem informacím - ať již z důvodu ochrany autorských práv, bezpečnosti či jiných. Na ty se nyní pokusíme podívat alespoň trochu podrobněji a to především v kontextu zkratek SAPA, PIPA či ACTA, které jsou dnes všeobecně známé a hojně diskutované. Ač je dnes téměř jisté, že nebude platit žádná z nich, má přesto význam se jim alespoň krátce věnovat, neboť naznačují směr, jakým se bude celá problematika do budoucna vyvíjet. Ostatně další normy jako je Euro-ACTA se aktuálně diskutují.

SOPA a PIPA [2] [3] [4] jsou relativně přesné právní dokumenty, jejichž platnost byla omezena na území Spojených států. V zásadě je možné vysledovat několik společných motivů. Předně je to převedení povinnosti aktivně vyhledávat obsah, který porušuje autorská práva na provozovatele webu. V současnosti platí DMCA, která říká, že provozovatel je povinen po upozornění obsah odstranit. Nyní by byl povinen jej sám aktivně vyhledávat a zabraňovat tomu, aby se na webu objevil. Weby, které tak nebudou činit mohou být zablokovány.

To je první velice sporný bod, neboť umožňuje zablokování webu na základě útoku (třeba na diskusní fórum), který by byl následně řešen soudní cestou. Samotné blokování webů mimo území USA by mělo být řešeno na úrovni DNS, což je technicky dost obtížně možné. Ač by bylo zřejmě možné se na weby dostat, významně by to zpomalilo celý internet a možnosti jakéhokoli hromadného zpracování. [4]

Druhým významným bodem byla samotná představa filtrování obsahu. Podle norem by měla ochrana autorských práv (respektive jejich vykonavatelů), přednost před ochranou soukromí. Osobně si myslím, že zde je jeden z největších problémů současných diskusí. Zda je možné materiální hodnotu nadřadit soukromí a svobodě člověka. Můj soukromý názor je takový, že nikoli.

Posledním důležitým bodem, který je důležitý pro zpracování informací (a který byl obsažen také v ACTA) je posílení role DRM (digitální ochrana proti kopírování). V zásadě by nemělo být možné DRM obcházet, popisovat způsoby jejího obejití ani nabízet software, který toto umí. Pokud budou trhu stále více dominovat knihy s DRM ochranou, lze si jen dost obtížně představit jejich digitální zpracování, pokud nebude možný jejich převod do jiného formátu. Celý proces se neúměrně prodlouží, prodraží a jeho efektivita klesne. [2] [3]

Objektivně hovořit ohledně ACTA [5] je v zásadě nemožné, neboť jde o amorfní dokument, který umožňoval řadu konkrétních implementací na úrovni států, čímž se stal naprosto nejasným. Tím, že jej Polsko zamítlo ztratila tato dohoda mezinárodního charakteru na významu.

Pokud půjde o budoucnost vyhledávání a zpracovávání informací, pak je možné říci, že právě legislativní normy budou jedním z největších limitujících faktorů. Ať již ochranou autorských práv, jejich vynucováním, nebo také řadou dalších úprav. Ty umožňují budování profilů na sociálních sítích, které nelze přenést nikam jinam nebo je hlouběji analyzovat (současné nástroje jsou zoufale neefektivní, autoři snad prominou).

 

Personální a etický rozměr

Ukazuje se, že pro řadu lidí je soukromí stále překvapivě mimořádně důležitá hodnota, které se nechtějí dobrovolně vzdát. Příkladem může být nevole, které se objevila ohledně integrace dat z různých služeb Google do jednoho balíčku. Sémantický desktop, stejně jako řada dalších technologií, do velké míry nakládají s osobními údaji, na které jsou lidé citliví. Nemají zájem ani o personalizované vyhledávání, a to i přesto, že by poskytovalo lepší výsledky.

Představa spojení soukromých dat a jejich interakce s veřejnými zdroji se tak dnes jeví jako velmi problematická a to nikoli technologicky, ale především personálně. Samozřejmě, že by podobné služby otevřely řadu otázek etických otázek, kterým se nyní nemůžeme věnovat. Ochrana soukromí tak bude hrát zřejmě velmi významnou roli v tom, do jaké míry budou lidé ochotni si nechat přizpůsobit výsledky vyhledávání na míru. Současně je třeba chápat také to, že jsou zde limity jednotlivých lidí, kteří vyhledávání provádějí. To oni jsou zdrojem příjmů a pro ně budou upravovány moderní vyhledávací stroje.

 

Závěr

Budoucnost vyhledávání informací není samozřejmě černá. Rozvíjejí se vyhledávače zkoušející zpracovávat přirozený jazyk, pracující s obrázky, videem či zvukem. [6] Existují ale limity, které se často nacházejí mimo běžné chápání čistě technických možností, jež budou mít na rozvoj vyhledávání informací a dat na internetu nemalý vliv.

 

[1] ČERNÝ, Michal. Stručný úvod do konceptu sémantického desktopu. Inflow: information journal [online]. 2011, roč. 4, č. 12 [cit. 2012-02-23]. Dostupný z WWW: <http://www.inflow.cz/strucny-uvod-do-konceptu-semantickeho-desktopu>. ISSN 1802-9736.

 

[2] ČERNÝ, Michal. PROTECT IP Act: konec svobodného internetu?. In: Root[online]. Internet Info, 25. 1. 2012 [cit. 2012-02-23].  Dostupné z: <http://www.root.cz/clanky/protect-ip-act-konec-svobodneho-internetu/> ISSN 1212-8309.

 

[3] ČERNÝ, Michal. SOPA: Skryté Odepření Práv (nejen) Američanům. In: Root[online]. Internet Info, 18. 1. 2012 [cit. 2012-02-23].  Dostupné z: <http://www.root.cz/clanky/acta-slozita-cesta-k-ratifikaci-a-prakticky-dopad/> ISSN 1212-8309.

 

[4] ČERNÝ, Michal. ACTA: složitá cesta k ratifikaci a praktický dopad. In: Root[online]. Internet Info, 31. 1. 2012 [cit. 2012-02-23].  Dostupné z: <http://www.root.cz/clanky/acta-slozita-cesta-k-ratifikaci-a-prakticky-dopad/> ISSN 1212-8309.

 

[5] ČERNÝ, Michal. ACTA:  kontroly na hranicích i trestné pirátství pro vlastní potřebu. In: Root[online]. Internet Info, 30. 1. 2012 [cit. 2012-02-23].  Dostupné z: <http://www.root.cz/clanky/acta-kontroly-na-hranicich-i-trestne-piratstvi-pro-vlastni-potrebu/> ISSN 1212-8309.

 

[6] ČERNÁ, Zuzana, ČERNÝ, Michal. Principy vyhledávání informací na internetu. Metodický portál: Články [online]. 06. 12. 2011, [cit. 2012-02-23]. Dostupný z WWW: <http://clanky.rvp.cz/clanek/c/G/14533/PRINCIPY-VYHLEDAVANI-INFORMACI-NA-INTERNETU.html>. ISSN 1802-4785. 

 

Líbil se vám článek?
Stáhnout článek v PDF

0 komentářů

Přidat komentář

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback