Současnost a budoucnost vyhledávání na internetu v historické perspektivě

Efektivní vyhledávání dat a informací je jednou z nejdůležitějších činností, bez kterých se informační společnost nemůže obejít. Dnes můžeme reflektovat význam vyhledávání pro demokracii či kulturní rozvoj, ale stejně tak nemůžeme upozaďovat jeho ekonomický rozměr. Pro Google představuje většinu příjmu, pro řadu dalších společností je pak cestou, jak na své webové stránky dostat co možná nejvíce uživatelů.

Historie

Když Tim Berners-Lee přišel s konceptem hypervazeb mezi dokumenty,[1] bylo základní myšlenkou vytvořit jednotný informační systém, který bude představovat základní podporu pro výzkum především v oblasti částicové fyziky. Velice rychle se ale ukázalo, že myšlenka z roku 1989 zrozená v CERNu, má podstatně větší ambice a objem stránek rychle narůstal. Původní myšlenka vytvořit speciální stránku, na kterou budou dopisovány ručně novinky, se ukázala být jako neudržitelná a tak se začíná hovořit o prvních internetových vyhledávačích.

První nástrojem, který měl sloužit pro vyhledávání na internetu byl Archie,[2] jehož název je odvozen z Archive, ovšem s vypuštěním písmene „v“ a byl spuštěn již v roce 1990. Umožňoval indexovat FTP archivy a prohledávat konkrétní soubory. Nevýhodou byla absence automatizované zpracování dat, což se brzy ukázalo jako zásadní limita. Na tento nástroj postupně navazuje Veronca a Jughead (rok 1991), které zdokonalují princip fungování Archie.

V roce 1993 přichází technologie World Wide Web Wanderer, která umožňuje jako první automatickou indexaci obsahu roboty, což představovala zásadní skok, neboť již nebylo nutné každou položku zvlášť přidávat a pěstovat složité mechanismy hledání stránek nových.[3] Dalším významným milníkem ve vyhledávání byl nástup Primitive Web Search[4] na konci téhož roku, který jako první zavedl systém dynamického ohodnocování stránek, které pak mělo vliv na zobrazené výsledky.

Rok 1994 je možné vnímat jako přelomový v tom slova smyslu, že vyhledávače přecházejí z akademického prostředí a spíše okrajového využití ke skutečným obchodním modelů a službám pro širokou veřejnost v tomto roce vznikají služby jako Altavista, Yahoo search či Lycos.[5] Současně se začínají mimo klasických vyhledávačů objevovat také katalogy, které celý trh vyhledávání do určité míry ovládnou až do přelomu tisíciletí.

V roce 1996 je založen Google, krátce po něm pak také Ask. O dva roky na to se objevuje velký projekt Microsoftu MSN, který se postupně transformuje přes LiveSearch (2006) až do dnešního Bing (2009). Vrchol katalogového vyhledávání je pak možné vidět v projektu DMOZ v roce 2008, který pracuje s myšlenkou velkého katalogu stránek, které jsou recenzovány a editovány pověřenými uživateli pro jednotlivé kategorie.

Shrnutí

Pokud bychom tedy měli provést určitou syntézu zásadních vývojových větví internetového vyhledávání, tak lze říci, že snaha o klasické vyhledávání na základě metadat či přímo obsahu existovala téměř od počátku webu. Zásadním zlomem bylo zavedení robotického zpracování a automatické hodnocení obsahu, což vedlo k existenci moderních vyhledávacích strojů, kterými je například dnešní Google.

V tomto historickém kontextu vzniká pojem hide (či deep) webu, kterým je chápána ta část internetu, která nemůže být z různých důvodů vyhledatelná klasickými nástroji. Je přitom třeba zdůraznit, že obsah tohoto pojmu se velice intenzivně vyvíjí s tím, jak se rozšiřují možnosti jednotlivých vyhledávacích nástrojů. Dnes je již zcela běžné, že si poradí s PDF či DOC soubory, rozvíjí se technologie na analýzu obsahu videí atp.

Významným milníkem byly také předmětové katalogy a to hned ve dvou ohledech. V polovině devadesátých let se staly integrální součástí portálových řešení, která umožňovala běžným uživatelům přístup k bohatému spektru webových stránek. V tomto ohledu stojí za rozvojem internetu jako produktu pro masivní konzumaci, zábavu a obchod. Okolo roku 2000 pak jejich význam postupně upadá a vytvářejí prostor pro fulltextové vyhledávací stroje.

Poslední zajímavou historickou zkušeností, kterou na tomto místě je dobré zmínit je problematika zpracování přirozeného jazyka. První vyhledávač, který podporoval dotazy v přirozeném jazyce, byla již v roce 1994 Altavista, následovaná v roce 1997 projektem Ask. Paradoxně ani jeden z nich nepřinesl lepší výsledky než běžné vyhledávání a tyto vyhledávače témě upadli v zapomnění. Dnes se ale snahy o tento princi práce s informačním vyhledáváním stále vrací – od znalostních systémů, přes hlasové zpracování až po nejrůznější experimenty typu Google Now či Siri.[6]

Současnost vyhledávání

Již výše jsme naznačili určité trendy či skutečnosti, které determinují současný stav webového vyhledávání. Prim dnes hrají zcela jednoznačně fulltextové vyhledávače a katalogy přežívají jen ve velice úzkých oblastech, které jsou obvykle náročné na nějakou lidskou referenci. Příkladem může být katalog řemeslníků,[7] u kterých je důležitá reference na kvalitu více, než rychlé nalezení kompletního seznamu nebo například katalog knihovní.

Pokud bychom měli identifikovat některé oblasti soupeření vyhledávacích strojů mezi sebou, tak lze identifikovat několik základních oblastí, které se jeví jako klíčové. Předně je to kvalita robotů a s nimi související velikost a kvalita indexů. Bez maximálního a aktuálního indexu si lze efektivní vyhledávací stroje představit jen velice obtížně. Jde přitom o činnost, která je z hlediska finanční náročnosti pro provozovatele zřejmě nejvýznamnější.

Druhým klíčovým parametrem je posuzování relevance a kvality jednotlivých stránek a s tím související jejich řazení ve výsledcích vyhledávání. Google má svůj Page Rank, český Seznam Srank a podobné indexy mají také všechny další vyhledávací stroje. Jde zpravidla o číslo, jehož výše určuje kvalitu zdroje. Počítá se z počtu a kvality odkazovaných stránek a některých dalších pravidel a jeho stanovení by mělo vést k co možná nejpřesnějším výsledkům. Dnes jsou (například díky Google) započítávány také další parametry, jako jsou záznamy z předchozích činností uživatele. Ten kdo se zajímavá o LaTeX pod tímto klíčovým slovem najde zřejmě informace o jazyku pro sazbu textových dokumentů, zatímco většině ostatních se zobrazí informace o bílé tekutině vznikající v mléčnicích některých rostlin, která se používá k nejrůznějším módním i technickým účelům. Tento rozměr personalizace vyhledávání je mimořádně zajímavý a poslední části, která se bude věnovat trendům a budoucnosti, se k němu ještě podrobněji vrátíme.

Další oblastí soutěžení je nepochybně také rozmanitost dat, která lze prohledávat a zpracovávat. Lze v ní identifikovat jednak podporu různých formátů, které nevychází z klasického (X)HTML. Po nástupu masivního OCR zpracování dokumentů se v této oblasti objevil velký pokrok, který umožňuje relativně podrobně vyhledávat také v textových dokumentech, presentacích, PDF souborech či dokonce v některých obrázcích. V tomto ohledu lze říci, že nejúspěšnější firmou současnosti je nepochybně Google.

Jinou oblastí náročnou na vyhledávání, kterou lze označit jako semi hide web jsou například sociální sítě, které data ukládají takovým způsobem, aby nebylo možné je triviálně indexovat a prohledávat. Zatímco většina komunikace na Facebooku je z hlediska obecného přínosu pro vyhledávání nepříliš důležitá, například Twitter je z tohoto hlediska mnohem lukrativnějším.[8] Možnost vyhledávání v nich se zpravidla řeší partikulárními smlouvami a navrch má naopak Bing.

Pokud hovoříme o porovnávání dvou největších vyhledávačů na světě – Google a Bing, je na místě se zmínit o jejich podílu na trhu. Google se již několik let pohybuje těsně nad 80 % jak v desktopovém, tak také mobilním vyhledávání, zatímco Bing má (spolu s Yahoo) okolo 13-15 %.[9] Existují ale také místní projekty, které zajišťují především lokální vyhledávání a v globální síti mají data od partnerů. Za všechny lze zmínit ruský Yandex, čínské Baidu nebo český Seznam.

Právě monopolní postavení Google v oblasti vyhledávání je vnímáno často negativně (ostatně jako existence každého jiného monopolu nepřispívá rozvoji trhu) a společnost se proto často ocitá pod různými tlaky na zásahy do konkrétních vyhledávacích mechanismů.

Z hlediska soutěže prohlížečů je možné také porovnávat kvalitu uživatelského rozhraní, existenci pokročilého vyhledávání nebo filtrování obsahu podle stanovených kritérií. Své opodstatnění mají také náhledy na stránky, které mohou zjednodušit a urychlit praktické procházení webů ze strany uživatelů.

Vyhledávání multimediálního obsahu

Vyhledávání a řazení textových dat je v zásadě nepříliš zajímavou oblastí, protože existuje jasná představa, jak by asi mělo vypadat. V tomto ohledu lze říci, že mnohem více prostoru pro alternativní přístupy ve vyhledávání nabízí problematika multimediálních dat. První oblastí, o které se zmíníme nejpodrobněji, je práce s obrázky.

Při hledání obrázků je možné využít tři „klasické“ cesty. Předně je to vyhledávání pomocí názvu obrázku a jeho HTML popisku (parametr alt u tagu <img>). Problémem je, že tento popisek má i jiný význam než metadatický pro vyhledávací stroje. Využívají ho například nevidomí uživatelé, lidé s nekorektně nastaveným prohlížečem, uživatelé textových browserů a mnozí další. Problémem této metody je závislost na uživatelích, kteří nejsou vždy motivováni k tomu tyto popisky vyplňovat nebo je užívají například pro SEO. V takovém případě často jejich obsah nereflektuje a snaží se jen zlepšit pozici obrázků ve vyhledávání.

Druhou variantou je mít zvlášť uložené přesné popisky obrázků. Ty lze použít většinou pouze lokálně, například ve fotobankách. Ty mají ke každému snímku seznam klíčových slov a často i větný popis. Nechybí ani zařazení do kategorií. Třetí možností, vhodnou jen pro určité speciální případy, je vyhledávání na základě EXIF informací ze snímků. To je užitečné například tehdy, pokud hledáte záběry pořízené z určitého místa - a nejlépe v určitém čase. Zde moderní fotoaparáty v EXIF popiscích přinášejí mnohé zajímavé informace. Jedním z velkých problémů je ale to, že EXIF není ISO normou a každý výrobce jej ukládá jinak a vkládá do něj jiné informace. To je pro on-line vyhledávání nepříjemné, ale překonatelné. [10]

Mimo ony zmíněné tři klasické cesty existují nové metody, které umožňuji vyhledávat obrázky efektivněji. Tyto techniky jsou většinou založeny na tom, že dominantní prvky scény proloží polynomy a porovnává jejich parametrické vyjádření mezi sebou. Někde má pak uloženo, že ta která konkrétní soustava polynomů odpovídá Eiffelově věži či rackovi. Technika je často zdokonalována pomocí analýzy barev či využíváním GPS souřadnic či dat z kompasu, která zásadním způsobem ulehčují identifikaci jednotlivých objektů. Tyto nástroje používá Google či brněnský projekt MUFIN.[11]

Velmi podobně se provádí také vyhledávání hudebních souborů či audiodat, kdy se ve stopě hledají určité charakteristické prvky či celkové obalové křivky.

Budoucnost vyhledávání

Budoucnost vyhledávání v nejbližší době bude narážet na trojici limitů, které budou vytvářet určitý rámec toho, jakým směrem se bude celá oblast ubírat – jde o omezení technická či technologická, legislativní a etická.

Z hlediska technologií lze konstatovat, že i nadále budou jistě probíhat více či méně zdařilé pokusy o implementaci funkcí pro zpracování přirozeného jazyka – dnes je již běžné hlasové vyhledávání, hledají se stále sofistikovanější metody pro práci s odpověďmi na otázky či systémy komplexních informačních analýz k tématu místo prostého souboru odkazů na webové stránky, jak můžeme vidět například u projektu Wolframapha.[12]

 

Tématem, kterému se v posledních několika let věnovalo hodně pozornosti, byl sémantický web, který měl znamenat přechod od internetu dat, kterým stroje nemohou rozumět, k internetu informací, který bude moci snadno produkovat odpovědi či dokonce vytvářet celé struktury nových tvrzení z nich odvozených. Problémem však byl nezájem administrátorů tvořit RDF soubory s patřičnými popisky a tak se dnes pozornost zaměřuje na spojení vlastních databází znalostí, které by bylo možné provázat s otevřenými zdroji dat a texty na stránkách. Pokrokem v tomto směru by měl být i přechod k HTML5, které silně odděluje obsah a vzhled dokumentu.

Zajímavou oblastí je vyhledávání v komunitních sítích a za využití komunit, což ale může narážet na problémy, které jsou spojené s ochranou soukromí. Obecně můžeme říci, že čím více informací bude o uživateli vyhledávací stroj mít, tím lépe bude schopen nabídnout relevantní výsledky, ovšem za cenu ztráty soukromí, které je vnímáno, alespoň v západní civilizaci, jako důležitá hodnota.

Poslední skupinou omezení, se kterými se bude muset vyhledávání určitým způsobem vypořádat, jsou legislativní limity, které se buď snaží omezit množství informací určitého druhu, což je technika, kterou využívají především totalitní státy, nebo zajistit lepší vymahatelnost autorského práva, což lze vnímat jako leitmotiv známých smluv ACTA, SOPA či PIPA.[13] Mimoto se zde mohou některé etické a legislativní parametry prolínat, jako je tomu v případě ochrany osobních dat.

Literatura

BERNERS-LEE, Tim. Information Management: A Proposal. W3C. 1990. Dostupné z: http://www.w3.org/History/1989/proposal.html

ČERNÝ, Michal a Gabriela ŠIMKOVÁ. Fascinující možnosti WolframAlpha. Inflow : information journal [online], Brno, 2012, roč. 5, č. 10. ISSN 1802-9736.

ČERNÝ, Michal. Alternativní vyhledávání obrázků. DSL [online]. 2009 [cit. 2013-05-30]. Dostupné z: http://www.dsl.cz/clanek/1518-alternativni-vyhledavani-obrazku

ČERNÝ, Michal. Budoucnost vyhledávání: Mezi soukromím, technologií a legislativou. In INFORUM 2012: 18. ročník konference o profesionálních informačních zdrojích. Praha: Albertina icome Praha, 2012. 8 s. ISSN 1801-2213.

DEUTSCH, Peter. Archie—A Darwinian Development Process. IEEE Internet Computing., January/February 2000, 4(1):69-71. DOI: 10.1109/4236.815849. Dostupné z: http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=815849

GOOGLE. Google Now. Google [online]. 2013 [cit. 2013-05-30]. Dostupné z: http://www.google.com/landing/now/

KIM, Larry. The History of Search Engines - An Infographic. Word Stream [online]. 2010 [cit. 2013-05-30]. Dostupné z: http://www.wordstream.com/articles/internet-search-engines-history

MICROSOFT. Bing Social. Bing [online]. 2013 [cit. 2013-05-30]. Dostupné z: http://www.bing.com/social?s=1

NejŘemeslníci. TRUSTYARD. NejŘemeslníci [online]. 2013 [cit. 2013-05-30]. Dostupné z: http://www.nejremeslnici.cz/

NETMARKETSHARE. Market Share Statistics for Internet Technologies [online]. 2013 [cit. 2013-05-30]. Dostupné z: http://marketshare.hitslink.com/

ZEZULA, Pavel. Future Trends in Similarity Searching. In Gonzalo Navarro and Vladimir Pestov. Proceedings of the Simimarity Search and Applications 2013. Heidelberg: Springer, 2012. s. 8 - 24, 17 s. ISBN 978-3-642-32152-8. doi:10.1007/978-3-642-32153-5_2.



[1] BERNERS-LEE, Tim. Information Management: A Proposal

[2] DEUTSCH, Peter. Archie—A Darwinian Development Process.

[3] LAMACCHIA, Brian. Internet Fish.

[4] KIM, Larry. The History of Search Engines - An Infographic.

[5] Tamtéž.

[6] GOOGLE. Google Now.

[7] Příkladem mohou být například katalogy NejŘemeslníci.

[8] MICROSOFT. Bing Social.

[9] Viz data NETMARKETSHARE. Market Share Statistics for Internet Technologies.

[10] ČERNÝ, Michal. Alternativní vyhledávání obrázků.

[11] ZEZULA, Pavel. Future Trends in Similarity Searching.

[12] ČERNÝ, Michal a Gabriela ŠIMKOVÁ. Fascinující možnosti WolframAlpha.

[13] Podrobněji v ČERNÝ, Michal. Budoucnost vyhledávání: Mezi soukromím, technologií a legislativou.

Fotogalerie

Líbil se vám článek?
Stáhnout článek v PDF

0 komentářů

Přidat komentář

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback