Srovnání automatické a intelektuální indexace

Tato práce popisuje jednu z významných oblastí selekčních jazyků – indexaci dokumentů - přičemž se zabývá indexací automatickou a intelektuální, snaží se zmínit výhody i nevýhody obou typů indexace, a také je vzájemně porovnává a vyhodnocuje. V práci je dále nastíněn i možný budoucí vývoj procesů indexace, jež jsou v současné době (navzdory hledání možných řešení) stále ještě popisovány jako poměrně nedokonalé.

Úvod

 Indexace dokumentu (někdy se také uvádí pod názvy heslování či indexování) je dle definice České terminologické databáze knihovnictví a informační vědy

Proces vyjádření obsahu dokumentu pomocí prvků selekčního jazyka, obvykle s cílem umožnit zpětné vyhledávání. Podle použitých metod se rozlišuje pojmová a slovní indexace, podle použitých postupů se rozlišuje intelektuální, automatická a poloautomatická indexace. Z hlediska použitých selekčních jazyků se rozlišuje prekoordinovaná indexace a postkoordinovaná indexace.[1]

Řečeno jinými slovy - jedná se o proces umožňující lepší, efektivnější či kvalitnější vyhledání dokumentu. Indexování je ve valné většině případů popisováno jako systém, kdy

  • nejprve určíme předmět dokumentu
  • a následně vyjádříme tento předmět lexikálními jednotkami selekčního jazyka

Vzhledem k tématu této práce je nutno definovat také indexaci automatickou a intelektuální. V České terminologické databázi knihovnictví a informační vědy je uvedeno následující - automatická indexace je podle zmíněného zdroje

proces indexace realizovaný pomocí automatických postupů ve všech jeho fázích, tj. při výběru relevantních výrazů z textu v přirozeném jazyce a přiřazování termínů řízeného slovníku.[2]

Ekvivalentně tomu by se dal vyjádřit proces indexace intelektuální (přestože ve jmenované databázi není definice termínu uvedena) jako

Proces indexace realizovaný pomocí intelektuálních postupů ve všech jeho fázích, tj. při výběru relevantních výrazů z textu v přirozeném jazyce a přiřazování termínů řízeného slovníku. 

Pro úplnost dodávám ještě definici poloautomatické indexace, což je dle TDKIV „Proces indexace spočívající v kombinaci automatických a intelektuálních postupů."[3], avšak tímto typem indexace se již v dalším průběhu práce zabývat nebudu.

Automatická i intelektuální indexace mají pochopitelně určité výhody i nevýhody, své světlé i stinné stránky, na něž bych se chtěl v následujících řádcích zaměřit a určitým způsobem je vyhodnotit, stejně jako se - alespoň v krátkosti - zmínit o moderních trendech z oblastí indexování dokumentu v návaznosti na fakta dříve vyřčená.

Automatická indexace

Jak jsem již načrtnul v úvodu, proces automatické indexace (automatic indexing, machine-aided indexing,  computer-aided indexing) je realizován pomocí automatických postupů, tedy za využití počítačových programů a informačních technologií. Jeho počátky sahají již do cca padesátých let minulého století a v dnešní době provázené významným rozvojem internetu a informačně-komunikačních technologií (a tedy i elektronických dokumentů) se zdá být tento proces již zcela nezbytným a nevyhnutelným. O hlavních přednostech automatické indexace snad nikdo nepochybuje - je vysoce efektivní, rychlá, účinná a levná; vývoj „automatických indexátorů" se navíc neustále zkvalitňuje, nicméně i tak se neustále hovoří o značných mezerách, které v sobě popisovaný postup skrývá. Jednou z hlavních - a nutno podotknout, že oprávněných - připomínek, je skutečnost, že počítač zatím stále nedokáže zpracovávanému textu porozumět natolik jako člověk, nedokáže porozumět jeho významu. Dále je pak nutno mít na paměti (ačkoliv to významně souvisí s předchozím bodem), že existuje celá řada slovních spojení, jež mají význam pouze jako celek, nikoliv jako jednotlivá slova sama o sobě, což také určitým způsobem komplikuje situaci a musí se zákonitě promítat i do tvorby algoritmů a obsahu slovníků, s nimiž počítače pracují. Stroje navíc nejsou schopny účinně reagovat na rozmanité požadavky různých uživatelů, resp. rozličných skupin uživatelů. Proto se v procesu automatické indexace objevují zejména následující problémy[4]:

  • text obsahuje pojmy, které nejsou explicitně vyjádřeny
  • text obsahuje slova, která nejsou zhlediska obsahu dokumentu relevantní
  • text obsahuje nepřímé odkazy na jiné části téhož textu nebo na jiné texty
  • řada slov je synonymních nebo naopak homonymních
  • význam slov se mění včase nebo mezi jednotlivými dokumenty
  • text vpřirozeném jazyce obsahuje slova vrůzných tvarech daných mluvnickými kategoriemi (číslem, rodem, flexí, apod.)

Kvalitě automatické indexace (přestože kvalita je v tomto případě faktorem ryze
relativním) jistě neprospívá ani skutečnost, že je při ní užíváno určitých metod, jež celý proces významně zjednodušují (např. kvůli urychlení práce). Nicméně je nutno
podotknout, že některé výše zmíněné problémy lze leckdy účinně řešit - takovýto zásah ze strany indexátora však zmíněný typ indexace zařazuje spíše než do oblasti automatické indexace do kategorie poloautomatické či hybridní. Tento způsob indexování je založen na skutečnosti, že indexátor-člověk dostane strojově vypracovaný seznam výrazů, které jsou určeny pro výběr indexačních termínů.

Dále bychom zde mohli popsat problém, který se při letmém zamyšlení nemusí zdát problémem zas až tak velikým, avšak opak je pravdou. Při analýze dokumentu musí počítačový algoritmus odlišovat jednotlivá slova, což se může zdát v našem systému písma poměrně jednoduchým úkolem (pomineme-li určité „kritické situace", jimiž jsou např. různé zkratky, oddělovače, spojovací znaménka, horní a dolní indexy, apod.). Nicméně kupříkladu v čínštině či jiných jazycích, kde jednotlivé znaky představují spíše slabiky či jiné větší části slov, se zdá být problém rozpoznání hranic mezi jednotlivými slovy mnohem komplikovanějším než je tomu v latince.

Při indexaci samotné a vytváření selekčního obrazu dokumentu pak musí počítač mj. vyřadit tzv. stop-slova (spojky, předložky a podobné větné členy; v angličtině jsou to např. i členy jako „the", „a", „an", apod.), což může snížit objem indexovaného textu skutečně znatelně. Toto číslo se však mezi jednotlivými jazyky (ale i mezi jednotlivými databázemi) pochopitelně liší. Některé databáze (v anglickém jazyce) stanovily počet stop-slov na osm („and", „an", „by", „from", „of", „or", the", „with"), někde se však uvádí ještě méně.[5]

Skutečnosti zmíněné ve dvou předchozích odstavcích, pak poukazují na fakt, že tyto, pro lidského indexátora prakticky nepostřehnutelné problémy, jsou při indexaci automatické značným oříškem, který je nutno ke spokojenosti všech vyřešit - v opačném případě hrozí, že bude indexace provedena nedokonale.

Intelektuální indexace

Intelektuální indexace je z hlediska kvality (kvalitní indexace = indexace, která zajistí vyhledání dokumentu) neporovnatelně lepší než automatická, člověk se dokáže vyhnout výše uvedeným problémům. Oproti tomu se zde vynořuje značné množství otázek, které se u indexace automatické z pochopitelných důvodů nevyskytují. Jedná se např. o skutečnost, že člověk není bohužel schopen vyhodnocovat a následně indexovat dokumenty stejnou rychlostí jako stroj, pročež je užití indexace intelektuální značně problematické. Kromě toho se zde vyskytují různé objektivní i subjektivní faktory, jež se u různých jedinců vyskytují v rozdílném poměru (na kvalitu indexace nemusí mít stejný vliv, spíše naopak). Člověk v průběhu indexace využívá své znalosti, své zkušenosti, dokáže porozumět významu dokumentu a uvažovat o něm, je schopen vyhledávat skryté souvislosti v textu i souvislosti mezi jednotlivými dokumenty.

Jedním z nejobvyklejších názorů na proces intelektuální indexace je následující tvrzení: Indexátor vnímá text, interpretuje zprávu v něm zakódovanou podle toho, jak ji chápe (přičemž je ovlivněn předešlými i současnými zkušenostmi a znalostmi) a následně popíše svou verzi této zprávy podle určitých pravidel a vzorců, přičemž ji převede do předem specifikovaného formátu.[6] Někdy je také uváděno, že se schopnosti „správného" indexování nelze naučit a že tyto schopnosti vyplývají zejména ze způsobů myšlení, jež jsou pro konkrétního jedince typické.

Obecně se tedy dá říci, že člověk v průběhu indexace interpretuje daný text podle svých osobních znalostí a zkušeností, přičemž je silně ovlivňován kulturou a prostředím, v němž žije (jak uvádí Anderson a Peréz-Carballo, „An index based on human indexing may not travel well between cultures. A freedom fighter in one culture may be a terrorist in another" [7]). Zmíněné tvrzení se dá aplikovat i na indexaci automatickou (např. nastavení slovníku, tezauru, apod.), nicméně je to stále člověk, kdo podobné kroky vytváří.

Zmiňme nyní některé objektivní faktory, které intelektuální indexaci ovlivňují. Patří mezi ně např.[8]:

  • zkušenosti svěcným zpracováním dokumentů
  • zkušenosti skonkrétním selekčním jazykem
  • znalost problematiky, jež se vtextu vyskytuje
  • schopnost porozumět textu dokumentu po obsahové i jazykové stránce
  • schopnost systematického, logického a analytického myšlení
  • schopnost efektivní práce sdokumentem

Neméně podstatné jsou i různé druhy subjektivních faktorů. Z nich můžeme vybrat například.[9]:

  • schopnost soustředit se
  • pozornost
  • pečlivost
  • systematičnost
  • momentální nálada, psychické rozpoložení
  • únava
  • pracovní motivace, pracovní podmínky
  • apod.

Samotný proces intelektuální indexace je bohužel nesmírně náročný (časově i intelektuálně), což prakticky znemožňuje jeho častější využívání.

Srovnání obou typů indexací

Co se týká srovnání samotného - z výše uvedeného je patrné, že využití automatické indexace nezaručuje vyšší kvalitu než indexace intelektuální, jakkoliv zde subjektivní faktory hrají určitou roli. Pokud bychom se však zaměřili na konzistenci indexace (neboli míru shody dvou nebo více selekčních obrazů dokumentu), vítězí v tomto porovnání indexace automatická - indexátoři-lidé se díky zmíněným subjektivním faktorům budou většinou shodovat mnohem méně než indexátoři-stroje s pevně nastavenými pravidly. Je tedy zcela logické, že jako ideální způsob indexace se jeví užití obou zmíněných postupů, vzájemně se doplňujících.

Klíčovým faktorem je jistě skutečnost, že lidé zkoumají dokumenty, aby posoudili zprávu, kterou text nese; počítače oproti tomu identifikují a porovnávají jednotlivé komponenty textu (neboli symboly, které text tvoří), přičemž je konzultují se slovníky, tezaury, apod., aby sadu textových komponent nakonec správně charakterizovaly.[10]

Je ovšem zajímavé, že víme mnohem více o automatické indexaci než o indexaci intelektuální. Při hlubším zamyšlení je to však poměrně logické - metody automatické indexace musí být do detailu popsány a propracovány, aby byla zajištěna jejich funkčnost a účinnost. Metody intelektuální indexace jsou oproti tomu značně subjektivní a nelze je snadno definovat - u každého jedince se liší. Zkoumání mozku, neurovědy a kognitivní vědy se sice výrazně vyvíjejí, nicméně stále ještě nejsme schopni přesně definovat všechny zákonitosti a procesy, jež se v lidském mozku odehrávají.

V následující tabulce[11] je vybráno několik faktorů, popisujících základní rozdíly mezi intelektuální a automatickou indexací:        

Faktor

Intelektuální/automatická indexace

Výhodnější je

Cena(poměr cena/dokument)

Int. - nákladnější

Aut. - levnější

Automatická indexace

Čas

Int. - náročnější na čas

Aut. - méně náročné

Automatická indexace

Množství index. Materiálu

Int. - vzhledem k časové náročnosti se člověk mnohdy zaměřuje jen na abstrakt, shrnutí, nadpisy, apod.

Aut. - bezproblémové

Automatická indexace

Úplnost

Int. - menší schopnost postihnout vše

Aut. - schopnost postihnout vše

Automatická indexace

Přesnost

Int. - méně přesné

Aut. - přesné

Automatická indexace

Schopnost postihnout kombinace termínů v textu

Int. - velké množství

Aut. - limitováno nastavením

Intelektuální indexace

Syntax

Int. - větší množství syntaktických vzorců, snadná schopnost přizpůsobit se nové terminologii

Aut. - limitováno

Intelektuální indexace

Slovní zásoba

Int. - lepší schopnost odkazovat se, spojovat synonyma, podobné termíny či příbuzná slova

Aut. - tyto schopnosti jsou slabší

Intelektuální indexace

Z tabulky se pochopitelně nedají dělat závěry o tom, zda je užití intelektuální či automatické indexace obecně lepší, má sloužit spíše jen jako určitá ilustrace daného problému. Užití automatické indexace sice „zvítězilo" ve více faktorech, avšak ty, jež se týkají jazykových schopností a dovedností, jsou pochopitelně lepší na straně člověka. Při indexování dokumentu je tedy vždy nutno vzít v potaz veškeré okolnosti, jež se daného textu dotýkají a až následně se rozhodnout, který druh indexace je v daném případě záhodno použít. Pokud to okolnosti umožňují (což se však neděje příliš často), je efektivnější kombinace obou způsobů - stále je však nutno mít na paměti, že selekční obraz dokumentu vytvořený člověkem a selekční obraz dokumentu vytvořený strojem se budou lišit. Do budoucna se však dá předvídat významnější rozvoj efektivnější automatické indexace. Při schopnosti počítačových programů porozumět textu pravděpodobně již nic nebude bránit v plném využití tohoto typu indexování. Nicméně prozatím je toto vše stále jen hudbou budoucnosti. V současné době se zdá být vývoj adekvátních technologií značně náročný i finančně nákladný.

V současné době se v souvislosti s vývojem systémů automatické indexace nedá tak úplně hovořit o zcela automatické indexaci. Technologie jsou vesměs implementovány jako hybridní systémy, v nichž je automatická indexace většinou uplatňována jen jako automatická podpora intelektuální činnosti indexátora. Pomocí indexace automatizované je připraven seznam vhodných výrazů, jež mohou později posloužit pro výběr indexačních termínů, který už probíhá intelektuálně. Tento proces většinou urychluje a zjednodušuje samotnou indexaci a navíc i zkvalitňuje její výsledky (zejména míru přesnosti při vyhledávání).[12]

Nástin budoucího vývoje

Jak jsem již uvedl výše, bylo by jistě výhodné vyvinout umělou inteligenci vybavenou znalostmi a schopnostmi natolik kvalitními, že by prováděla indexaci bez sebemenších chybiček. Rovnou však musíme zmínit, že zmíněná skutečnost je pro nás v současné době spíše jen zbožným přáním než brzy očekávatelnou realitou. Jistě, technologický i technický pokrok v dané oblasti popřít nelze, jenže i tak se veškeré pokusy týkající se našeho problému ukázaly být lichými. Dokud nebudeme schopni zmíněné technologie vyvinout, bude pravděpodobně nutné jednotlivé druhy indexace specializovat na dané oblasti.

Očekává se další rozvoj automatické indexace, který je z ryze pragmatického hlediska jednoznačně podtržen skutečností, že je a především bude nutno indexovat stále více dokumentů, což by při užití intelektuálních indexačních technik znamenalo nejen ohromné finanční náklady, ale i ohromnou ztrátu času, tedy artiklu, jenž je v soudobé, uspěchané společnosti značně ceněn.

Vzhledem k neustále rostoucímu počtu dokumentů na síti i mimo ni, však bude v budoucnosti pravděpodobně nezbytné dokumenty určitým způsobem selektovat - v reálu by to tedy mohlo vypadat tak, že automatická indexace bude provedena u všech typů dokumentů a následná indexace intelektuální pak pouze u dokumentů s vyšší přidanou hodnotou, u dokumentů „kvalitnějších" či žádanějších. Tuto skutečnost popisují např. Anderson a Peréz-Carballo[13], kteří uvádějí, že jednotlivé dokumenty si z hlediska kvality nejsou ani zdaleka rovnocenné. V této souvislosti se zmiňují i o kritériích, podle nichž by měla být ona kvalita hodnocena, avšak toto se již může podle jejich (a také podle mého) názoru rovnat cenzuře.


[1] KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. [cit. 2007-03-24]. Praha : Národní knihovna České republiky, 2003. Dostupný z WWW: <http://sigma.nkp.cz/cze/ktd>.

[2] Tamtéž.

[3] Tamtéž.

[4] SCHWARZ, Josef. Současný stav a trendy automatické indexace dokumentů : přehledová studie [online]. Praha, 2003. [cit. 2007-03-24]. Dostupný z WWW: http://full.nkp.cz/nkdb/docs/studie/MAIobsah.html.

[5] ANDERSON, James D. - PÉREZ-CARBALLO, José. The Nature Of Indexing: how humans and machines analyze messages and texts for retrieval: part II: machine indexing and allocating of human versus machine effort. Information Processing and Management: an International Journal. March 2001, Vol. 37, No. 2, p. 259. ISSN 0306-4573.

[6] ANDERSON, James D. - PÉREZ-CARBALLO, José. The Nature Of Indexing: how humans and machines analyze messages and texts for retrieval: part I: research, and the nature of human indexing. Information Processing and Management: an International Journal. March 2001, Vol. 37, No. 2, p. 237. ISSN 0306-4573.

[7] Tamtéž,  p. 238.

[8] SCHWARZ, Josef. Praktické aspekty hodnocení kvality a konzistence indexace. Ikaros [online]. 2001, roč. 5, č. 2 [cit. 2007-03-24]. Dostupný z WWW: <http://www.ikaros.cz/node/3986>. ISSN 1212-5075.

[9] Tamtéž.

[10] ANDERSON, James D. - PÉREZ-CARBALLO, José. The Nature Of Indexing: how humans and machines analyze messages and texts for retrieval: part I: research, and the nature of human indexing. Op. cit., p. 232.

[11] Převzato a upraveno z: SHIELDS, Ginger. What are the main differences between human indexing and automatic indexing? [online]. 2005 [cit. 2007-03-25]. Dostupný z WWW: www.shieldsnetwork.com/LI842_Shields_Automatic_Indexing.pdf.

[12] SCHWARZ, Josef. Současný stav a trendy automatické indexace dokumentů : přehledová studie [online]. Op. cit.

[13] ANDERSON, James D. - PÉREZ-CARBALLO, José. The Nature Of Indexing: how humans and machines analyze messages and texts for retrieval: part II: machine indexing and allocating of human versus machine effort. Op. cit., p. 255 - 257.

 

Líbil se vám článek?
Stáhnout článek v PDF

0 komentářů

Přidat komentář

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback