Klíčová slova a jejich využití v Knihovně Jiřího Mahena v Brně

29. 9. 2008
Příspěvek nastiňuje základní teorii tvorby a zpracování klíčových slov a v krátkosti i stručnou historii klíčových slov. Dále popisuje způsob jejich tvorby v Knihovně Jiřího Mahena v Brně. Za krátké časové období statisticky zpracovává informace o vyhledávání v knihovním katalogu a popisuje základní chyby ve formulaci informačních požadavků čtenáři.

Úvod

Tématem této práce jsou klíčová slova a jejich praktický význam pro vyhledávání informací.

Rád bych zhodnotil způsob práce katalogizátora ve významné organizaci Knihovny Jiřího Mahena v Brně,  druhé největší městské knihovně v České republice s fondem přesahujícím 800 000 knihovních jednotek, zda probíhá systematicky na základě předem stanovených pravidel nebo zda existují nepsaná pravidla, kterým se přidělování klíčových slov řídí.

Pokusím se odhalit některé nedostatky v tvorbě klíčových slov.

Rád bych v této práci také nalezl odpověď na otázku, kolik čtenářů a návštěvníků knihovny v průměru využívá klíčová slova k vyhledání svých dokumentů a zda jsou úspěšní v tomto vyhledávání.  Ku pomoci mi budou záznamy přístupů na server on-line katalogu Knihovny Jiřího Mahena v Brně, které si informační systém Clavius zaznamenává do pomocných souborů, a které jsem získal k tomuto účelu od správce sítě. 

V závěrečné části této práce vyhodnotím na konkrétních případech chybné vyhledávání čtenářů a naleznu řešení k dosažení cíle.

Teorie klíčových slov

Klíčová slova jsou slova a krátká slovní spojení přirozeného jazyka, která vyjadřují sémantický obsah dokumentu. Klíčová slova jsou tvořena katalogizátorem na základě obsahové analýzy buď z názvu dokumentu, jakékoli jeho části, ale i ze jeho referátů, anotací či extraktů. Existují také automatizované systémy, které  provádějí výběr klíčových slov samostatně bez přispění práce knihovníka. 

Obsahová analýza dokumentu má za úkol určit podstatné obsahové složky dokumentu, odlišit od sebe základní a vedlejší témata a formulovat tyto obsahové složky pomocí přirozeného jazyka.

Klíčová slova jsou postkoordinovaný selekční jazyk, jelikož jsou seřazována až na základě položení dotazu.

Klíčová slova jsou izolovaná a nezávislá jedno na druhém.

K jejich použití se přechází v 50. letech 20. století, kdy je třeba zareagovat  na obrovský nárůst poznatků ve vědních oborech a kdy stávající struktury katalogizace nejsou dostačující.

Mezi první průkopníky klíčových slov patří permutované rejstříky KWIC a KWOC, jejichž základní myšlenky byly  formulovány v roce 1959 a služba CAS, která započala s automatizovaným zpracováním časopisu Chemical Titles krátce po roce 1961.

Zajímavé je, že se v praxi uplatnilo nejprve automatizované zpracování klíčových slov pomocí výpočetní techniky, a teprve v průběhu času se přistupuje k manuálnímu zpracování.  

Tvorba klíčových slov není normativně omezena a jejich konkrétní podoba je závislá na interních pravidlech institucí. Základním pravidlem tvorby klíčových slov je ovšem snaha o co nejvyšší míru přizpůsobení se přirozenému jazyku uživatelů informačního systému. 

Klíčová slova se ovšem neobjevují pouze v oblastí knihovnictví. Správnou volbou klíčových slov lze usnadnit vyhledávacím strojům na internetu správně indexovat internetové stránky a nasměrovat na ně uživatele, kteří mají zájem právě o tyto informace. Jedná se o tzv. SEO - Search Engine Optimization. 

Klíčová slova v Knihovně Jiřího Mahena v Brně

Knihovna Jiřího Mahena je historickou organizací, která vznikla již v roce 1921. Nejprve pracovala se jmenným a předmětovým lístkovým katalogem, jenž obsahoval předmětová hesla. Tyto katalogy nahrazuje v průběhu 90. let automatizovaný  knihovní systém. K tvorbě klíčových slov se přistoupilo v roce 1995. 

V roce 2002 dokončila knihovna retrospektivní konverzi fondu, nově v knihovním systému Clavius, který již pracoval s klíčovými slovy jako s hlavním prostředkem předmětové katalogizace a předsunul je tak před  předmětová hesla. Některé starší části fondu však zůstaly bez přidělených klíčových slov. Knihovní systém Clavius a jeho starší verze patří společně se systémem ALEPH ke dvěma nejpoužívanějším knihovním systémům v České republice. Jedná se o kompletní správu paměťové organizace od akvizice, katalogizace, výpůjčních služeb, revize až po vyřazení dokumentů.

Systém Clavius začala firma vyvíjet před deseti lety, tedy v roce 1998, na základě zkušeností s předchůdcem tohoto systému Lanius. Základ Lania vzniká již v roce 1992, tehdy samozřejmě pro operační systém MS DOS. Základem vytváření klíčových slov v Knihovně Jiřího Mahena v Brně je obsahová analýza.

Oddělení katalogizace Knihovny Jiřího Mahena v Brně nevlastní a nepracuje interně s žádným vlastním ani cizím dokumentem, který by standardizoval postupy při přiřazování klíčových slov dokumentům v průběhu procesu katalogizace.

Dle vyjádření vedoucího pracovníka jsou zavedené postupy této části katalogizace předávány novým pracovníkům ústně při zaučení v pracovním kolektivu.

Klíčová slova v Knihovně Jiřího Mahena v Brně mají přirozený pořádek slov v sousloví. Čtenář se tedy setkává s přirozeným tvarem sousloví, například „americká literatura" nikoliv „literatura americká"

Použití jednotného a množného čísla není jednotné, většinou se však používá číslo množné například „psi" nikoliv „pes", „koně" nikoliv „kůň", „spisovatelé" nikoliv „spisovatel", a „hudební skupiny" nikoliv „hudební skupina".  Příkladem jednotného čísla je ovšem například „průvodce",  „písmo" či „pohřební roucho". 

Určitá disparita, která však samotné vyhledávání v katalogu knihovny nikterak neovlivňuje, je patrná v samé podobě klíčového slova. Někdy je totiž použito velké počáteční písmeno, jindy zase malé. Jedná se například o pojmy:  „Poklady" či „poklady", „Viola" či „viola" a další.

Využití relátorů při tvorbě klíčových slov je patrné například z výrazů „černošská hudba (americká)",  „já (filozofie)", „já (psychologie)" a zejména z klíčových slov označující místní názvy jako „Kaaden (Česko)" nebo „Peterburg (Rusko)".

Narazit lze také na nehomogennost v pohlaví.  Nalezneme tedy slova „violoncellisté" i „violoncellistky", „policisté" i „policistky" , „spisovatelé" i „spisovatelky".

Dotazy katalogu je možno zadávat pomocí webového rozhraní, které je přístupno 24 hodin denně na webové prezentaci Knihovny Jiřího Mahena v Brně a samozřejmě pomocí interní sítě v budově ústřední knihovny a na jejích pobočkách.        

Klíčová slova jsou přidělována jak beletrii tak naučné literatuře. 

Synonymie by měla být v ideálním případě řešena zařazením všech synonym. V knihovně Jiřího Mahena to tak vždy není. Několik vybraných pojmů porovná následující tabulka.  

Termín

Počet přiřazených dokumentů

počítačové programy

260

software

124

legislativa

48

zákony

354

budovy

78

domy

264

ochrana životního prostředí

90

ekologie

520

V Knihovně Jiřího Mahena v Brně se setkáme i s vágními klíčovými slovy.  Příkladem je například klíčové slovo „vznik",  které je přiděleno rovným 497 dokumentům, klíčové slovo „činnost" použité v 496 dokumentech či  klíčové slovo „události" využité 340krát.

Metodologie sběru dat

V následujících kapitolách budu hodnotit jak uživatelé informačního systému hledají své informace a dokumenty. Pro výzkum informačních požadavků čtenářů využiji data, která informační systém ukládá po každé operaci na serveru.

Informační systém Clavius nezpracovává konkrétní statistiku jednotlivých dotazů, které přijdou na server skrze elektronický knihovní katalog (OPAC). K účelu své práce jsem tedy nucen využít nezpracovaná data, která se průběžně ukládají do pracovního adresáře.  Tato data je nejprve nutno „očistit" od irelevantních informací.

Konkrétní záznam dotazu pak obsahuje následující znaky:

cC 02.06.08 08:11:27 89.103.131.47

h~=&~&DD=8&~&H1=&~&V1=z&~&P1=65&~&H2=&~&V2=z&~&P2=19&~&H3=rekonstrukce&
~&V3=z&~&P3=40&~&H4=&~&V4=r&~&P4=34&~&H5=&~&V5=z&~&P5=39

Z tohoto záznamu je patrné datum, přesný čas položení dotazu a IP adresa uživatele. Řetězec následující po těchto záznamech obsahuje informace o konkrétním dotazu. Znaky H1 až H5 označují dotazovací pole.  V poli H1 je například možno vyhledávat z údajů o autorech zatímco v poli H3 v klíčových slovech. 

Tento konkrétní dotaz tedy obsahoval jediné slovo v poli H3 a to „rekonstrukce", na který čtenář obdržel 226 výsledků.

Následující tabulka popisuje všechna základní vyhledávací pole.

H1

Autor

H2

Název

H3

Klíčové slovo

H4

Signatura - kmen

H5

Libovolné pole

Data jsou zkoumána za období neděle 1. června až pondělí 2. června 2008. První záznam byl uložen v  19.04 hodin a poslední v 11.36. Záměrně bylo vybráno období, kdy server není maximálně zatížen, jelikož množství záznamů ve špičce je velmi vysoký. I tak byl počet návštěvníků značný.

Počet dotazů a jejich statistika

Za období šestnácti a půl hodiny zaznamenal server, kromě ostatních požadavků na prodloužení výpůjček nebo zjištění stavu čtenářského konta celkem 860 konkrétních informačních dotazů.

V základním a nejpoužívanějším vyhledávání je možnost volit z pěti polí, konkrétně z autora, názvu dokumentu, klíčového slova, signatury dokumentu a libovolného pole.  V rozšířeném vyhledávání přibývá dalších 24 možných vyhledávacích polí. Ve většině případů však uživatelé volí ze základního vyhledávání.

Zajímavou informací je počet dotazů do pole klíčová slova. Základní odhad byl velmi nízký. Předpokládal jsem, že jen velmi málo čtenářů a zákazníků využívá vyhledávání pomocí klíčových slov.  Prostým součtem dotazů, které měly vyplněné pole klíčových slov, jsem zaznamenal 123 kusů. Procenty vyjádřeno se jedná o 14,3 % čtenářů, kteří využili oborové vyhledávání v katalogu.

V naprosté většině případů se jedná o jednoslovná vyjádření bez dalších doplňujících údajů jako například: pop art, účetnictví, sfragistika, anglická literatura, skutečné příběhy či funkcionalismus.

Konkrétní příklady chybného vyhledávání

V následující části textu shrnu základní chyby ve vyhledávání pomocí klíčových slov na konkrétních případech a navrhnu správné řešení.

Rozšíření dotazu

Nejčastější nástrahou vyhledávání je rozšíření a zúžení dotazu. Pokud se po zadání dotazu nezobrazí čtenáři žádný nebo jen málo relevantních dokumentů, je třeba rozšířit dotaz. Prakticky to znamená, najít nadřazený, obecnější termín, který by rozšířil obor zájmu.

Praktickým příkladem je čtenář, který zadal následující dotaz:

bB 02.06.0800:59:41 147.229.196.174

h~=&~&DD=8&~&H1=&~&V1=z&~&P1=65&~&H2=&~&V2=z&~&P2=19&~&H3=kombucha&
~&V3=z&~&P3=40&~&H4=&~&V4=r&~&P4=34&~&H5=&~&V5=z&~&P5=39

Jediným vyplněným polem je pole klíčového slova „kombucha". Kombucha je houba pocházející z jihovýchodní Asie, ze které se připravují léčivé přípravky, zejména nápoje. Čtenář při svém hledání bohužel nerozšířil svůj dotaz a jakmile systém nevyhledal žádný dokument s klíčovým slovem „kombucha" zanechal vyhledávání. 

Správným řešením mělo však být rozšíření informačního dotazu například o klíčová slova „alternativní léčba" či „léčitelství".

Podobný problém nastal například čtenáři, který se snažil nalézti dokumenty vztahující se k želvě „Karetce novoguinejské" a vyplnil pouze klíčové slovo slovem „karetka". Na svůj dotaz opět nenalezl žádný dokument.

Zúžení dotazu

Opačným případem je zúžení dotazu. Zúžení využijeme, pokud na dotaz obdržíme příliš mnoho výsledků. V takovém případě je nutné dotaz zpřesnit zadáním podřazeného termínu.

bB 02.06.0810:12:43 195.47.13.194  

h~=&~&DD=2&~&H1=&~&V1=z&~&P1= 65&~&H2=&~&V2=z&~&P2=19&~&H3=román&~&V3=z&~&P3=40&~&H4=&~&V4=
r&~&P4=34&~&H5=&~&V5=z&~&P5=39

V tomto dotazu se nachází dvě pochybení. Prvním z nich je jednotné číslo v klíčovém slově „román" a druhým je šířka položeného dotazu. Vzhledem k faktu, že Knihovna Jiřího Mahena v Brně katalogizuje i dokumentu krásné literatury, existuje více než 1000 dokumentů obsahující toto klíčové slovo.  Pokud použijeme klíčové slovo, které je méně obecné například „historické romány" nebo „detektivní romány" počet nalezených dokumentů se sníží. Druhou možností je doplnění dalších dotaz doplňujících klíčových slov.  

Nesprávná formulace klíčového slova

Prekoordinované a postkoordinované selekční jazyky se od sebe liší velmi často délkou lexikální jednotky. Postkoordinované, jejichž lexikum obsahuje většinou samostatná slova nebo jen krátká slovní spojení, jsou zpravidla kratší než slovní spojení prekoordinovaných. Toto pravidlo si dostatečně neuvědomil zadavatel tohoto informačního dotazu.

A 02.06.0809:56:01 80.188.178.2

h~=&~&DD=8&~&H1=&~&V1=z&~&P1=65&~&H2=&~&V2=z&~&P2=19&~&H3
=zpívaná státní hymna&~&V3=z&~&P3=40&~&H4=&~&
V4=r&~&P4=34&~&H5=&~&V5=z&~&P5=39 

Dotaz byl zadán opět pouze jedním klíčovým slovem a to: „zpívaná státní hymna".

Čtenář je zřejmě zvyklý na fulltextové vyhledávání, kde není problém zadat takto komplikovaný dotaz, ale toto klíčové slovo se v databázi nevyskytuje. Ke správnému řešení problému je třeba rozdělit toto klíčové slovo na kratší jazykové útvary jako: „státní hymny", „Česká republika" či „vokální interpreti" . Na škodu jistě nebude i specifikace druhu dokumentu na zvukové nosiče.

Záměna polí

Častým jevem je také záměna polí. Příkladem může být například záznam dotazu:

cB 01.06.08 21:36:28 78.136.171.124

h~=&~&DD=14&~&H1=smetana&~&V1=z&~&P1=65&~&H2=&~&V2=z&~&P2=19&
~&H3=ma vlast&~&V3=z&~&P3=40&~&H4=&~&V4=r&~&P4=34&~&H5=&~&V5=
z&~&P5=39

Zde čtenář chybně zadává do pole klíčových slov název díla Bedřicha Smetany „Má vlast". Po takovémto chybném zadání nevyhledá systém žádný výsledek. Důvodem k takovému jednání může být nepozornost i nepochopení významu jednotlivých polí. 

Nesprávný pravopis v dotazu

Jednou ze základních chyb ve formulaci dotazu do katalogu je zadání nesprávného pravopisného tvaru slova. Konkrétními příklady jsou nejčastěji vynechaná písmena či neznalost správného pravopisu zejména u slov cizího původu. 

Jednotné nebo množné číslo dotazu

Drobnou chybou, i když s fatální dopadem je nesprávná formulace čísla klíčového slova. Ve většině institucí se využívá čísla množného, i když to není vždy podmínkou. Příkladem může být dotaz:

cB 02.06.0809:11:25 89.103.38.94 

h~=&~&DD=5&~&H1=&~&V1=z&~&P1=65&~&H2=&~&V2=z&~&P2=19&~&H3
=kůň&~&V3=z&~&P3=40&~&H4=&~&V4=r&~&P4=34&~&H5=&~&V5=z&~&P5=39

Zde čtenář hledá dokumenty o koních, ale použije jednotné číslo klíčového slova „kůň". Na tento dotaz obdrží ovšem pouze jediný dokument. Při změně čísla klíčového slova je již situace zcela jiná a výsledkem je 327 různých záznamů v databázi. Tentokrát čtenář situaci správně vyhodnotil a hned dalším dotazem zadal klíčové slovo v množném čísle. Ne každý čtenář však k tomuto poznatku dospěje.

Invertovaný slovosled klíčového slova

Jak již zaznělo výše, výhodou klíčových slov je, že jsou formulovány v co nejpřirozenějším tvaru vzhledem k uživatelům. Z tohoto důvodu se většinou ponechávají v přirozeném neinvertovaném tvaru. Následující čtenář však použil klíčové slovo „kytara klasická" namísto přirozenějšího „klasická kytara".

cbA 02.06.0808:31:11 89.24.5.36

h~=&~&DD=2&~&H1=&~&V1=z&~&P1=65&~&H2=&~&V2=z&~&P2=19&~&H3=kytara klasická&~&V3=z&~&P3=40&~&H4=&~&V4=r&~&P4=34&~&H5=&~&V5=z&~&P5=39

Synonymie

Synonymie násobí vyhledané dokumenty a nechtěně obohacuje seznam výsledků o pro uživatele irelevantní záznamy databáze. Konkrétním příkladem je opět vyhledávací pokus jednoho ze čtenářů.

aB 02.06.0809:54:10 88.103.113.27

h~=&~&DD=8&~&H1=&~&V1=z&~&P1=65&~&H2=&~&V2=z&~&P2=19&~&H3
=překlad&~&V3=z&~&P3=40&~&H4=&~&V4=r&~&P4=34&~&H5=&~&V5=z&~&P5=39

Klíčové slovo „překlad" není šťastně zvolené a navíc v sobě obsahuje synonymii. Může se totiž jednat o překlad z cizího jazyka, například od konkrétního autora, i o stavební prvek. Jednoduchým řešení tohoto problému je použití dalšího velmi obecného klíčového slova například „stavebnictví".  Po zadání obou klíčových slov získáme relevantní dokumenty.   

Statistika chybných informačních požadavků

Na základě předešlého rozčlenění chyb ve vyhledávání čtenářů Knihovny Jiřího Mahena v Brně jsem sestavil následující tabulku, která popisuje četnost konkrétních pochybení. Poslední položkou je opakování chyb, která znázorňuje pouze výčet záznamů v databázi se stejnou chybou od stejného autora. Pro samostatnou statistiku tento údaj není důležitý.

Chyba

Počet případů

percentuelní vyjádření

správně položené  dotazy

79

64.7%

jednotné číslo v dotazu 

13

10,6%

záměna polí

6

4,9%

nesprávná formulace klíčového sova

5

4,1%

příliš široký dotaz

4

3,3%

příliš uzký dotaz

2

1,6%

nesprávný pravopis v dotazu

2

1,6%

invertovaný slovosled

1

0,8%

synonymie

1

0,8%

opakování chyb

10

8,1%

Z předešlé tabulky je patrné, že ze 123 dotazů se správně podařilo formulovat dotaz 79krát, což je 64% všech dotazů. Nejvyšší zastoupení chybovosti je v jednotném a množném čísle, které je následováno záměnou polí a nesprávnou formulací klíčového sova.

Závěr

Ve své práci jsem se pokusil formulovat, jakým způsobem čtenáři vyhledávají v knihovním katalogu. Důvodem byla snaha o získání informací, které by napomohly vytvořit dokument, který Knihovna Jiřího Mahena v Brně v současné době postrádá. 

Tímto dokumentem je souhrn základních pravidel tvorby klíčových slov, aby nedocházelo k rozdílným pojetím jejich tvorby.

Dalším dokumentem, který by mohl na základě této práce vzniknout je krátký text seznamující čtenáře se způsoby vyhledávání v knihovním katalogu, který by specifikoval základní principy tvorby klíčových slov a doporučení ke správné  formulaci dotazu.  

 

Použitá literatura

Webová prezentace Knihovny Jiřího Mahena v Brně [online]. 2004 [cit. 2008-06-10]. Dostupný z WWW: <http://www.kjm.cz/>.

Webová prezentace firmy LANius s.r.o [online]. [2001] , 08.04.2008 [cit. 2008-05-14]. Dostupný z WWW: <http://www.clavius.cz/>.

Pinkas, Otakar, 1942-. Zpracování informačních fondů. Sešit č. 1.  Praha : Oeconomica, 2002. 206 s. ISBN 80-245-0447-2.

LANius s.r.o.. Clavius 5.0.  [počítačový program]. Tábor : LANius s.r.o, 2007.  [cit. 2008-06-10].

Výroční zpráva Knihovny Jiřího Mahena v Brně [online]. Brno : Knihovna Jiřího Mahena v Brně, 2001 [cit. 2008-06-10]. Dostupný z WWW: <http://www.kjm.cz/doc/2001.doc>.

VELIČKOVÁ, Helena. Klíčová slova a vybrané znaky MDT : Nové selekční jazyky v VKOL - setkání teorie a praxe v sytému ISIS. Knihovní obzor : Čtvrtletník Vědecké knihovny v Olomouci [online]. 1993, roč. 1, č. 3 [cit. 2008-06-10]. Dostupný z WWW: <http://dig.vkol.cz/obzory/933_06.htm>. ISSN 1214-6498.

Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna ČR, 2001- . Dostupné z: http://www.nkp.cz [cit. 19. 2. 2005]

RÖSSLEROVÁ, Ivana. Klíčová slova jako nástroj třídění . Webové stránky Ivany Rösslerové [online]. 2002 [cit. 2008-06-10]. Dostupný z WWW: <http://www.kkvysociny.cz/private/ivana/klic_slova.htm>.

SEO není věda!. Dlouhý web : Příručka pro všechny tvůrce moderního webu [online]. 2004 [cit. 2008-06-10]. Dostupný z WWW: <http://www.vitdlouhy.cz/weblog/2004/07/seo-neni-veda.php%3e.

STRENKOVÁ, Jana. Indexování dokumentů na základě tezauru. KIVI : Knihovnictví a informační věda informuje [online]. 2004 [cit. 2008-08-10]. Dostupný z WWW: <http://www.phil.muni.cz/kivi/clanky.php?cl=40&rubrika=clanky

Líbil se vám článek?
Stáhnout článek v PDF

0 komentářů

Přidat komentář

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback