Vícejazyčné tezaury

Abstrakt: 
Vícejazyčný tezaurus představuje kontrolovatelný a měnitelný slovník lexikálních jednotek, založený na lexiku dvou nebo více přirozených jazyků. Zobrazuje sémantické vztahy mezi lexikálními jednotkami. Je určený na zpracovávání a vyhledávání informací v několika jazycích. Vytvoření vícejazyčného tezauru je činnost velmi náročná a vyžaduje vysokou odbornost. Výsledkem je snadný přístup při vyhledávání a zpracování informací, a to nejen na národní úrovni, ale i na úrovni zahraniční. Přitom je nezbytná mezinárodní spolupráce.

Úvod

Selekční jazyk, anglicky information retrieval language, popřípadě pouze retrieval language, je umělý informační jazyk používaný k vyjádření identifikačních nebo obsahových selekčních údajů za účelem pořádání, ukládání a vyhledávání dokumentů. Podle typu zpřístupňovaných údajů se vyčleňují dokumentační selekční jazyky a faktografické selekční jazyky, podle charakteru zpřístupňovaných údajů se vyčleňují identifikační selekční jazyky (někdy mj. i specifický umělý jazyk signatur) a věcné selekční jazyky, podle povahy komplexních pořádacích znaků se vydělují prekoordinované a postkoordinované selekční jazyky.[1]

Předmětový selekční jazyk (subject retrieval language) je selekční jazyk založený na abecedně uspořádaném systému hesel, popř. lexikálních jednotek. Podle charakteru lexikálních jednotek se rozlišují předmětové selekční jazyky založené na použití klíčových slov (např. klíčová slova z názvu dokumentů, rotované rejstříky), předmětová hesla (jazyk předmětových hesel) a deskriptorové selekční jazyky.[2]

Tezaurus, anglicky thesaurus, je řízený a měnitelný slovník deskriptorového selekčního jazyka uspořádaný tak, že explicitně zachycuje apriorní (paradigmatické) vztahy mezi lexikálními jednotkami. Podle jazykového zaměření se rozlišuje jednojazyčný a vícejazyčný tezaurus, podle šíře tematického zaměření speciální, polytematický a univerzální tezaurus, podle struktury fasetový a tematický tezaurus, podle funkce tradiční, indexační a vyhledávací tezaurus. Dále se vyčleňuje cílový a zdrojový tezaurus.[3]

Jednojazyčný tezaurus (monolingual thesaurus) je tezaurus obsahující deskriptory a obvykle nedeskriptory převzaté z jednoho přirozeného jazyka.[4]

Vícejazyčný tezaurus (multilingual thesaurus) je tezaurus obsahující deskriptory a obvykle nedeskriptory převzaté z více než jednoho přirozeného jazyka a vyjadřující ekvivalentní pojmy v každém ze zahrnutých jazyků.[5]

Vznik vícejazyčných tezaurů

Podle normy ISO 5964/1985 je vícejazyčný tezaurus tezaurus obsahující lexikální jednotky vybrané z více než jednoho přirozeného jazyka. Odráží nejen vzájemné vztahy mezi lexikálními jednotkami, ale zachycuje také ekvivalentní lexikální jednotky v každém jazyce do tezauru zahrnutém.

Cizojazyčné tezaury začaly vznikat v 70.letech za podpory UNESCO, protože začal zvýšený zájem o mezinárodní výměnu informací. Vícejazyčné indexační a vyhledávací prostředky měly pomáhat k překonávání jazykové bariéry. Tyto prostředky jsou nutné, jestliže vyhledávání dokumentů indexovaných ve více než jednom jazyce není vázáno na výběr a použití jednoho převažujícího jazyka. Využití je praktické jak pro informační pracovníky při indexování dokumentů v mateřském jazyce, tak i pro uživatele, kteří mohou zadávat dotazy taktéž ve svém mateřském jazyce.

Dominantní a sekundární jazyk

U vícejazyčných tezaurů je důležitý vzájemný poměr jazyků, tj. jejich status. Je důležité ustanovit určitý jazyk jako výchozí či zprostředkující, dominantní nebo sekundární. Ten jazyk, jehož lexikální jednotka vyvolává zvláštní překladové problémy, je většinou označován jako výchozí jazyk. Je to jazyk, který je východiskem pro překlad deskriptoru do nejblíže ekvivalentní lexikální jednotky (nebo jednotek) druhého jazyka, resp. jazyka překladu. Dominantní je zprostředkující jazyk, který je používán při indexování a vyhledávání v těch systémech, v nichž nemají různé jazyky stejný status. Každý pojem musí být v takovém systému závazně reprezentován deskriptorem v dominantním jazyce. V některých případech může chybět odpovídající ekvivalent v jednom nebo více ostatních jazycích systému. Tyto jazyky se pak označují jako sekundární. Samotnou povahou jazyka je dáno, že lexikální jednotky vybrané z více nežli jednoho jazyka se liší rozsahem, jímž vyjadřují tytéž pojmy.

Problémy při tvorbě tezaurů

Můžeme rozlišit dvě problémové situace při tvorbě a udržování tezauru, a to organizační (pravidla pro aktualizaci tezauru) a jazykovou (jaká bude forma lexikálních jednotek - singulár nebo plurál; jaký bude status lexikálních jednotek - deskriptor nebo nedeskriptor). Z hlediska vytváření tezauru mají mít ale všechny jazyky stejný status. Mezi jazykové problémy patří také určení postupu v případech, kdy lexikální jednotka nemá plný ekvivalent v dalším jazyce. Ekvivalence není požadovaná u nedeskriptorů, protože počet synonym vyjadřujících stejný pojem se v různých jazycích většinou liší.

Vícejazyčnost v tezauru vytváří novou a složitou situaci ekvivalentního problému, protože je potřeba definovat nejen ekvivalentní třídy v rámci jednoho jazyka, ale i ekvivalenci mezi dvěma jazyky:

1. úplná ekvivalence:

cílový jazyk obsahuje termín, který je ve svém významu identický s termínem v základním jazyku:

  • stejný význam při morfologické podobnosti

čeština - VODA
ruština - VODA

  • stejný význam, ale žádná morfologická podobnost

čeština - VODNÍ NÁDRŽ
ruština - VODOCHRANILIŠČE

  • stejný konotativní význam, ale rozdílný denotativní význam

čeština - PŘEHRADA
ruština - PLOTINA

2. částečná ekvivalence:

cílový jazyk může představovat pouze pojmenování, které je ve významu částečně identické se základním jazykem:

ŘEČ JAZYK

3. žádná ekvivalence - neekvivalence:

cílový jazyk neposkytuje žádný termín, který by alespoň v něčem odpovídal základnímu jazyku

Problém synonym ve vícejazyčných tezaurech je v podstatě podobný jako u jednojazyčných tezaurů. Polysémie existuje buď v rámci jednoho jazyka anebo mezi jazyky v rámci vícejazyčného tezauru.

Normy při tvorbě vícejazyčného tezauru

Při vytváření vícejazyčného tezauru se doporučuje vycházet i z jednojazyčného tezauru, protože většina procedur a doporučení obsažených v této normě platí i pro vícejazyčný tezaurus. Další doporučené normy: ISO/R 639 - Symboly pro jazyky, země a instituce, ISO 1086 - Titulní list knihy, ISO 2788 - Pravidla pro vypracování a rozvíjení jednojazyčných tezaurů. Nezbytná je norma ISO 5964 - Pokyny pro vypracování a rozvíjení vícejazyčných tezaurů

Tři způsoby tvorby vícejazyčného tezauru:

1. Vypracování nového tezauru od samého počátku.

Při tvorbě se nenavazuje na slovní zásobu a skladbu již existujícího tezauru. Této metody se používá tehdy, jestliže se vytváří nový vícejazyčný informační systém a žádný tezaurus (tedy ani jednojazyčný) dosud neexistuje.

2. Překlad existujícího tezauru, např. jednojazyčného.

Jeho jazyk bude výchozím jazykem. Přitom je nutno rozlišit tyto dvě situace:

a) zda je povolena zpětná vazba na výchozí jazyk

b) pokud zpětná vazba povolena není, tak lexikální jednotky a struktura výchozího tezauru nesmí být měněny

3. Vzájemné přizpůsobení a splynutí existujících tezaurů ve dvou nebo více pracovních jazycích.

Tato situace může nastat, je-li nový mezinárodní systém budován na bázi dvou nebo více již existujících jednojazyčných tezaurů. Je ale velmi málo pravděpodobné, že dva nebo více již existujících tezaurů v různých jazycích se bude úplně shodovat v lexiku, v logických strukturách a v tematickém záběru. Tento postup lze tedy uplatnit jen v těch případech, je-li povolena zpětná vazba mezi všemi už existujícími tezaury. Jestliže zpětná vazba povolena není, je třeba použít metodu č.1.

Vypracování vícejazyčného tezauru se uskutečňuje buď na mezinárodní úrovni anebo na úrovni národní. Mezinárodní úroveň zahrnuje koncepci a plán výstavby tezauru, což je především název a použití vícejazyčného tezauru, tématický záběr vícejazyčného tezauru, metodika vyhotovení a celková struktura. Koncepce a plán musí souhlasit s projektem budovaného informačního systému.

Národní úroveň zahrnuje vytvoření lexikální jednotky v daném jazyku, zabezpečení její jednoznačnosti, vytvoření třídy ekvivalentnosti, určení hierarchických a asociativních vztahů mezi deskriptory a určení struktur pomocných ukazatelů, pokud je koncepce předpokládá.

Etapy výstavby vícejazyčného tezauru

Výstavbu vícejazyčného tezauru je možné na základě odsouhlasené koncepce uskutečnit v následujících etapách:

1. Průzkum skutečného stavu.

2. Shromáždění lexikálních jednotek.

3. Vytvoření slovníku lexikálních jednotek.

4. Určení vztahu synonym (vytvoření tříd ekvivalentnosti).

5. Určení deskriptorů.

6. Určení ekvivalentů v sekundárních jazycích.

7. Vytvoření a odsouhlasení deskriptorových úseků vícejazyčného tezauru.

8. Přiřazení identifikačních kódů.

9. Vytvoření pomocných ukazatelů.

10. Publikování vícejazyčného tezauru.

Identifikační kódy se přidělují všem deskriptorům vícejazyčného tezauru, přičemž ekvivalentní deskriptory různých národních variant dostávají stejný kód. Identifikační kódy je možné používat na indexování dokumentů a informačních dotazů.

Vztahy mezi lexikálními jednotkami

V ISO 2788 jsou vztahy mezi lexikálními jednotkami ve vícejazyčném tezauru definovány nezávisle na konkrétním jazyce a kultuře a mohou se tedy aplikovat shodně jak v jednojazyčných tak i ve vícejazyčných tezaurech. Jedná se o tři základní druhy vztahů:

Vztah ekvivalence, vztah hierarchie a vztah asociace.

Uspořádání lexikálních jednotek a vyjádření vztahů

Uspořádání tezaurů podle ISO 2788 je možné třemi formami: abecedním uspořádáním s vysvětlujícími poznámkami a s vyznačením vztahů u každé lexikální jednotky, dále systematickým uspořádáním doplněném abecedním rejstříkem, a nakonec grafickým uspořádáním doplněném abecedním rejstříkem. Každá z těchto základních forem uspořádání se může použít i ve vícejazyčném tezauru, avšak volba metody, resp. uspořádání bude ve vícejazyčném kontextu pravděpodobně ovlivněna potřebou vyjádřit jak logické vztahy mezi lexikálními jednotkami v daném jazyce, tak také potřebou zachytit předpoklady deskriptorů do ostatních jazyků.

Formální úprava vícejazyčného tezauru

Jednotnou formu tezauru nelze závazně stanovit, ale je nutné zřetelně rozlišit tyto části:

a) titulní list (pro každý jazyk zvlášť), který musí odpovídat doporučením ISO 1086

b) obsah

c) úvod: je třeba v každém jazyku vypracovat zvlášť a jeho obsah by měl jasně vymezit:

  • účel tezauru
  • jeho tematickou oblast s vyznačením jádra a hraničních oborů
  • význam všech zkratek a symbolů včetně interpunkčních znamének použitých nestandardním způsobem
  • zásady uplatněné při výběru deskriptorů a při stanovení vzájemných vztahů
  • zásady abecedního řazení
  • datum zařazení posledních lexikálních jednotek
  • název a adresu instituce, jíž se zasílají připomínky a návrhy

d) systematické nebo grafické části

e) abecední část

Organizace prací

Při práci na vícejazyčném tezauru je důležitá úzká spolupráce na mezinárodní úrovni a zapojení oborových a jazykových specialistů. Neméně důležité je také ověřit ještě před započetím tvorby tezauru, zda neexistuje jednojazyčný či vícejazyčný tezaurus pro stejnou tematickou oblast nebo pro některý příbuzný obor. Jestliže se některá instituce rozhodne vypracovat vícejazyčný tezaurus, je třeba tento záměr zveřejnit (například ve vhodném časopise). Před zveřejněním tezauru by bylo dobré ho experimentálně ověřit ve zkušebním provozu.V praxi pak může dojít ke změnám, které budou muset být aktualizovány.

Několik příkladů vícejazyčných tezaurů:

EUROVOC - Selekční jazyk Evropské unie: jedná se o vícejazyčný polytematický tezaurus zaměřený na oblast práva a legislativy Evropské unie (EU). Tezaurus byl vytvořen ve spolupráci Evropského parlamentu, Komise EU a Úřadu pro úřední tisky ES za podpory DG XIII. V současnosti se používá verze 4.2. Eurovocu, která byla dokončena v červnu 2005. Tato verze je přístupná pro prohlížení v sedmnácti oficiálních jazycích EU na stránkách Eurovocu.

Další příklad vícejazyčného tezauru: v praxi se osvědčil například vícejazyčný tezaurus GEMET, a to jakjak při indexování, tak i při vyhledávání v katalozích; zdárně byla vyřešena obecnější otázka jazykové komunikace se systémem.

Také Národní knihovna se podílí na zpracování Vícejazyčného terminologického slovníku z oblasti knihovnictví a jeho zveřejnění v elektronické podobě.

MULTI - vícejazyčný tezaurus geologických věd (The Multilingual Thesaurus of Geosciences).Jedná se vícejazyčný tezaurus geologických věd. Je rozdělen do tematických tříd a uvnitř tříd jsou abecedně seřazeny deskriptory.

TESE (Thesaurus for Education Systems in Europe - 2006 Edition) je tezaurus pro výchovu a vzdělávání.

Tezaurus AGROVOC je vícejazyčný zemědělský řízený slovník obsahující předmětové termíny (deskriptory), které jsou využívány pro věcné zpracování záznamů v databázi AGRIS.

European Training Thesaurus obsahuje přes 2600 termínů - deskriptorů (tzv. klíčových slov) i nedeskriptorů z oblasti odborného vzdělávání. Je určen uživatelům z celé Evropy

MeSH je česko-anglický tezaurus termínů z lékařství a zdravotnictví.

Závěr

Vícejazyčný tezaurus představuje kontrolovaný a měnitelný slovník lexikálních jednotek, který je založený na dvou anebo více přirozených jazycích, zobrazujících sémantické vztahy mezi lexikálními jednotkami. Je určený ke zpracovávání a vyhledávání informací v několika jazycích.

Kvalitní vícejazyčný tezaurus vyžaduje společnou práci odborníků v dané oblasti všech zastoupených zemí a lingvistů - lexikografů. Vytvořit kvalitní vícejazyčný tezaurus je výsledkem velmi intenzivní a velmi náročné práce. Pokud tato práce je odvedena na opravdu kvalitní požadované úrovni, výsledkem je velmi dobrá možnost indexace a vyhledávání v tom jazyce, který je zpracovateli či uživateli nejbližší. Kromě toho dochází také k mezinárodní spolupráci, harmonizaci řízených slovníků a terminologie a v neposlední řadě k propojování informačních systémů. Výsledkem je příkladná mezinárodní spolupráce a také vzájemná spolupráce zúčastněných odborníků, což má nakonec vliv i na spolupráci v rámci jednoho státu.

V neposlední řadě je tak plněn jeden z hlavních úkolů dnešní informační doby - snaha poskytnout jakémukoliv uživateli co nejkvalitnější informace podle jeho přání.

 

Použitá literatura:

BAKO, M. (1984). Informačné selekčné jazyky III. Bratislava : Slovenské pedagogické nakladateľstvo, 1984. 213 s.

ČSN 01 01172. ISO 5964. Pokyny pro vypracování a rozvíjení vícejazyčných tezaurů. Praha: Vydavatelství norem, 1991. 55s.

ČSN 01 0193. Dokumentace: Pokyny pro vypracování a rozvíjení jednojazyčných tezaurů. Praha: Český normalizační institut, 1995. 52s.

Thesaurus Construction [online]. 1997 , February 19, 2002. [cit. 2007-05-31]. Eng. Dostupný z WWW:< http://instruct.uwo.ca/gplis/677/thesaur/main00.htm>.

PINKAS, OTAKAR. Evropské katalogy datových zdrojů pro životní prostředí. Ikaros [online]. 2002, roč. 6, č. 7 [cit. 2007-06-02]. Dostupný na World Wide Web: <http://www.ikaros.cz/node/972>. URN-NBN: cz-ik972. ISSN 1212-5075.

ISO : International Organization for Standardization [online]. 2005 , 2006-09-12 [cit. 2007-06-01].Eng.Dostupný z WWW: <http://www.iso.org/iso/en/aboutiso/introduction/index.html>.

EURYDICE : The Information network of education in Europe [online]. 2006 , 11 May 2007 [cit.2007-06-02]. Eng. Dostupný z WWW: <http://www.eurydice.org/portal/page/portal/Eurydice/showPresentation?pubid=051EN>. ISBN 92-79-02088-9.

Vyhledávání v Agris : TEZAURUS AGROVOC, DESKRIPTORY [online]. 2006 [cit. 2007-06-02]. Cze. Dostupný z WWW: <http://home.zf.jcu.cz/~douleova/agris-vyhledavani.htm>.

Guidelines for Multilingual Thesauri [online]. 2005 [cit. 2007-06-02]. Eng. Dostupný z WWW: <http://www.ifla.org/VII/s29/pubs/Draft-multilingualthesauri.pdf>.

Classification and Indexing Section : Working Group on Multilingual Thesauri Guidelines for Multilingual Thesauri [online]. 2004 , January 27, 2004 [cit. 2007-05-20]. Eng. Dostupný z WWW: <http://www.ifla.org/VII/s29/wgmt.htm>.

Multilingual Thesauri in Cross-Language Text and Speech Retrieval [online]. 1997 , 2002 [cit.2007-05-20].Eng.DostupnýzWWW: <http://citeseer.ist.psu.edu/soergel97multilingual.html>.

ZAJDL, Jiří. Vícejazyčný tezaurus Eurovoc [online]. 08. 06. 2004 [cit. 2007-05-31]. Cze. Dostupný z WWW: <http://www.phil.muni.cz/kivi/clanky.php?cl=39&rubrika=clanky>.

Medical Subject Headings [online]. 01 September 1999 , 15 May 2007 [cit. 2007-06-03]. Cze. Dostupný z WWW: <http://www.nlm.nih.gov/mesh/meshhome.html>.

Multilingual thesauri [online]. 2003 , January 2003 [cit. 2007-06-01]. Eng. Dostupný z WWW: <http://www.fbi.fh-koeln.de/institut/labor/Bir/thesauri_new/theslang.htm#multi>.

RDF Encoding of Multilingual Thesauri [online]. 2006 , RDF Encoding of Multilingual Thesauri [cit.2007-06-03]. Eng. DostupnýzWWW: <http://www.w3c.rl.ac.uk/SWAD/deliverables/8.3.html>.

Thesaurus Construction and Publishing Solutions [online]. 2005 , 2007 [cit. 2007-05-20]. Eng. Dostupný z WWW: <http://www.multites.com/>.

Multilingual thesauri development and application [online]. 2006 , 2006 [cit. 2007-06-03]. Eng. Dostupný z WWW: <http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1222646>.

KUČEROVÁ, Helena. Selekční jazyky : tezaury [online]. 2005 , 6. 1. 2006 [cit. 2007-05-20]. Cze. Dostupný z WWW: <http://web.sks.cz/users/ku/MTI/sjazyky.htm>.


[1] http://vydavatelstvi.vscht.cz/knihy/uid_es-005/hesla/selekCnI_jazyk.html

[2] http://vydavatelstvi.vscht.cz/knihy/uid_es-005/hesla/pRedmFtovY_selekCnI_jazyk.html

[3] http://vydavatelstvi.vscht.cz/knihy/uid_es-005/hesla/tezaurus.html

[4] http://vydavatelstvi.vscht.cz/knihy/uid_es-005/hesla/jednojazyCnY_tezaurus.html

[5] http://vydavatelstvi.vscht.cz/knihy/uid_es-005/hesla/vIcejazyCnY_tezaurus.html

Janská Lenka. Vícejazyčné tezaury. Inflow: information journal [online]. 2008, roč. 1, č. 3 [cit. 2010-09-03]. Dostupný z WWW: <http://www.inflow.cz/vicejazycne-tezaury>. ISSN 1802-9736.



Syndikovat obsah

Inflow magazín

Kreativní Workshop 2010

kw_g_mal.jpg

Inflow magazín je místo pro náročné. Rozhovory, úvahy, zajímavosti.

Číslo přílohy: 14/2010
Vyšlo: 05.08.2010
Typ přílohy:  

» všechny typy příloh

Poslední komentáře

posledních 25 komentářů

Kalendář akcí

Vyzkoušejte

Obrázky ke stažení skutečně zdarma

Zdroje, kde je možné získat obrázky skutečně zdarma pro jakékoliv použití. Většina těchto obrázků je zdarma ke stažení, protože je jejich autoři k tomuto účelu uvolnili a nebo jejich copyright již vypršel.

Clker.com
Rozsáhlý archiv volně šiřitelných clipartů. Cliparty jsou dobře kategorizované a lze je vyhledávat i fulltextově. Každý clipart je k dispozici ve vektorových formátech SVG, ODG (Open Office Draw) a ve třech rozlišeních jako PNG. Všechny cliparty jsou volně k dispozici jako public domain.

PdPhoto.org
Tisíce volně dostupných fotografií. Kromě několika výjimek, které jsou označeny copyrightem, jsou všechny fotografie dostupné jako public domain.

Wikimedia Commons – Multimediální databáze obsahující přes 6 milionů položek volně šiřitelného multimediálního obsahu (fotografie, obrázky, zvuky a videa). U každého souboru je uvedena konkrétní licence a podmínky, za jakých ho lze použít. Velké množství obsahu je public domain.

Multimediální archív NASA – Málokdo ví, že veškeré multimediální materiály NASA, například fotografie planet či jiných vesmírných těles, ale i audio záznamy, video záběry nebo dokonce 3D modely vesmírných těles, nepodléhají copyrightu

» všechny Vyzkoušejte

Novinky na Inflow

Inflow.cz on Facebook

Read or Die

» všechny příspěvky

Spřízněné projekty

KISK

Partsip

Nakliv

Kwído

LibFFest

Guerrilla Readers

ČteSyRád

BiblioHelp - léčba knihou

všechny projekty

Portál Competitive Intelligence

Kurz projektového managementu

Kulturně informační web

VIAKISK

Antypa

ELka

SAR

KPI

Muniport

ProInflow

Audioknihy