Krátce o zpracování přirozeného jazyka

Článek stručně pojednává o jednomu z často diskutovaných témat - bude v budoucnu možné dorozumět se s počítačem v přirozeném jazyce? Autorka článku nejprve osvětluje pojem "přirozený jazyk", jeho zpracování a využití v IT praxi. V další části uvádí přirozený jazyk do souvislostí s umělou inteligencí a nastiňuje jeho roli v sémantickém webu.

Poznámka redakce: jedná se o výtah z bakalářské diplomové práce: Habrovanská, Pavlína. Specifikace sémantických rolí s nízkou frekvencí ve VerbaLexu. Brno: Masarykova univerzita, Filozofická fakulta, Ústav české literatury a knihovnictví, Kabinet informačních studií a knihovnictví, 2010. 51 s., 6 s. příloh. Vedoucí diplomové práce Mgr. Dana Hlaváčková, Ph.D


Budeme někdy schopni domluvit se s počítačem (a potažmo Internetem) v přirozeném - u nás konkrétně českém - jazyce?

Odpověď na tuto otázku možná znají ve výzkumných centrech zabývajících se zpracováním přirozeného jazyka, jakým je například Centrum zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity v Brně - <http://nlp.fi.muni.cz/cs/nlplab>. Zde spolupracují lingvisté-bohemisté a informatici v rámci oboru fungujícím od 60. let s výstižným názvem počítačová lingvistika. Je oborem jazykovědy, jehož primárním cílem je automatizace procesu porozumění přirozenému jazyku, a to jak v mluvené, tak i v psané formě [1].

O tomto tématu by se dalo hovořit celé hodiny a dny, cílem tohoto článku je tedy udělat pouhý vhled do problematiky.

Přirozený, nebo umělý?

Pro dorozumívání s ostatními používáme přirozený jazyk - je to nástroj nezbytný pro život ve společnosti. Odlišuje se od umělých jazyků v mnoha směrech. Především jde o to, že přirozený jazyk se vyvíjí s dobou, bývá většinou velmi starý a obsahuje více či méně odchylek, výjimek a nejednoznačností. Oproti tomu umělý jazyk stojí na vcelku pevných základech, dopředu vymyšlených, které se dál nevyvíjejí a v podstatě nemění.

Pro člověka je samozřejmě přirozenější ten přirozený :), a proto se nabízí jej užívat i při komunikaci s počítačem a Internetem - není však jednoduché jej počítač naučit. Je to proto, že tento jazyk není snadné jednoznačně formálně popsat a algoritmizovat. Obsahuje totiž spousty výjimek a odchylek, což poukazuje na jeho živost a dynamiku vývoje. Jisté pokusy však probíhají ve výše zmíněných centrech počítačového zpracování přirozeného jazyka. Využívá se například v těchto oblastech a aplikacích:

  • vyhledávání informací,
  • strojový překlad,
  • opravy pravopisu a gramatiky,
  • jazykové modelování pro rozpoznávání a syntézu řeči,
  • dialogové systémy (např. u počítačových her),
  • slovníky, encyklopedie, tezaury,
  • sémantický web.

Základním krokem, který povede k vytvoření výše uvedeného, je zpracování tohoto přirozeného jazyka do strojově čitelné podoby - tzv. počítačová analýza.

Typy analýzy přirozeného jazyka

Automatickou analýzou přirozeného jazyka rozumíme zpracování vstupních dat v přirozeném jazyce. Mezi nejčastější typy analýzy patří [2, s. 2]:

  • morfologická (lexikální) analýza,
  • syntaktická analýza,
  • sémantická analýza.

Morfologická analýza

Zpracování textu v přirozeném jazyce na lexikální úrovni se zabývá slovem, což je nejmenší smysluplná jednotka z hlediska morfologické analýzy. Tomuto slovu morfologická analýza určuje jeho základní slovní tvar, slovní druh a případně další gramatické kategorie. Tato první část analýzy je z oněch tří nejlépe algoritmizovatelná a popsaná v odborné literatuře; v současné době existují programy, jejichž úspěšnost je vyšší než 90 % [2, s. 2, 3].

U víceznačných slov (v češtině je jich asi 50 %) je nutno provést proces zjednoznačnění morfologických značek, přičemž jednou z jeho metod je syntaktická analýza.

Syntaktická analýza

Základním prvkem zpracování jsou zde větné celky. Syntaktická analýza má za úkol formálně popsat strukturu věty - uvést závislostní vztahy mez větnými členy. Jde tedy o větněčlenský rozbor věty a s tím spojenou konstrukci závislostních nebo složkových stromů, kde je zachycena podmětná a přísudková část a na nich závislé větné členy (jako např. předmět, přívlastek, příslovečné určení, doplněk) [2, s. 3].

Možná úskalí představuje čeština v tom, že nemá striktní pravidla pro uspořádání členů ve větě, tj. má volný slovosled.

Sémantická analýza

Tato část analýzy je zdokumentována v mnohem menší míře než předchozí dvě. Může se zaměřit na výraz, dále na větší úseky textu i na text promluvy jakožto celku [2, s. 4].

Podle rozšířené definice sémantiky můžeme odvodit, že úkolem sémantického analyzátoru je zachytit význam vstupního textu. Protože však nelze zcela přesně definovat sémantiku výrazu přirozeného jazyka a potažmo tedy ani výsledky sémantické analýzy, zvolíme její slabší definici - sémantická analýza má za úkol přiřadit výrazům přirozeného jazyka značky, kterými je významově specifikuje [2, s. 6].

Vytváření rozsáhlých jazykových zdrojů

V rámci počítačové lingvistiky vznikají rozsáhlé elektronické korpusy textů (české korpusy viz http://ucnk.ff.cuni.cz/), bez nichž se v současné době práce lingvistů při pokusech o detailnější poznání jazyka neobejde. Díky tomu, že se o daném jazyce dozvědí co nejvíce, jsou pak schopni tyto informace využít i v oblasti počítačového zpracování. Tyto korpusy by tedy měly obsahovat nejen velké množství textů (psaného i mluveného jazyka), ale i z hlediska obsahového by měly být co nejbohatší. Nemůžeme se však spokojit s „pouhým" shromážděním jazykového materiálu; důležité je opatřit taková data značkami - anotací, tzn. přiřadit hodnoty gramatické i jiné (např. sémantické) kategorie jednotlivým prvkům věty [3, s. 247].

V současné době existuje řada anotovaných korpusů u nás i ve světě. Anotování jazykového korpusu přináší důležité výsledky v lingvistice a umožňuje také vypracovat procedury, které by se mohly na základě dat vytvořených lingvisty (a za pomoci přívětivého počítačového prostředí) „naučit" analyzovat běžný text, a to i text neznámý, tedy systémem dosud neviděný. Na tomto základě by se pak daly tyto procedury pro porozumění textu daného jazyka rozšiřovat [3, s. 248].

Souvislost s umělou inteligencí

Podívejme se nyní na souvislost zpracování přirozeného jazyka a umělé inteligence (AI). Toto spojení je logické, protože chtějí-li odborníci na AI uměle simulovat inteligenci lidí, je jazykové chování na jednom z prvních míst. Ač je přirozený jazyk otevřený systém, zůstává nadále systémem a ne nahodilou směsicí jednotek a pravidel jejich užívání. Má své zákonitosti, které se po staletí snaží zachytit jazykověda. Za pomoci lingvistických objevů se můžeme pokusit vytvořit systém určený pro dorozumívání s počítači [3, s. 244].

Při počítačovém zpracování jazyka se musíme potýkat s několika obtížnými problémy - myslí se tím hlavně homonymie (víceznačnost) a synonymie. Tak například - jakou roli zastávají „kuřata" ve větě Kuřata jsou připravena k jídlu? To zjistíme pouze pomocí kontextových informací [3, s. 244].

Problémy, které jazyk přináší při počítačovém zpracování, jsou však v jiných oblastech chápány jako jeho přednosti, a to hlavně ve sféře lidského dorozumívání. Tak například nemáme výkladový slovník o několika milionech stran díky tomu, že existuje homonymie a jedna forma slova může mít několik významů. Další předností je to, že živý jazyk je dynamický, tedy vyvíjí se a mění (např. vznikají nová slova). V neposlední řadě dává jazyk možnost pracovat s implicitními informacemi, a tak má sdělení pro různé osoby rozdílný obsah, tedy „Kdo hodně ví, může si mnoho domyslet" [4].

Porozumění můžeme chápat jako proces úpravy vstupních informací do tvaru, který je možno lépe využít pro další zpracování. Kontext je v tomto případě velmi důležitý. A z důvodu, že tatáž věta může mít více významů, je porozumění v oblasti zpracování přirozeného jazyka tak obtížné [4].

Sémantický web

Sémantický web - vize budoucnosti, tedy jak by mohla vypadat síť za několik let. I zde hraje počítačové zpracování přirozeného jazyka velmi důležitou roli. Informace v něm mají totiž definován význam, umožňující lepší spolupráci člověka s počítačem. Jde o myšlenku mít data na webu definovaná a prolinkovaná tak, že si s nimi stroje lépe „poradí", tedy že je automaticky zpracují a využijí napříč různými aplikacemi [5].

Co se týče vyhledávání, v sémantickém webu znamená přechod od vyhledávání explicitní informace k získávání implicitních poznatků. Nebudeme již vyhledávat stránky obsahující klíčová slova, ale podobné pojmy (nikoliv informace) [6]. Na dotaz „učitel" se nám zobrazí i zdroje, které obsahují pojmy jako „kantor, lektor, pedagog" apod. Stejně tak nám na základě vzájemných sémantických vazeb mezi slovy poskytne na požadavek vyhledání relevantních dokumentů o kočkách i ty, jež obsahují sloveso mňoukat.

Nové možnosti vyhledávání v sémantickém webu jsou např. tyto [6]:

  • tvorba dotazů v přirozeném jazyce,
  • inteligentní pojmové vyhledávání,
  • zodpovídání jednoduchých otázek (např. „Jak se jmenuje současný prezident České republiky?"),
  • zodpovídání složitých otázek (např. „Jaká je současná situace v Iráku?").

Strojový překlad

Možným testem, jak zjistit, zda počítačový systém „rozumí" textu, jenž je mu předložen, je přikázat mu, aby jej přeložil do jiného jazyka [7, s. 276].

Strojový překlad je jedním z nesložitějších a nejkomplexnějších úkolů počítačové lingvistiky. V Evropě se v poslední třetině 20. století strojový překlad zaměřil na tvorbu syntaktických pravidel a využívání překladových slovníků obsahujících sémantické informace. V posledních letech se zájem o tuto problematiku zvýšil a hledaly se jiné cesty, jak dojít k rychlému a adekvátnímu strojovému překladu. Začalo se využívat metod matematické statistiky. Výhodou statistického přístupu je jeho univerzálnost, ta totiž umožňuje relativně snadno použít metody vyvinuté i pro další jazyky [7, s. 276].

Z výše uvedeného vyplývá, že další práce v oblasti počítačového zpracování přirozeného jazyka nemůže být efektivní, pokud bude probíhat izolovaně. V dalším výzkumu i při tvorbě aplikací je třeba propojit výzkumnou činnost lingvistů, informatiků, matematiků, odborníků v oblasti reprezentace znalostí a v oblasti metod a nástrojů umělé inteligence [7, s. 283].

Do doby, než si budeme s počítačem a Internetem „povídat" v přirozeném jazyce, uplyne ještě mnoho vody v řece, a zdali se to vůbec podaří, to už záleží hlavně na odbornících.

Použité zdroje

Laboratoř zpracování přirozeného jazyka. Stručný terminologický slovník počítačové lingvistiky [online]. [cit. 2010-08-29]. Dostupné z: <http://nlp.fi.muni.cz/cs/terminologie>.

HORÁK, Aleš. Sémantická analýza přirozeného jazyka. Brno: Masarykova univerzita. Fakulta informatiky, 1997. Magisterská práce. Vedoucí magisterské diplomové práce doc. PhDr. Karel Pala, Csc.

MAŘÍK, V., ŠTĚPÁNKOVÁ, O., LAŽANSKÝ, J. a kol. Umělá inteligence 2. 1. vydání. Praha: Academia, 1997. ISBN 80-200-0504-8.

UI a zpracování přirozeného jazyka [online]. [cit. 2010-08-10]. Dostupné z: <http://cyber.felk.cvut.cz/gerstner/teaching/xkui/sbirka/XKUI04_NLP.ppt>.

W3 Consortium. Semantic Web [online]. [cit. 2010-08-10]. Dostupné z: <http://www.w3.org/standards/semanticweb/>.

SKLENÁK, Vilém. Sémantický web [online]. [cit. 2010-08-10]. Dostupné z: <http://www.inforum.cz/inforum2003/prispevky/Sklenak_Vilem.pdf>.

MAŘÍK, V., ŠTĚPÁNKOVÁ, O., LAŽANSKÝ, J. a kol. Umělá inteligence 5. 1. vydání. Praha: Academia, 2007. ISBN 978-80-200-1470-2.

Líbil se vám článek?
Stáhnout článek v PDF

0 komentářů

Přidat komentář

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback