Počítačové zpracování přirozeného jazyka

10. 11. 2011

Příloha č. 18/2011

Autoři přílohy: InHD + Alžběta Lukšů

Live blogging k této přednášce najdete jako obvykle na Inflow v Blogu z bloku.

Ve čtvrtek 27. října proběhla v rámci bloku expertů další přednáška, tentokrát na téma počítačového zpracování přirozeného jazyka. Pozvání KISKu přijala Dana Hlaváčková, odborná pracovnice Centra zpracování přirozeného jazyka Fakulty informatiky Masarykovy univerzity a Střediska pro pomoc studentům se specifickými nároky Teiresiás. Svou přednášku pojala jako úvod do počítačové lingvistiky, tedy oboru stojícího stojí na pomezí lingvistiky, informatiky a matematiky. 

Dana Hlaváčková - Počítačové zpracování přirozeného jazyka from KISK on Vimeo.

Dana Hlaváčková přiblížila posluchačům problémy, které při počítačovém zpracování jazyka nastávají. Přirozený jazyk představuje složitý systém s pravidly, jež vyplývají z úzu, a jeho typickou vlastností je nejednoznačnost. Počítač je naproti tomu schopen pracovat pouze na základě konkrétních a předem daných formálních pravidel, vyžaduje jednoznačnost a přesnost.

K hlavním oblastem, jimiž se počítačová lingvistika zabývá, patří formální (algoritmický) popis rovin jazyka, který zahrnuje morfologii, slovotvorbu, syntax, sémantiku i pragmatiku. V poslední době se objevují i snahy o rozpoznávání emocí obsažených v textu. 

Dalším tématem současné počítačové lingvistiky je budování korpusů, tedy souborů elektronických textů reprezentujících využívání jazyka, které slouží k dalšímu jazykovému výzkumu. Jednotlivé korpusy mají svou diachronní složku (tj. soubor historických textů), synchronní složku (tj. soubor textů mladších 50 let), složku psanou a složku mluvenou. Při budování korpusů se dbá především na jejich reprezentativnost a vyváženost. Dana Hlaváčková seznámila posluchače i s nejnovějším trendem budování korpusů z textů dostupných na webu. Tyto korpusy jsou velmi obsáhlé, zahrnují řádově miliardy slovních výskytů a zachycují i jazykové jevy, které se v běžných korpusech neobjeví. Na druhou stranu ovšem rezignují na vyváženost, úplnost a reprezentativnost. 

Další důležitou oblastí na pomezí lingvistiky a informatiky je počítačová lexikografie, tedy vytváření slovníků a nástrojů pro jejich tvorbu, editaci a prohlížení. Centrum pro zpracování přirozeného jazyka Fakulty informatiky MU se zde angažuje vývojem prohlížeče a editoru slovníků DEB II, který slouží jako platforma pro vývoj slovníkových systémů. Počítačová lingvistika se zabývá rovněž rozpoznáváním a syntézou řeči, vývojem dialogových a otázkových systémů a problematikou reprezentace znalostí počítačem.

Dana Hlaváčková vysvětluje principy počítačového zpracování jazyka a objasňuje, že počítač rozeznává akustické signály a grafické znaky. Musí tedy rozeznat jednotlivé hlásky a slova a spojovat je do vět. Dále pak musí spojovat jednotlivé věty do větších celků a rozeznat hranice textu. Při počítačovém zpracování jazyka se klade důraz na uživatelskou přívětivost a univerzálnost; důležitá je i nezávislost na jednotlivých lingvistických teoriích a operačních systémech. V současné době je patrná snaha o integraci jednotlivých aplikací a využívání webových uživatelských rozhraní.

Výsledky výzkumů počítačového zpracování přirozeného jazyka neslouží pouze hrstce odborníků, ale mají široké využití např. při vývoji nástrojů pro automatické dělení slov či korektorů překlepů a gramatiky, jež jsou součástí běžně užívaných textových editorů. Poznatky počítačové lingvistiky z oblasti syntézy a rozpoznávání řeči došly rovněž praktického využití. Běžní uživatelé si oblíbili například možnost hlasového vytáčení u mobilních telefonů nebo hlasitého čtení SMS zpráv. Studenti Masarykovy univerzity pak znají systém „Jako vejce vejci“, vyvinutý jako součást antiplagiátorské politiky univerzity. Produktem výzkumů na poli počítačové lingvistiky jsou také programy pro extrakci informací z textu, jež jsou schopny automaticky vybírat klíčová slova, případně i vytvářet abstrakty. Tyto programy jsou v současné době dostupné zejména pro anglicky psané texty. Nedořešena zatím zůstává problematika strojového překladu mezi jednotlivými jazyky. Překlady vytvořené počítačem dosud nemohou konkurovat překladu zpracovanému profesionálním „lidským“ překladatelem.

V poslední části přednášky představila Dana Hlaváčková některé projekty Centra pro zpracování přirozeného jazyka Fakulty informatiky MU. Kromě výše zmíněné platformy DEB II, jsou to například korpusové nástroje Corpus Architect a Bonito, morfologické analyzátory Ajka a Majka, syntaktické analyzátory Set a Synt, sémantická lexikální databáze WordNet či nástroj pro strojový překlad mezi blízkými jazyky vyvíjený v rámci programu EU PRESEMT

V samotném závěru přednášky poskytla Dana Hlaváčková posluchačům seznam pracovišť zabývajících se počítačovou lingvistikou. Jedná se např. o Ústav formální a aplikované lingvistiky MFF UK, Ústav teoretické a komputační lingvistiky FF UK, Ústav Českého národního korpusu při Filozofické fakultě UK či Fakultu informačních technologií VUT Brno. Přehledem těchto pracovišť a nastíněním možností studia počítačové lingvistiky Dana Hlaváčová svou přednášku ukončila.

 

V kategorii: InHD
Štítky: Inflow magazín
Líbil se vám článek?
Stáhnout článek v PDF

0 komentářů

Přidat komentář

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback