Stručný úvod do konceptu sémantického desktopu

V posledních několika měsících se začíná poměrně intenzivně hovořit o konceptu sémantického desktopu, který by sám uměl nacházet spojení mezi jednotlivými soubory a daty a tak umožnil velice efektivní osobní informační management. Vše by v budoucnu mělo fungovat pomocí tvorby asociací, tedy stejně, jako člověk myslí.
Sémantický desktop je založený na myšlence, že počítač nejen mechanicky manipuluje s daty bez ohledu na jejich význam, ale že se snaží jim porozumět. Tím by dával daleko lepší možnosti vyhledávání dat. Jeho druhou významnou vlastností je, že se snaží vytvořit takové datové struktury, kterým by tímto způsobem rozuměly všechny aplikace.

Jeho hlavním představitelem je v současnosti Nepomuk. Jde o síťové prostředí pro osobní ontologie na bázi řízení znalosti. Nejedná se o žádnou konkrétní aplikaci, ale pouze o framework (pracovní prostředí), který funkce sémantického desktopu zpřístupňuje. Celý projekt je open-source  a jeho cena byla 17 milionů eur, z toho 11,5 milionů financováno Evropskou unií. Existují tři funkční implementace s tím, že jediná, která se dnes více používá, pracuje s Linuxovým grafickým prostředím KDE 4, do kterého je plně integrovaná.

Úvodní představení Nepomuku

Celý projekt je open-source a jeho cena byla 17 milionů eur, z toho 11,5 milionů financováno Evropskou unií, ale na vývoji se podílela řada dalších firem, jako je například IBM, SAP, HP a především Mandriva, která koncept převedla do praxe implementací do KDE 4.

V zásadě existují tři funkční varianty - první je určená pro grafické prostředí KDE, druhá pracuje v Javě a třetí je poskytována v rámci SaS, jako komerční produkt. Asi nejpoužívanější a silně implementovanou variantou je především verze pro KDE 4, jehož je integrální součástí. Cílem je tedy poskytnout vhodnou infrastrukturu rozšiřující osobní desktop do prostředí, které podporuje jednak správu osobních informací, tak i sdílení a výměnu těchto informací v rámci sociálních i organizačních vztahů.

Cílem Nepomuku je nabídnout infrastrukturu rozšiřující osobní desktop do prostředí, které podporujícího jednak správu osobních informací, tak i jejich sdílení a výměnu těchto informací v rámci sociálních i organizačních vztahů.

Tento proces probíhá na základě práce s metadaty. Ta jsou získávána buď na základě automaticky generovaných dat (tagy v mp3 souborech, systémové informace u dokumentů, hlavičky v e-mailových adresách, EXIF informace u obrázků) nebo na základě činnosti uživatele (hodnocení hvězdičkami, dopisování tagů,...).

Prozatím je hlavní aplikací rychlé a přehledné vyhledávání, ale budoucnost je mnohem pestřejší. Algoritmy by měly být schopné tvořit asociace stejně, jako přemýšlí člověk. Počítač bude vědět, o čem jsme se s danou osobou bavili, jaké jsme jí poskytli informace a co bychom k tomu mohli ještě přidat. Takový systém by tvořil myšlenkovou mapu, která by mu umožňovala tato spojení využívat.

Proto se někdy mluví o revoluci v oblasti osobního informačního managementu - myšlenkovou mapu za nás bude generovat do velké míry počítač v závislosti na našem chování a práci s daty. Jde tedy o další jejich unikátní využití, kterému se budeme v rámci našeho miniseriálu ještě podrobněji věnovat.

Dophin, Gwenview a další

Jistě je dobré se podívat také na jednotlivé možné aplikace toho, kde se v současném grafickém prostředí KDE objevuje koncepce sémantického desktopu. Prvním nástrojem je Dolphin, jenž je výchozím správcem souborů v grafickém prostředí KDE a je tedy přirozené, že se zde integrace projevuje nejvíce. Existuje v něm pravý panel, který zobrazuje dostupné metainformace, ať již o jednotlivých souborech, nebo o celé složce. S různými soubory si pochopitelně poradí různě kvalitně. U textových souborů dokáže provést základní analýzu textu založenou na statistickém rozložení, u hudebních souborů pracuje s tagy, u obrázků analyzuje EXIF: Slabší je pak implementace video souborů, pdf a více exotických souborech. Samozřejmě nechybí možnost uživatele si přidávat vlastní metainformace jako jsou různé tagy a hvězdičky.

Díky těmto datům je možné rychle a jednoduše vyhledávat nebo filtrovat výsledky - například podle klíčových slov v dokumentu nebo datu změny, hvězdiček, nebo zvoleného tagu. Efektivita je do velké míry dána tím, jak moc jsou ochotni uživatelé ke svým souborům dodávat metainformace. [1]

Podobným způsobem funguje také práce s obrázky v organizátoru Gwenview. Zde je silné propojení uživatelských metadat a automaticky získaných Exif informací. Existuje podpora také pro další formáty dat a aplikace, jako je například KRunner (nástroj na spouštění souborů) či Bangarang (multimediální přehrávač). Další zajímavou možností je integrace s Kraft, což je populární nástroj pro velké firmy, který umožňuje spravovat mj. faktury a další firemní dokumenty. Kraft nyní umožňuje import dat z adresáře, což je příjemné, neboť není třeba nic dvakrát (či v budoucnu ještě vícekrát) přepisovat. V rámci samotného KDE již poměrně slušně probíhá integrace osobních dat napříč aplikacemi.

Pomocí sémantického desktopu je možné velice pěkně zefektivnit vyhledávání informací. Nabízí se také možnost analyzovat hlouběji souvislosti mezi daty, jako je například sdružení kompletních informací o určitém hudebním interpretovi, včetně fotografií, textů písní a samotných nahrávek.

Reálné problémy

Tvorba sémantického desktopu není vůbec jednoduchou záležitostí.

Především je třeba se vypořádat s tím, jakým způsobem pracovat s ontologiemi, tedy popisem jednotlivých objektů reálného světa.

Počítače zatím nedisponují dostatečně dobrou umělou inteligencí, aby byly schopné vyvozovat nějaké poznatky (například matematické věty z axiomů). Pokud chceme, aby počítač rozuměl datům, je třeba ho to učinit nějak technologicky.

V zásadě nejschůdnější cestou je práce s metadaty - popisky toho, co je v určitém souboru dat uloženo a jaké to má vlastnosti. Většina z nás zná EXIF informace u fotografií, které obsahují technické parametry snímků, druh fotoaparátu nebo GPS souřadnice. Ty jsou generované automaticky a uživatel do nich nemusí nijak zasahovat.

Druhou kategorií jsou ale metadata, která musí vytvářet uživatel sám - nějak říci počítači, že se mu ten který snímek líbí a jiný nikoli, že textový dokument píše pro spolužáka nebo že tabulka v Excelu je vyúčtování z výletu. A zde již existuje problém, neboť tato data se nechce téměř nikomu zadávat. Systém je pak odkázán na automatické metody, které jednak nejsou tak účinné a také jsou výpočetně velice náročné.

A zde je možné vidět další slabou stránku sémantického desktopu, kterou je hardwarová náročnost. Nekonečná indexace souborů, komunikace s databázemi a zpětná práce s nimi, to vše je velice obtížné a tak dochází ke snižování výkonu počítače. Obecně se má dnes za to, že hlavní brzdou vývoje je právě stále příliš vysoká výpočetní složitost a malý výkon pracovních stanic.

Pak jsou zde ještě dva významné reálné problémy. Prvním je nedostatek zajímavých technologií a výsledků nasazení sémantického desktopu pro obyčejného uživatele. Cena kterou zaplatí výkonem je příliš vysoká za nepatrně pohodlnější vyhledávání. S tím souvisí i druhý aspekt konceptu. Programů, které by například pracovaly s PIMO (například kompletně zvládaly organizaci času, e-mailů či kontaktů) je velice málo a jde jim spíše o experimentální nasazení, než o reálné využití.

Ač může být koncept sémantického desktopu v budoucnu velice zajímavý, jeho praktické provedení v KDE díky projektu Nepomuk a s ním spojenými aplikacemi je zatím příliš akademické a pro koncové uživatele nezajímavé. Pravdou je, že vývoj je poměrně intenzivní a především v oblasti rychlosti se toho za poslední rok hodně zlepšilo.

Ontologie

Základním pojmem, kterému se v této části článku budeme věnovat, je ontologie. Jde o informatický pojem, pod kterým se skrývá formální popis určité problematiky. Pro zjednodušení si můžeme triviální ontologii představit jako slovník, který má na jedné straně heslo a na druhé jeho popis a případně vazby na hesla další. Datový model ontologie obsahuje čtyři základní prvky, pomocí kterých je možné provádět budování znalostí.

Jedinec je základním stavebním objektem, který může být konkrétní živý i neživý objekt (člověk, kámen, stůl, graf) nebo také zcela abstraktní abstraktní objekt (číslo, pojem, událost, axiom,..).

Třída je množinou jedinců, stejného druhu. Je možné budovat podtřídy. Třída může obsahovat současně podtřídy i jednotlivce.

Atribut popisuje určitou vlastnost, charakteristiku či parametr jedince. Každý atribut určitého jedince obsahuje přinejmenším název a hodnotu. Pomocí atributů tedy definuje vlastnosti jednotlivých jedinců.

Vazba je jednosměrné nebo obousměrné propojení dvou jedinců.

Toto rozdělení je možné snadno demonstrovat na jednoduchém příkladu. Pokud chceme vytvořit ontologii stolu, pak vytvoříme jedince (počítač), kterého zařadíme do třídy (elektronika) a přiřadíme mu atributy (HDD = 320 GB; RAM = 2 GB; vyrobce = IBM, typ = desktop, Usb3 = no) a samozřejmě přidáme vazby na další objekty reálného světa (například že je to můj pracovní nástroj nebo že stojí na stole). Zajímavé je, že jsou v podstatě kopírovány Aristotelovské kategorie jsoucen a že velice podobně myslí také člověk. Jeho zásadní výhodou ale je, že umí přiřazení do třídy a vazeb vytvářet zcela automaticky, což počítač neumí. Ten je schopen identifikovat jedince a případně mu přiřadit přiměřené atributy (nějakou analýzou).

K tomu, aby bylo možné s ontologiemi na počítači reálně pracovat, je třeba, abychom měli jednak formální jazyk, kterým je budeme zapisovat (což je u Nepomuku RDF, respektive RDFS, OWL  a NRL) a pak také nastavené atributy a třídy, které budeme chtít používat. To nám umožní s daty provádět rozumné operace. Konkrétně u Nepomuku jsou zatím zavedeny pět ontologických skupin (situace je ve skutečnosti o něco složitější a například NIE představuje celou ontologickou rodinu):[2]

  • NIE slouží promodelování informací, které jsou běžnou součástí počítačových souborů. Jde například o metadata o souborech, textových dokumentech ae-mailech, kontaktech, EXIF či ID3.Jeho součástí je také NFO, které slouží pro popis vztahů mezi soubory a zachycení informací, které jsou v nich obsaženy.
  • NRL je určený na práci s pojmenovanými grafy.
  • NAO slouží především pro popis grafů, které jsou vytvořené pomocí NRL.
  • PIMO je zaměřen především na integraci údajů o osobách (ale i jiných reálných objektech).
  • TMO slouží pro modelování osobních úkolů, všeobecně známých jako to-do list.

Samozřejmě, že ontologií může být více a neustále se diskutuje o zavádění dalších. Zde je možné vidět dva základní parametry toho, kolik ontologií je pro popis optimální. Na jedné straně je možné říci, že čím jich bude více, tím jemněji, jednodušeji a přesněji můžeme popisovat jednotlivé objekty. Na druhé straně nám ale roste náročnost na zpracování takových dat a je obtížnější mezi nimi budovat nějaké vazby.

Stejný systém práce s ontologiemi se používá při modelování umělé inteligence či v sémantickém webu.

Je zajímavé si uvědomit, že celý koncept ontologií je založený na struktuře velmi podobné myšlenkové mapě - jedinci jsou uzly spojené vztahy a jejich atributy jsou grafické obrázky u nich nebo jen to, co si vybavíme při pohledu na daný pojem.

V tomto ohledu je lidské myšlení mnohem výkonnější a kreativnější než jsou možnosti počítačů.

Aktuální výzkum v oblasti sémantického desktopu je zaměřený především na to, jakým způsobem efektivně nacházet vztahy mezi jednotlivými objekty, například formou analýzy činnosti uživatele, znalostními databázemi nebo učícími se algoritmy.

Aktuální výzkum

Aktuální výzkum v oblasti sémantického desktopu a jeho praktických aplikací je možné rozdělit do několika základních oblastí [3]:

Vyhledávání jak již bylo řečeno, základní aplikací současnosti je inteligentnější vyhledávání a filtrování dat na počítači. Je třeba snižovat systémové nároky, vylepšovat ontologie atp. Zajímavé může být propojení se sémantickým webem a práce v oblasti dotazování se přirozeným jazykem.

Desktop je druhou významnou oblastí, která se silně rozvíjí. Jde zde o schopnosti jednotlivých aplikací efektivně využívat služeb, které sémantický desktop nabízí. Může jít o inteligentní správu projektů, nové možnosti komunikace atp.

Perzonalizace a učení. Sémantický desktop by měl být schopen inteligentně reagovat na potřeby a aktivity jednotlivého uživatele a vhodným způsobem se mu přizpůsobovat. Činnost uživatele a jeho intelektuální možnosti a potřeby by se měli odrážet také v oblasti prezentovaných výsledků hledání a informačním i znalostním managementu.

Analýza dat je oblastí, která je snad nejvíce diskutovaná. Je třeba, aby se počítač naučil rozumět dokumentům a přirozenému jazyku, uměl jej analyzovat, zařadit a rozumným způsobem zpracovat. Zde jsou ještě velké mezery a vývoj v této oblasti bude ještě velice složitý. Prozatím se používají metody jako je vyhledávání klíčových slov, analýza nadpisů v dokumentech a řada dalších spíše pomocných činností.

Sociální vrstva celého modelu je založená na sdílení a vyměňování informací. Uživatelé budou moci jednoduše sdílet znalosti a informace (ty mají přesnou strukturu), vytvářet znalostní centra, efektivně spolupracovat nebo využívat znalosti svých kolegů. V této oblasti jsou poměrně zásadní také bezpečnostní otázky.

Existují i další oblasti výzkumu, jako je hledání nových ontologií, vylepšování směrovacích algoritmů ve znalostní síti nebo optimalizace jednotlivých nástrojů, které sémantickému desktopu zajišťují reálnou funkčnost.

Aby bylo lépe patrné, jak celý koncept funguje a jaké jsou vlastnosti jednotlivých vrstev, je vhodné se podívat na dva diagramy, které zachycují strukturu sémantického desktopu pomocí modulárních struktur.

Na tomto schématu [3] je jasně patrné, že celý projekt je možné rozdělit do řady dílčích oblastí, které je možné řešit relativně samostatně, což je z pohledu vývoje velice výhodné. Prozatím se jako kritická jeví především nejnižší vrstva spojená s komunikací.

Druhé schéma [1] naznačuje jiný možný model uspořádání vrstev a komunikaci mezi nimi, na kterém je možná lépe viditelné, jakým způsobem spolu jednotlivé prvky komunikují a jakými konkrétními technickými prvky jsou vytvářeny.

Budoucnost?

Jaké je budoucnost sémantického desktopu? Osobně si myslím, že během několika málo let bude možné provádět pokročilejší analýzu přirozeného jazyka (alespoň v angličtině), která povede k mnohem většímu generování metadat, která bude moci počítač používat. Lze očekávat dobré výsledky také v dalších oblastech, jako jsou učící se algoritmy či větší dostupnost užitečných aplikací. Desktop bude schopen na základě otázky v přirozeném jazyce najít přiměřenou odpověď a především bude ale zajišťovat precizní informační management pro každého jednotlivce.  Právě to může být významným impulsem pro řadu ekonomických změn, které si ani příliš nedovedeme představit. Od vzniku nových profesí, přes změny struktury řízení firem až po větší ekonomickou efektivitu.

Sémantický desktop může být velkou revolucí v oblasti vyhledávání informací a znalostí, čímž může do značné míry ovlivnit také vědy knihovní.

Stačí si jen představit, že to bude právě knihovna, která bude mít velké zdroje znalostních databází, ke kterým se budou jednotlivý uživatelé moci automaticky připojit a zjistit, co potřebují.

Pokud chcete koncept sémantického desktopu okusit na vlastní kůži, není nic snazšího, než si nainstalovat libovolnou linuxovou distribuci s grafickým prostředím KDE 4.x a pustit se do experimentů.

Článek vychází ze seriálu o sémantickém desktopu pro server myslenkove-mapy.cz.

Zdroje:

[1] VADINSKÝ, Ondřej. Abc Linuxu [online]. 2010 [cit. 2011-11-19]. Nepomuk-KDE: Sémantický desktop pro Linux. Dostupné z WWW: <http://www.abclinuxu.cz/clanky/nepomuk-kde-semantickydesktopprolinux#!/-1/>. ISSN 1214-1267.

[2] Semanticdesktop.org [online]. c2009 [cit. 2011-11-19]. OSCAF/NEPOMUK Ontologies. Dostupné z WWW: <http://www.semanticdesktop.org/ontologies/>.

[3] GROZA, Tudor , et al. Ir.library.nuigalway.ie [online]. 2007 [cit. 2011-11-19]. The NEPOMUK Project - On the way to the Social Semantic Desktop . Dostupné z WWW: <http://ir.library.nuigalway.ie/xmlui/handle/10379/437>.

Fotogalerie

Líbil se vám článek?
Stáhnout článek v PDF

10 komentářů

Obrázek uživatele Anonym
Anonym
15. 6. 2019

later participated in the war with gucci belt, meritservice award (the first year of the air jianhou. Louis Vuitton Shoes Replica With the crossbow will start, from into the han, to duwei gucci belt). The eighty-seventh place winner. Replica Gucci Sunglasses He defected to hermes belt as an official of the rebel army, and participated in the attack of gucci belt with the official position of du wei. At the beginning of the guest officials, Replica Hermes Belt from the han, to duwei gucci belt).

Obrázek uživatele Anonym
Anonym
23. 8. 2019
China and the United States once had a ping pong diplomacy. replica gucci slides The outcome of that game is no longer important. The only important thing is diplomacy and friendship.
Obrázek uživatele Anonym
Anonym
2. 9. 2019

Drinking at the banquet, people have to clink each other, this is a courtesy in big occasions, in small occasions or completely private occasions,fake gucci hat fake gucci hat

Obrázek uživatele Anonym
Anonym
12. 8. 2019
It’s so entertaining and even valuable on the other hand. kimstarscash.club
Obrázek uživatele Anonym
Anonym
12. 8. 2019
Carry on with discussing your fantastic creative ideas with us! crossfirecoins.club
Obrázek uživatele Anonym
Anonym
17. 8. 2019

Great post full of useful tips! My site is fairly new and I am also having a hard time getting my readers to leave comments. Analytics shows they are coming to the site but I have a feeling “nobody wants to be first”. 파워볼사다리

Obrázek uživatele Anonym
Anonym
20. 8. 2019

wow this good but ,I like your post and good pics may be any peoples not like because defrent mind all poeple , Professional Patent Illustrators

Obrázek uživatele Anonym
Anonym
24. 8. 2019

This is a smart blog. I mean it. You have so much knowledge about this issue, and so much passion. You also know how to make people rally behind it, obviously from the responses. voyance-retour-amour.com

Přidat komentář

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback