Sémantický web, standardy RDF a Topic Maps v Kurzu Digitální dokumenty (OUC, Oslo/NO, ERASMUS, podzim 2009)

Text pojednává o náplni kurzu Digitální dokumenty, který jsme absolvovali (autor a Kristina Luskačová) v podzimním semestru 2009 v rámci programu ERASMUS. V první části práce se autor zabývá charakteristikou norského vzdělávacího systému a podmínkami, které jsou studentům poskytnuty. Ve druhé části pojednává o hlavních tématech kurzu s důrazem na oblasti, které se zatím u nás v dostatečné míře nediskutují, ale přesto jsou vysoce aktuální a určují trend v oblasti sémantického webu a digitálních knihoven. Jedná se především o standardy sémantického webu RDF, Topic Maps. Autor upozorňuje na možnost nekonzistentního překladu anglických odborných termínů, a proto se v textu setkáte také s původními pojmy.

Na úvod článku bych uvedl několik údajů, které vystihují norský vzdělávací systém a jeho specifika. Podle vzdělanostního indexu, který vydává Human Developement Reports, se v roce 2007 na první příčce objevilo právě Norsko s indexem 0.989, zato Česká republika obsadila 36. místo s indexem 0.938[1]. Podle nejaktuálnějších statistik programu Erasmus se do Norska v roce 2007 - 2008 vypravilo 88 Čechů. Z Norska k nám přijelo pouze 18 studentů[2]. Podle databáze OECD StatsExtracts v roce 2007 úspěšně ukončilo studium žurnalistiky a informačních studií (Journalism and informatics) 880 studenu v ČR a 717 v Norsku[3]. Ze zmíněných čísel je možné usuzovat, že vzdělávací systém v Norsku je kvalitní, o čemž jsme se také přesvědčili.

Podmínky pro studium byly velice dobré. Celý školní kampus je vybaven mnoha počítači s Internetem a sítí wifi. Klid na studium zaručují četné koutky opatřené sedačkami a stolky. Také učebna, kde jsme trávili každý týden tři hodiny, byla vybavena počítači, které jsem při přednáškách používali jak pro praktické úkoly, tak pro psaní poznámek.

Kurz Digitální dokumenty (DD) byl určen dvěma typům zahraničních studentů. Kolegyně a já jsme do Norska jeli v rámci projektu Erasmus, ostatních asi dvacet studentů se účastnilo v rámci projektu Erasmus Mundus. Tento program je dvouletý a v průběhu studia studenti navštěvují kurzy na třech univerzitách - Oslo University College (Norway), Tallinn University (Estonia), and Parma University (Italy)[4]. Kurz DD byl pro tyto studenty úvodním.

Kurz DD vyučoval Associate Professor Nils Pharo, který se zabývá především chováním uživatelů v elektronickém prostředí a na toto téma již publikoval řadu odborných článků. Veškeré další informace o kurzu jsou dostupné na internetových stránkách, kde jsou vystaveny také kompletní tematické okruhy kurzu, studijní materiály a povinná literatura[5].

Hlavními tématy kurzu, které byly v průběhu semestru do značné míry aktualizovány a inovovány, jsou[6]:

  • digital genres
  • digital libraries
  • metadata in digital surroundings
  • ontologies (nikoli nauka o bytí)
  • topic maps
  • semantic web standards
  • information architecture

V praxi kurz obsahoval 12 přednášek s hlavními tématy:

  • Introduction - úvod do studia a základy digitálních textů
  • Digital libraries - typy, architektura, výzvy
  • User behaviour in digital environments
  • Indexing
  • Ontologies
  • The semantic web
  • SKOS and Linked data
  • Introduction to topic maps
  • Topic maps and knowledge organisation
  • Dublin Core
  • Metadata interoperability
  • Information architecture

II. Kurikulum kurzu Digitální dokumenty

V následující části textu se pokusím jednoduše popsat, o čem jednotlivá témata kurzu pojednávají. Jistě není možné podat zcela vyčerpávající přehled znalostí, které jsme v kurzu nabyli; k tomu by bylo třeba hlubší studium literatury. Text by měl sloužit především pro rychlou orientaci nebo jako podklad pro možný budoucí realizovaný kurz.

Introduction

Na první hodině jsme se seznámili s nezbytným základem znalostí. S tématy jsme se již v minulosti seznámili, takže pro většinu studentů byl obsah hodiny spíše opakováním. Pharo zavedl řeč na historii digitálních knihoven (DL) a jejich funkci ve společnosti. Neoddělitelnou poznámkou jsme se zevrubně bavili o prvních PC, rozvoji ICT, digitální revoluci a vzniku takového webu, který známe dnes. K této oblasti patřilo stěžejní téma první hodiny - digitální žánry. Digitální žánr je jakási forma webu, do které je zasazen obsah nebo nějaké sdělení. Mnoho studií na toto téma přišlo s různými existujícími žánry. Pro ilustraci se jedná o Home page, Resource, Catalog, Search engine, nebo třeba Game. To, jak se jednotlivé žánry mění či jak si obsah předávají mezi sebou, je zajímavé pozorovat na příkladu:

Je důležití si uvědomit, že jednotlivé žánry vznikají a zanikají. Představme si personalizovanou stránku iGoogle, na kterou je možné umístit informační panel s kalendářem nebo mailem apod. Dalším příkladem je Facebook, kde každou minutu přibude nová informace, Blog atd.

Digital Libraries

Ve druhé hodině jsme přistoupili podrobněji k definici DL. Tyto definice jsou dvě: 1) z perspektivy vědce se jedná o servis, architekturu, informační zdroj a nástroj, který vyhledává, shromažďuje a zpřístupňuje informační zdroje, 2) proud - knihovnický - definuje DL jako organizaci, která se stará o zpřístupňování digitálního fondu. Za zmínku stojí také historicky první DL - Project Gutenberg, který byl spuštěn v roce 1971. Mezi dnes celosvětově nejznámější DL patří World Digital Library nebo Google Books. Následně jsme se dotkli také dvou metod, které zajišťují sběr metadat a přístup ke zdrojům DL. Je to 1) Distributed searching, který využívá klienta k rozesílání příkazů na jednotlivé zdroje (DL), které mu odpovídají. Zde je využit komunikační protokol Z39.50, 2) je to tzv. Harvesting metadata. Tento přístup sbírá metadata prostřednictvím OAI-PMH (The Open Archives Initiative Protocol for Metadata Harvesting).

Zabývali jsme se dále ekonomikou DL, vyhledávacími metodami a systémy, které je možné využít při realizaci DL (Dspace, Fedora, Greenstone).

Informační chování

Tato hodina byla specifická především proto, že uvedená povinná literatura obsahovala také dva texty, které publikoval Pharo. Ze začátku jsme se bavili o dosavadních výzkumech, které popisovaly kategorie nezbytné pro výzkum komplexního informačního chování. Mezi tyto kategorie patří charakteristika vyhledávajícího uživatele, pracovní úkol, požadavek na vyhledání a sociální a institucionální kontext. Niels k těmto kategoriím přidává také proces vyhledávání. Ten se skládá z tzv. search transition a search situation. Touto metodou lze zjistit také to, jak je uživatel efektivní, jak záleží na jeho minulých zkušenostech, znalostech o existenci databází, metod vyhledávání apod. Takováto metoda zkoumání informačního chování se nazývá metoda SST (search situation transition method). Podrobnější informace je možné nalézt v článku A new model of information behaviour based on the Search Situation Transition schema.

Indexing

Čtvrtá hodina byla věnována indexování dokumentů. Mezi stěžejní myšlenky, které mimo jiné obsahovaly také definici a klasifikaci selekčních jazyků nebo automatizované indexování, se objevila otázka, kdo by měl fond DL indexovat? Knihovník nebo uživatel DL? Do témat tak zasáhla implementace folksonomie a tagování obsahu.

Ontologie

Ontologie je v tomto významu chápána nikoli jako nauka o bytí, ale jako „explicitní specifikace konceptualizace"[7]. Ontologie jsou používány k popisu nějaké části světa a jsou vytvořeny tak, že jim sémanticky porozumí také počítač. Ontologie vytváří hierarchické kategorie, které symbolizují třídy a podtřídy (classes, subclasses). Do těchto tříd patří instance, tedy specifické pojmy, věci apod. (instances). Mezi samotnými kategoriemi a instancemi existují nějaké vztahy (relationships). Dále mají kategorie, instance a zmíněné vztahy nějaké hodnoty (values), které k nim jsou přiřazeny prostřednictvím příslušných vlastností (properties). Příkladem může být:

<má Název> Inflow - information journal
<má isbn>1802-9736
<má neformální Název> Inflow

Pro formalizovaný popis vztahů mezi kategoriemi a instancemi slouží struktura ontologie, která může vypadat např. takto:

Fido <je rasa> boxer
Boxer <má barvu> hnědá
Fido <má barvu> hnědá

Jako názorný příklad ontologie může posloužit obrázek č. 1:

Obrázek č. 1.

Strukturovanou ontologii je možné vyjádřit díky standardizovaným jazykům, které jsou základem tzv. sémantického webu: Topic maps (standard ISO[8]) a RDF[9] a OWL[10] (vydané konsorciem W3C).

Sémantický web

V této hodině jsme se věnovali technologii sémantického webu, jehož základní myšlenkou je zpřístupnit obsah webu tak, aby mu porozuměl vedle člověka také počítač. Faktory, které k vývoji sémantického webu vedou, jsou především nároky uživatelů, kteří požadují informace posbírané (collect), interpretované (interpret), porovnané (compare) a spojené (connect). Dosavadní systém webu tyto požadavky dostatečně nereflektuje.

Termín sémantický web uvedl v roce 2001 do širšího povědomí T. Berners-Lee a konsorcium W3C, které také navrhlo standard RDF (Resource Description Framework), RDF schema a také další standard sémantického webu - OWL (Web Ontology Language). Sémantický web a použité technologie doplňuje také XML (Extensible Markup Language).

RDF syntakticky vytváří tzv. trojice (triples), které popisují to, co je vlastní subjektu. Doslova popisují subjekt, predikát a objekt, které jsou identifikovány pomocí URI (Uniform Resource identifier - URN, nebo URL) a dohromady nesou nějakou informaci.

Např.

RDF umožňuje díky uvedeným trojicím sémanticky popisovat databáze. Např. ze záznamu v Alephu:

Knihy

Důležité je, že trojice musí být identifikována pomocí URI. Uvádím příklad blogu na Inflow: http://www.inflow.cz/literatura-k-3d-vzdelavani má Autora, který má hodnotu Tomáš Bouda.

Aby tomuto zápisu porozuměl i počítač, je nutné vytvořit tzv. RDF/XML syntax:

RDF/XML syntax umožňuje zahrnout několik URI do syntaxe. Příklad knihy a odkazu na knižní recenzi: 

       

RDF/XML syntax umožňuje vytvořit hierarchické kategorie. Je to dáno tím, že RDF podporuje klíčové komponenty, jako je: class, subclass relations, property, subproperty, relations, domain and range constraints. Následující příklad definuje třídu učitel jako podtřídu třídy zaměstnanec:

 

Spojená data (Linked data) a technologie sémantického webu v knihovnách

Data DL jsou opatřena deskriptivními, administrativními a strukturálními metadaty. Celá sbírka je k tomu hierarchicky klasifikována za pomoci selekčního jazyka. S prosazování sémantického webu přichází potřeba vyjádřit organizaci znalostí (Knowledge organisation) pomocí RDF tak, aby byla data automaticky sdílena a spojována (merged). K tomuto účelu navrhlo W3C tzv. systém SKOS (Simple Knowledge Organisation  system), který pomocí slovníku vyjadřuje kontrolovaný slovník do RDF a je možné jej použít k takovým hierarchickým a asociačním klasifikacím, jako je tezaurus (především: related term, narrow and broader term).

 

Pokud převádíme tezaurus do SKOSu, je možné použít tzv. A Method to Convert Thesauri to SKOS.

Obecně lze říci, že čím víc je RDF/XML syntax propojena pomocí URI s jinými systémy, klasifikacemi nebo slovníky, vzniká komplexnější a hodnotnější sémantický web. Na obrázku č. 2 je schematický model propojení nejrůznějších systémů. Je zde zahrnut tzv. foaf (The Friend of a Friend project), systém, který zpřístupňuje strojově čitelné stránky lidí propojené s tím, co dělají nebo vytvořili. Bibo (the Bibliographic Ontology Specification), systém, který strojově popisuje citace a bibliografické záznamy. Dále je zahrnut Dublin Core, Libris, Geo apod.

Obrázek č. 2. Zdroj: http://blog.libris.kb.se/semweb/?p=7

Je nutné dodat, že RDF/XML syntax, SKOS a také další standardy sémantického webu jsou aplikovatelné pouze za předpokladu otevřenosti systému, tzn. musí být používány URI a zpřístupňována další data. Projekt Linked Open Data se právě touto agendou zabývá. Cílem projektu je převést všechny dokumenty, které jsou publikované pod otevřenou licencí do RDF syntaxe.

Další zajímavé informace můžete nalézt v následujících zdrojích:

Topic Maps

Standard Topic maps (TM) je inspirován indexem, který se zpravidla objevuje na zadních stránkách knih. TM byl vytvořen za účelem strukturování webových stránek a pro jejich sdílení. Základem TM jsou Topics - reprezentace reálného objektu. Topics jsou propojeny tzv. asociacemi (Associations), které přinášejí do struktury TM sémantický význam. Každý topic může být prostřednictvím asociací navázán na jeden až n dalších topiců. Každý topic je spojen s reálnou informací, předmětem, částí kapitoly, apod., které jsou nazývány Occurances. Na obrázku č. 3 je možné vidět strukturu TM. Topics jsou representovány modrými kruhy, asociace šipkami a occurances barevnými čtverci.

Obrázek č. 3.

Jednotlivé topicy jsou různého typu. Tak vzniká např. Hunger je název (knihy), Vågå je místo. Důležité však je také to, že tyto typy topiců jsou samy dalšími topicy.

Také asociace jsou různého typu. Např. Knut Hamsun se narodil ve Vågå.  Hanger byl napsán Knutem Hamsunem. Stejně tak, jako u topicy, jsou tyto typy asociací také dalšími topicy.

Ani occurances nejsou výjimkou.  Např. <http://www.amazon.com/Hunger-Knut-Hamsun/dp/1420931253/ref=sr_1_1?ie=UTF8&s=books&qid=1264932877&sr=8-1> je kniha od Hamsuna. Stejně tak, jako předcházející topicy a asociace, jsou také typy occurances novými topicy.

Syntaxe TM jsou např. XTM - XML, CTM.

Následný příklad ukazuje, jak je možné zapsat strojově čitelnou podobu informace, že Tomáš Bouda je studentem MU od roku 2005 a díky topicům také přinést sémantický kontext, že neformální jméno je Tom, že patří mezi lidi na MU, že je student apod.:

Další příklad ukazuje možnost zapsání asociace mezi iPhonem a jeho výrobce Apple:

Pro vývoj TM je možné použít nástroj Omnigátor. Demo nástroj názorně ukazuje, jak hotová TM může vypadat.

Nesporná výhoda standardu TM je jednoduché spojování již existujících map. Toto spojování je možné i přesto, že mohou existovat rozdíly, např. v jazyce daných map. Tento nedostatek v konzistenci map je odstraněn díky funkci tzv. scope (oblast). Scope omezuje platnost charakteru TM. Na následujícím případu je možné vidět, že záznam je vybaven dvěma scopy, které upravují jazykový význam mapy týkající se České republiky:

Problém TM je také v tom, co přesně reprezentuje daný topic, neboť někdy může docházet k nejednoznačnosti. Je tak nutné do každé TM přidat tzv. Published Subject Identifier (PSI), který jednoznačně určí vlastnosti a charakter příslušného topicu. Takový PSI může být jakákoli webová stránka, která význam topicu specifikuje. Jako vhodný PSI se v poslední době jeví především Wikipedie, která existuje v mnoha jazycích a vzniká na základě sociálního konstruktu. Na následujícím příkladě je zachycen jednoznačný PSI Kabinetu informačních studí a knihovnictví:

Dublin Core a další metadata

Existují tři druhy metadat: 1) deskriptivní metadata, která slouží k jednoznačné identifikaci dokumentu, 2) strukturální metadata, která reflektují strukturu dokumentu (str., kapitoly apod.) a 3) administrativní metadata, která poskytují technické informace o dokumentu, nebo určují, kdo má k dokumentu přístup. 

S vývojem digitálních médií, které obsahují zvuk, obraz apod., se vynořují otázky, jakými metadaty vybavit i jiné formáty nežli textové dokumenty. Již dnes existují formáty, které v sobě metadata obsahují. Např. do souboru TIFF (Tagged Image File Format) je možní uložit také metadata typu artist, date atd. Pro vytváření metadat zvuku je rozšířený taggovací formát ID3, který je používán v souborech MP3. Oblíbený je také MPEG 7.

Nejpoužívanějším ze standardů je DC, který přináší nesporné výhody oproti dalším zavedeným standardům, jako je MARC. DC je jednoduchý systém 15 elementů, které jsou opakovatelné a nepovinné a obsahuje deskriptivní, administrativní i strukturální metadata. Pro náročnější uživatele nabízí možnost Qualified DC, kam patří ještě další tři elementy a specifikační pravidla - encoding schemas a qualifiers. Výhodou je také jednoduchá implementace do jazyka HTML, XML a standardu sémantického webu RDF nebo TM.

Další metadatové standardy používané v rámci DL jsou např. LOM - Learning Object Metadata a TEI - Text Encoding Initiative.

Interoperabilita v rámci metadat

Parafrázovanou definici interoperability je možné uvézt jako schopnost odlišných systémů (jak HW tak SW) vyměňovat si mezi sebou data s minimálními ztrátami. Díky tomu, že volba metadatového standardu se v jednotlivých knihovnách liší v závislosti na náročnosti fondu a požadavků na vyhledatelnost, není již dnes možné udržet teorii jednoho metadatového standardu (MARCsismu), a tak je nutné přikročit k řešení interoperability.

V rámci DL je možné uvažovat o interoperabilitě na třech úrovních - (metadatové) schématické úrovni (schema level), záznamové úrovni (record level), na úrovni repositáře (repository level).

Interoperabilitu na schématické úrovni lze zajistit několika metodami: 1) derivací (derivation), kdy je nový metadatový systém vytvořen ze systému existujícího, např. derivace USMARCu z MARCu21, nebo derivace Kvalifikovaného DC z DC, 2) pomocí tzv. aplikovaných profilů (application profiles) - jedná se o přizpůsobení existujícího metadatového formátu účelům specifické komunity, např. kombinace DC a LOM pro vzdělávací dokumenty a 3) pomocí přechodů (crosswalks), kdy jsou vytvořeny metadatové dvojice elementů, které spojují odpovídající elementy. Příkladem takovýchto přechodů jsou Dublin Core do LOM, Dublin Core do MARC, TEI header do MARC, atd. 

Na úrovni záznamové existuje metoda konverze metadata (metadata conversion), kdy je metadatový obsah jednoho systému konvertován do druhého. U této metody však hrozí vysoká ztráta dat. 

Na úrovni repositáře (repository level) existují: 1) možnost sběru metadat z různých zdrojů bez konverze; takový systém využívá např. NSDL, DLESE a 2) další možností je použít jeden harvestr pro několik repositářů. Takový způsob využívá např. Diva, DUO, NORA.   

Závěr

V předmětu se dále vyskytovalo téma Informační architektury webových stránek. Avšak díky všeobecným znalostem o problému se autor rozhodl téma vypustit.

Autor při psaní textu vycházel ze studijních materiálů a kurikula Kurzu Digitální dokumenty (podzim 2009), který vedl profesor Niels Pharo.

Za zprostředkování těchto zajímavých informací panu profesorovi děkuji.



[1]    Zdroj: http://hdrstats.undp.org/en/indicators/93.html

[2]    Zdroj: http://ec.europa.eu/education/erasmus/doc/stat/table108.pdf

[3]    Zdroj: http://stats.oecd.org/Index.aspx

[4]    Zdroj: http://dill.hio.no/

[5]    Viz http://www.hio.no/content/view/full/47361

[6]    Při psaní ponechávám odborné termíny v anglickém jazyce. Vyhýbám se tak doslovnému překladu termínů, který by mohl být nejednoznačný nebo zavádějící. Někdy však význam anglických termínů doplňuji českým výrazem, a tak jej zpřesňuji, kde je třeba.

[7]    Zdroj: http://www-ksl.stanford.edu/kst/what-is-an-ontology.html

[8]    Zdroj:http://www1.y12.doe.gov/capabilities/sgml/sc34/document/0322_files/iso13250-2nd-ed-v2.pdf

[9]    Zdroj: http://www.w3.org/RDF/

[10]  Zdroj: http://www.w3.org/2004/OWL/

Fotogalerie

Líbil se vám článek?
Stáhnout článek v PDF

0 komentářů

Přidat komentář

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback