Projekty digitálních knihoven u nás a ve světě – nástroje a standardy

Předkládaný článek řeší problematiku metadatových standardů a nástrojů užívaných v digitálních knihovnách. Hlavní těžiště článku tkví v popisu konkrétních projektů digitálních knihoven u nás (Kramerius) a ve světě a standardů (nástrojů), které konkrétní projekty využívají.

Poznámka redakce: jedná se o výtah z bakalářské diplomové práce: DAMBORSKÁ, Lenka. Projekty digitálních knihoven u nás a ve světě – nástroje a standardy. Brno : Masarykova univerzita, Filozofická fakulta, Katedra české literatury a knihovnictví, Kabinet informačních studií a knihovnictví, 2010. 89 s. : 9 tab., 12 příl. Vedoucí bakalářské diplomové práce: Mgr. Pavla Švástová.

Úvod

Problematika digitálních knihoven je aktuální a často zpracovávané téma. V dnešní době existuje velké množství projektů digitálních knihoven - v České republice to jsou např. Kramerius, Česká digitální matematická knihovna nebo Manuscriptorium.

Každá digitální knihovna by měla být založena na určitých nástrojích a metadatových standardech, díky kterým bude dobře fungovat. Nástroje a standardy se mohou lišit podle různých potřeb digitálních knihoven.

Pokud digitální knihovna zavádí nebo přehodnocuje své nástroje a standardy, může se „podívat" do jiných digitálních knihoven a zjistit, jaké nástroje a standardy jsou používány tam. Může tak získat nové pohledy a nápady pro svou další práci nebo ujištění o správnosti směru, kterým se vydala. Např. Kramerius se nyní nachází ve fázi před zavedením verze 4, jejíž největší změnou oproti předchozím verzím je založení systému na digitálním úložišti Fedora. To s sebou nese i další změny týkající se nástrojů a standardů.

Cílem mé práce bylo tedy zjistit, jaké standardy a nástroje využívají vybrané zahraniční digitální knihovny, a srovnat je s těmi, které jsou využívány v České republice. Na základě stanovených kritérií jsem pro toto srovnání vybrala 13 zahraničních digitálních knihoven a 2 české.

Mimo to jsem se zabývala také metadaty a metadatovými standardy obecně a pokusila se získat alespoň základní přehled potřebných nástrojů pro digitální knihovny. Pokládám za užitečné se i této záležitosti v příspěvku krátce věnovat, avšak hlavně bych se chtěla zaměřit na dané projekty digitálních knihoven.

Nejdříve k metadatům...

Metadata jsou velmi široké téma. Dá se říct, že to jsou data o datech nebo informace o informacích. V kontextu digitálních knihoven se jedná o „počítačově zpracovatelné strukturované informační objekty, které popisují jiné informační objekty"[1] (pro popisované informační objekty se uvádí také pojmy digitální jednotky, digitální objekty, zdroje). Metadata podávají informace o obsahu informačního objektu, jeho lokaci, technických náležitostech, autorských právech, které se k němu vztahují - a to s cílem co rychleji „odhalit", co je obsahem, rychleji ho identifikovat a vyhledat, uchovat informace o něm a usnadnit správu objektu.[2]

Metadata se většinou dělí na popisná, administrativní a strukturální metadata a také se k nim připojují i archivační metadata. Popisná metadata popisují a identifikují informační objekt a dají se přirovnat ke klasickému bibliografickému záznamu. Administrativní metadata obsahují informace nutné pro  správu objektu a zahrnují technická metadata a metadata o autorských právech. Strukturální metadata popisují vnitřní uspořádání digitální jednotky - její části a vztahy mezi nimi a celý hierarchický systém (jak jdou části po sobě, která část je jim podřazená, nadřazená, ...).[3] A konečně archivační metadata mají za úkol zachovat informace pro budoucí generace - a to i přes všechny změny, které je během „jejich života" potkají, a i změny daného softwaru nebo hardwaru, který umožňuje jejich zpřístupnění uživateli.[4]

... a také k metadatovým standardům

Na základě různých typů metadat vznikají různé typy metadatových standardů. Metadatový standard je soubor metadatových prvků, který se řídí podle určitých pravidel. Soupisu těchto metadatových prvků a vztahů mezi nimi se říká „schéma", na základě kterého pak vzniká „záznam". K zápisu metadat v metadatovém záznamu se používají tzv. tagy nebo značky, které identifikují potřebné informace ve zdroji. Často se vychází ze značkovacích jazyků, které byly vytvořeny pro popis elektronických zdrojů na internetu.[5] Jedním z těchto jazyků je XML.

Metadatové standardy se dají tedy rozdělit na standardy pro popisná, administrativní (technická, autorská práva), strukturální a archivační metadata. Většinou nejsou zaměřené pouze na jeden určitý typ metadat, ale spíše tam nějaký typ převažuje.

Ze známějších standardů pro popisná metadata mohu zmínit např. MARCXML, Dublin Core nebo MODS. U standardů pro technická metadata je to MIX nebo TEI. Pro metadata o autorských právech se často používá Schema for Rights Declaration (což je rozšíření standardu METS). Strukturální metadata bývají většinou součástí nějakého standardu, který mimo jiné definuje také strukturu jednotky nebo dokumentu. A jeden z nejznámějších archivačních standardů je PREMIS.

Za zmínku jistě stojí také standard METS, který slouží v podstatě jako kontejner. Kóduje popisná, administrativní a strukturální metadata, ukládá je do jednoho souboru a tím je sjednocuje. Informace pak mohou být vyměňovány a využívány různými systémy jako jeden formát.[6]

Nástroje pro budování digitální knihovny

Aby mohla digitální knihovna dobře fungovat, musí být založena na určitých nástrojích. Těch je z čistě informačně-technologického hlediska jistě nepřeberné množství, ale mě v rámci této práce zajímají ty základní.

Jedním z nejdůležitějších nástrojů je systém pro ukládání a správu digitálních objektů - digitální úložiště, na kterém je celá digitální knihovna postavená. Slouží vlastně jako jádro  knihovny.[7] Digitální úložiště mohou být buď placené, nebo dostupné zdarma. Mohu zmínit např. systémy Fedora, Greenstone, DSpace nebo DigiTool.

Digitální objekty mohou být ukládány v úložišti v různých formátech. Často se používají běžné grafické formáty, jako je TIFF, JPEG nebo PNG. Také je využíván formát PDF. Někdy je pro zobrazení digitálního objektů potřeba speciální aplikace. U těchto jmenovaných formátů to většinou potřeba není, ale u jiných možná méně známých formátů jako DjVu[8] a MrSID[9] (využívaných většinou pro větší soubory), už je speciální aplikace třeba.

V souvislosti s formáty souborů bych ráda uvedla nástroj JHOVE, který používají digitální knihovny pro charakterizaci formátu, což usnadňuje a zrychluje procesy s ukládáním digitálních objektů v úložišti. Jedná se o nástroj, který rozpozná charakter formátu digitálního objektu na základě technických vlastností formátu.[10]

Nezbytným nástrojem v digitální knihovně je také výkonný indexovací a vyhledávací stroj. Digitální knihovny používají různé vyhledávače, např. profesionální Lucene nebo Primo.

Dalšími potřebnými nástroji jsou systémy pro autentizaci a autorizaci. Používají se v digitálních knihovnách, u kterých je nutné ověřit uživatele a umožnit mu přístup do digitální sbírky. Jeden z takových systému je JAAS.

Jako pomoc pro práci s metadaty byly vyvinuty metadatové editory, které usnadňují vytváření metadat. V ČR byl vytvořen metadatový editor pro potřeby digitální matematické knihovny, ze kterého vyšla i digitální knihovna Kramerius.[11]

Poslední nástroj, který bych ráda zmínila, je nástroj pro dosahování interoperability prostřednictvím protokolů pro vyměňování dat. OAI-PMH (Open Archives Initiative - Protocol for Metadata Harvesting) je protokol pro vzájemnou komunikaci mezi digitálními knihovnami, pomocí kterého mohou knihovny buď poskytovat nebo sklízet metadata a tím si usnadnit práci.[12] (Jedná se pouze o jednu z jeho funkcí.)

Projekty digitálních knihoven

Když přejdu k hlavnímu cíli mé práce, úkolem bylo zjistit, jaké metadatové standardy a nástroje používají zahraniční digitální knihovny a provést srovnání s našimi. Jednalo se v podstatě o průzkum digitálních knihoven. Co se týče našich digitálních knihoven, srovnání mělo být provedeno zejména s Krameriem, a zahraničních digitálních knihoven jsem vybrala třináct.

A jaké informace jsem zjišťovala?

U každé digitální knihovny mě zajímalo, jaké typy metadat vytváří (nebo jinak získává), jakým způsobem je vytváří, zda používá metadatový editor, a jaké metadatové standardy používá pro konkrétní typy metadat. Ještě jsem také zjišťovala, zda knihovna poskytuje a sklízí metadata prostřednictvím protokolu OAI-PMH.

Nástroje mě zajímaly ty základní. Hlavně šlo o to, jaký systém nebo systémy knihovna používá pro ukládání a administraci digitálních objektů (digitální úložiště, redakční systémy), v jakém formátu jsou ukládány digitální objekty (jpg, djvu, pdf aj.) a jestli uživatelé potřebují nějaké speciální aplikace pro zobrazení objektů. Dále mě zajímalo, jaký vyhledávač digitální knihovna používá, jaký autorizační a autentizační systém a další nástroje, na které narazím během prohledávání. Doplňující otázkou bylo, jak jsou digitální knihovny propojeny s katalogem, zda mají digitální objekty perzistentní identifikátor a jestli si organizace budovaly digitální knihovnu samy nebo zadaly práci externí firmě.

Nyní bych ráda představila jednotlivé projekty a zjištěné informace u každého z nich. Doporučuji si spolu se čtením všímat také webových odkazů na stránky digitálních knihoven a proklikat je. Rozhodně to ještě více zpříjemní zážitek a hlavně člověk vidí, o čem čte.

Také nutno dodat, že u většiny projektů nebyl na webových stránkách dostatek informací, proto jsem kromě prohlížení také rozesílala dotazníky. Velká část informací (zejména o standardech a nástrojích) pochází tedy ze zodpovězených dotazníků a příp. emailové korespondence.

České projekty

Kromě již zmíněného projektu Kramerius jsem vybrala také Českou digitální matematickou knihovnu (DML-CZ). V příspěvku zmíním pouze Kramerius.

  • Kramerius

Kramerius je česká digitální knihovna, která začala vznikat po povodních v roce 2002 v důsledku velkého počtu zničených nebo poškozených knih.[13] Využívají ho různé (především vědecké a studijní) knihovny a každá v něm ukládá své dokumenty. Dá se tedy říct, že Krameriů je v ČR několik. Hlavně bych zmínila Národní knihovnu ČR, která spravuje informační portál systému Kramerius (http://krameriusinfo.nkp.cz). Seznam knihoven, které využívají Kramerius, i s odkazy na Kramerius každé z nich je zde: <http://kramerius-info.nkp.cz/digitalizace-v-cr/odkazy-nasystemy-kramerius/>.

Standardy a nástroje

Kramerius je systém pro správu obsahu (Content Management System) vyvíjený firmou Qbizm a.s. Jedná se o open source a dokumenty jsou do něj ukládány v DjVu nebo jpeg.[14]

Co se týče metadatových schémat, nyní Kramerius využívá DTD (Document Type Definition) v jazyku XML.[15] Pro tvorbu metadat byl vytvořen metadatový editor, který vychází z metadatového editoru pro Českou digitální matematickou knihovnu. Kramerius využívá také protokol OAI-PMH pro poskytování a stahování metadat.

V uživatelském rozhraní je možné vyhledávat pomocí fulltextového vyhledávače Lucene a NK ČR využívá ještě externí vyhledávací nástroj Retrieval Ware CONVERA.[16] Při vyhledávání může uživatel vyhledávat ve fulltextovém vyhledávání nebo podle typu dokumentu (periodika a monografie) a pro prohlížení stránek v DjVu si musí stáhnout plug-in do prohlížeče.

Ráda bych také zmínila, že je vyvíjena nová verze systému Kramerius 4, která navazuje na stávající verzi 3.3.1. Zásadní změnou oproti starším verzím je využití digitálního úložiště Fedory jako jádra systému. Vychází se z řešení „Proof of concept - využití systému Fedora pro uložení digitálních objektů DTD Periodika a Monografie" z roku 2008, které je přístupné na stránkách Digitalizačního centra knihovny Akademie věd ČR: <http://digit.lib.cas.cz/index.php?cat=fedora>.

V rámci nového systému by měl být využíván MODS jako hlavní popisný metadatový standard a také Dublin Core. Dále se budou využívat PREMIS a MIX a rámec METS.[17]

Z pracovního dokumentu Krameria 4 vyplývá, že pro přihlášení bude použit autentizační mechanismus JAAS. Import a export záznamů by měl být možný ve formátu FOXML, popř. v METS nebo ATOM.

Zahraniční projekty

Při výběru konkrétních zahraničních projektů mi pomohl seznam na stránkách The European Library: <http://search.theeuropeanlibrary.org/portal/en/collections_all.html>. A také přehled digitálních knihoven na stránkách European History Primary Sources: <http://primary-sources.eui.eu/country>.

Zde je seznam 13 vybraných projektů digitálních knihoven i s odkazy. V tomto příspěvku se věnuji pouze některým.

  1. Anemi - Digitální knihovna moderních řeckých studií: <http://anemi.lib.uoc.gr/>
  2. ANNO: <http://anno.onb.ac.at>
  3. Australská národní knihovna - digitální sbírky: <http://www.nla.gov.au/digicoll/>
  4. Dánská královská knihovna - digitální sbírky (rozcestník): <http://www.kb.dk/en/nb/materialer/e-ressourcer/index.html>
  5. Estonská digitalizovaná periodika (DEA): <http://dea.nlib.ee>
  6. Gallica: <http://gallica.bnf.fr>
  7. Gruzínská národní parlamentární knihovna - digitální sbírky: <http://www.nplg.gov.ge/frames.php?lang_id=ENG&url=/gsdl/cgi bin/library.exe>
  8. e-Helvetica: <http://www.nb.admin.ch/nb_professionnel/01693/index.html?lang=en>
  9. Hispánská digitální knihovna: <http://bdh.bne.es/bnesearch/>
  10. Chronicling America - historické americké noviny: <http://chroniclingamerica.loc.gov/>.
  11. Kalifornská digitální knihovna: <http://www.cdlib.org>
  12. Letonica (rozcestník): <http://lnb.lv/lv/digitala-biblioteka>
  13. eLuxemburgensia: <http://www.eluxemburgensia.lu>

ANNO (AustriaN Newspapers Online) je projekt Rakouské národní knihovny a jedná se o digitální knihovnu rakouských historických novin a časopisů. Tato periodika byla vydávána ve velkém formátu a na křehkém papíru, což znesnadňuje manipulaci s nimi a ta jim také škodí. Jsou tedy digitalizována s cílem zpřístupnit je širší veřejnosti (zejména pro studijní a vědecké účely) a také uchovat pro další generace.[18] Projekt byl zahájen v roce 2003 a byl kladen důraz hlavně na digitalizaci novin vydávaných v letech 1700-1938. V současné době digitální knihovna obsahuje více než 4,5 milionu naskenovaných stránek.[19]

Standardy a nástroje

ANNO používá tyto metadatové standardy (dle zodpovězeného dotazníku):

  • pro popisná metadata - MAB-2, Dublin Core
  • pro technická metadata - MIX (obrázky), TEXTMD, VMD (video)
  • pro archivační metadata (+ metadata o historii objektu) - PREMIS
  • pro metadata o právech - METS Rights Declaration
  • METS jako rámec pro kódování a výměnu metadat

Metadata jsou generována automaticky nebo vytvářena ručně. ANNO používá metadatový editor pro digitální úložiště Digitool a také interní editor systému Aleph 500. Využívá také protokol OAI-PMH. Jako digitální úložiště ANNO používá Digitool od firmy ExLibris (jak již vyplynulo z horních řádků). Stránky jsou zde ukládány ve formátech pdf, tiff a jpeg. Pro autorizaci a  autentizaci jsou používány interní systémy opět pro Digitool a Aleph 500, pro vyhledávání stroj Lucene.

Co se týče vyhledávání, uživatel může prohlížet noviny a časopisy podle abecedy nebo roku vydání. Také může vyhledávat v obsahu některých časopisů podle autora, názvu článku, roku anebo v seznamu autorů.[20]

  • Estonské digitální noviny 1821-1944 (DEA)

Tato estonská digitální knihovna (http://dea.nlib.ee/) obsahuje staré estonské noviny z let 1821 - 1944. Buduje ji Estonská národní knihovna od roku 2004. Důvodem pro digitalizaci novin byl jejich špatný stav a také opotřebení mikrofilmů, které začaly být v rámci tohoto projektu digitalizovány.[21] Nyní by mělo být v digitální knihovně nejméně 360 000 stran novin.[22]

Standardy a nástroje

Z materiálu, který mi poslala koordinátorka projektu, jsem zjistila, že digitální knihovna používá Fedoru (2.0). Digitální objekty jsou ukládány v metadatovém formátu pro Fedoru - FOXML.

Jako výměnný formát je používán METS, ale bere se v potaz i DIDL nebo MPEG21. Co se týče vyhledávače, nyní knihovna používá interní vyhledávač Fedory. Naskenované stránky jsou ukládány ve formátu TIFF a PNG.

Jak lze zjistit ze stránek DEA, jednotlivé obrázky jsou zobrazovány ve velkém formátu a uživatel potřebuje k zobrazení software Java Runtime Environment (JRE).[23]  Ten umožňuje to, že uživatel může „putovat" po stránce pomocí červeného výběru na zmenšené stránce po levé straně. Může si stránku také trochu zmenšit nebo dokonce ještě zvětšit nebo otáčet. Je možno podívat se zde (po výběru čísla): <http://dea.nlib.ee/index.php?lid=215&byea=1917&bmon=12>.

Gallica je digitální knihovna budovaná Francouzskou národní knihovnou. Poskytuje přístup jak k veřejně přístupným materiálům, tak i k materiálům chráněným autorským právem (což je projekt Gallica Experiment : Offering Digital Resource Legally Available). Digitalizace materiálů probíhá už 10 let a mezi nimi je několik desítek tisíc knih, obrázky, periodika, rukopisy, mapy a zvukové nahrávky. Jedná se většinou o vědecké, historické a kulturní dokumenty.[24]

Standardy a nástroje

Gallica používá následující metadatové standardy (dle zodpovězeného dotazníku):

  • popisná metadata - Dublin Core;
  • technická metadata - MIX pro obrázky, TextMD, MPEG7 pro audiovizuální materiály, XML/ALTO pro uchování textových souborů z OCR;
  • strukturální metadata - METS;
  • archivační metadata - PREMIS;
  • jako rámec pro výměnu a kódování metadat - METS, refNum.

Větší část digitalizačního procesu se děje mimo Gallicu. Metadata (ve standardu refNum) vytváří externí firma. METS záznamy jsou včetně archivačních a technických metadat vytvářeny automaticky při importu digitálních objektů do digitálního úložiště. Popisná metadata jsou získávána z katalogizačních záznamů. Knihovna ještě používá metadatový editor pro refNum.

Gallica má svůj vlastní systém pro správu digitální knihovny a také své vlastní digitální úložiště. Digitální objekty v něm ukládá ve formátu tiff, které jsou pak transformovány do formátu png pro zobrazení na webu. Některé obrázky jsou zobrazovány v jpg.

Pro zobrazení souborů užívá Gallica dva různé speciálně vyvinuté plug-iny - jeden je založený na Javě+JPG2000 a druhý je ve Flash souboru. Jako téměř každá digitální knihovna používá open source vyhledávací stroj Lucene.

Ohledně digitálního úložiště - systém se jmenuje SPAR a jeho cílem je bezpečné ukládání dat. Měl by soustavně sledovat a kontrolovat všechny záznamy a předcházet případné ztrátě dat. Je charakteristický tím, že vytváří více kopií každého digitálního objektu a pokud je formát objektu (např. jpg) zastaralý, transformuje ho do novějšího.[25]

e-Helvetica uchovává digitální publikace o Švýcarsku a buduje ji Švýcarská národní knihovna. e-Helvetica je vyvíjena od roku 2001, ale ještě není podle informací na webových stránkách knihovny zpřístupněna veřejnosti (ve FAQ je zmínka o řešení autorizace pro přístup a problematika autorsko-právních podmínek[26]).[27]

Jednou ze služeb je možnost doručení elektronické publikace pro e-Helveticu, která by mohla doplnit digitální sbírku a být zpřístupněna. Tato služba je určena univerzitám, univerzitním nebo vědeckým knihovnám a jiným institucím, které mají zájem poskytnout nějakou svou  elektronickou publikaci. Tyto publikace jsou pravděpodobně jako jediné zatím zpřístupněny a to prostřednictvím OPACu knihovny - Helveticat[28](kde si lze dokument stáhnout v pdf).[29]

Standardy a nástroje

e-Helvetica používá vlastní digitální úložiště vyvíjené podle modelu OAIS. To funguje za pomoci systému pro dlouhodobé uchovávání Ninive, který zahrnuje NAS systém (Network Attached Storage), což je v podstatě počítač rozdělený na dvě části skladující data. Co se týče metadat, e-Helvetica používá METS jako kontejnerový formát a MARCXML pro popisná metadata. Pro archivační metadata je používáno schéma „Preservation Metadata" vyvinuté Národní knihovnou Nového Zélandu - to zahrnuje také technická a administrativní metadata, která jsou včleněna i s popisnými do METS.

Knihovna usiluje o to, aby každý digitální objekt v úložišti měl svůj jedinečný perzistentní identifikátor a také trvalý odkaz. To splňuje URN (Uniform Resource Names) ve formě Národního bibliografického čísla, které knihovna vytváří pro každý digitální objekt.[30]

Tato digitální knihovna je budována Národní knihovnou Španělska a obsahuje její zdigitalizované dokumenty. Jejím cílem je šíření španělského kulturního dědictví online a přispívání do Evropské digitální knihovny.[31] Obsahuje digitální kolekce různého zaměření - věda, umění, historické dokumenty, politika, staré plakáty, mapy a další.  Celkem uchovává asi 10 000 digitalizovaných dokumentů.[32]

Standardy a nástroje

BDH používá následující metadatové standardy (dle zodpovězeného dotazníku):

  • popisná metadata - MARCXML (resp. MARC21XML), kvalifikovaný DC;
  • strukturální metadata - METS;
  • archivační metadata - PREMIS;
  • jako rámec pro výměnu a kódování metadat - METS;
  • administrativní metadata jsou zahrnuta v již zmíněných.

Metadata vytváří automaticky a s pomocí několika metadatových editorů - MarcEdit, ContentE a Meditor v rámci Digitool, který používá jako systém pro správu digitálních objektů. Textové objekty v Digitool ukládá v pdf a obrázky v jpg. Dále používá formát jp2 pro kartografické materiály, který vyžaduje speciální plug-in pro zobrazení. Jako vyhledávací stroj používá komerční Autonomy a jednou z klíčových služeb knihovny je používání protokolu OAI-PMH. Dále knihovna používá JHOVE pro charakterizaci formátu digitálního objektu.

Díky emailové korespondenci jsem dále zjistila, že digitální objekty jsou propojeny s katalogizačními záznamy pomocí speciálního pole v MARC21XML, když jsou metadata získávána z katalogizačních záznamů v MARC21. A naopak katalogizační záznamy jsou propojeny s digitálními objekty prostřednictvím pole 856 v MARC21 (pole pro elektronické umístění). Digitální knihovnu si národní knihovna budovala z části sama. Digitool a nástroje k němu pochází od firmy ExLibris.

Chronicling America poskytuje informace o historických amerických novinách (vydávaných od roku 1690 až po současnost) a také přístup k vybraným novinám v digitální podobě (1880-1922).[33] Je součástí národní projektu the National Digital Newspaper Program (NDNP), na kterém se podílí Library of Congress a National Endownment for Humanities (NEH). Cílem projektu je dlouhodobé uchování historických novin s tím, že u všech je snaha zpřístupnit online jejich bibliografické informace a část z nich je vybrána k digitalizaci.[34]

Standardy a nástroje

V digitální knihovně jsou použity standardy:

  • popisná metadata - MODS;
  • technická metadata - MIX, ALTO;
  • archivační metadata - PREMIS;
  • jako rámec - METS.

Jednotlivé stránky jsou ukládány v různých formátech - tiff, jpeg2000, pdf a jpeg. V rámci NDNP bylo pro digitální knihovnu vyvinuto digitální úložiště Preservation Data Repository and Dissemination Application, které je založeno na OAIS modelu pro repozitáře a zajišťuje dlouhodobé uchování získaných dat, správu digitálních jednotek a rozšiřitelnost dat. Vyhledávání na webových stránkách je možné díky vyhledávači Apache SOLR a MySQL database stroji.[35]

V rámci NDNP byl vyvinut nástroj Desktop Viewer and Validator, který slouží pro ověření digitálních objektů při prohlížení nebo vyhledání na stránkách Kongresové knihovny (chroniclingamerica.loc.gov). Umožňuje uživatelům prohlížet a ověřovat digitální objekty v grafickém uživatelském rozhraní Windows. Dalším nástroje je JHOVE pro rozpoznání a ověření formátu objektu.[36]

Lotyšská národní digitální knihovna „Letonica" je budována od roku 2006. Jejím cílem je digitalizace sbírky Národní lotyšské knihovny a její zpřístupnění na internetu. Digitální sbírku tvoří noviny, obrázky, mapy, knihy, noty a zvukové nahrávky.[37] U některých dokumentů je k dispozici pouze naskenovaný katalog a některé dokumenty jsou přímo celé k dispozici online (noviny, časopisy, mapy, ...).

Standardy a nástroje (dle zodpovězeného dotazníku)

Co se týče standardů, pro popisná metadata Letonica používá zejména Dublin Core. Pro některé sbírky používá také MODS a další formáty určené pro Evropskou knihovnu a Europeanu. Knihovna používá také pro některé sbírky METS.

Metadata jsou obvykle přidávána manuálně ke všem druhům digitálních objektů (texty, fotografie, mapy, video, zvukové nahrávky).[38] Některá technická metadata jsou generována automaticky. Letonica používá metadatový editor Fez/Fedora a další vlastní editor založený na Infopath (aplikace Microsoft Office pro práci s formuláři založená na XML). Používá také protokol OAI-PMH.

Jako digitální úložiště má Letonica Fedoru a DOM (vlastní systém vytvořený na zakázku). V digitálním úložišti jsou objekty ukládány ve formátech jpg, jpeg2000, tiff a pdf. Pro přístup a správu uživatelů digitální knihovny je používán systém Active Directory a jako vyhledávač Verity (do budoucna je v plánu Clusterpoint).

Ukázka jedné digitální sbírky periodik je zde: <http://www.periodicals.lv>. Dá se vyhledávat ve 40 časopisech. V jednoduchém vyhledávání podle slov v článku, v rozšířeném podle konkrétního časopisu, v článcích, obrázcích nebo reklamách a také podle data vydání časopisu. Po vyhledání se zobrazí seznam vyhledaných článků a po kliknutí na článek se zobrazí jen on sám. Stránka se může zobrazit jako obrázek nebo text.

Shrnutí a závěr

Na základě zjištěných informací u všech vybraných projektů vznikl tento přehled:

1. Metadatové standardy

Pro popisná metadata zahraniční digitální knihovny nejvíce používají Dublin Core (7 z 13), potom MODS (5 z 13) a MARCXML (4 z 13). Pro administrativní (technická) metadata byl nejčastěji uveden MIX (4 z 13) a pro technický popis textů z OCR ALTO (4 z 13) - administrativní metadata někdy bývají součástí standardů pro popisná metadata nebo archivační metadata. Jako standard pro archivační metadata je téměř jednoznačně používán PREMIS. Strukturální metadata jsou většinou součástí standardu METS, který také značně převažuje jako rámec pro metadata.

Ve srovnání s tím, Kramerius zahrnuje všechny tři výše zmíněné popisné standardy včetně Dublin Core, ale jako primární popisné schéma bude užíváno MODS, dále také zahrnuje MIX, PREMIS i METS. DML-CZ využívá zejména Dublin Core.

2. Vytváření metadat / metadatové editory

Na otázku, jak knihovny vytváří metadata, jsem získala informace, že metadata jsou získávána automaticky buď generováním při skenování, převáděním z katalogizačních záznamů, sklízením z jiných zdrojů nebo pomocí metadatového editoru. V některých digitálních knihovnách se vytváří nebo doplňují ručně (např. v Letonice hlavně ručně). Pouze 6 knihoven z 13 uvedlo, že používají nějaký metadatový editor. Pro Kramerius i DML-CZ je metadatový editor důležitou součástí vytváření metadat.

3. Využívání protokolu OAI-PMH

Stejně jako Kramerius a DML-CZ i většina zahraničních digitálních knihoven využívá protokol OAI-PMH pro poskytování a sklízení metadat.

4. Systémy pro správu digitálních objektů (digitální úložiště, CMS)

Celkem pět knihoven z třinácti uvedlo, že používají jen svůj vlastní systém nebo úložiště, které bylo speciálně vytvořeno pro jejich potřeby. Dvě používají méně známé systémy (Keystone, Cumulus). Jedna digitální knihovna používá Greenstone, tři Digitool a další tři Fedoru (včetně Dánské královské knihovny). Zajímavé je, že ani jedna z vybraných zahraničních knihoven nepoužívá DSpace, kterou využívá DML-CZ.  Nejvyužívanější digitální úložiště jsou tedy open source Fedora a komerční Digitool.

Pokud se to tak dá říci, Kramerius jde směrem vývojového trendu - budování své digitální sbírky na poměrně spolehlivém open source úložišti Fedora

5. Formáty souborů a speciální aplikace pro zobrazení v uživatelském rozhraní

Dále jsem zjišťovala, v jakém souborovém formátu knihovny ukládají digitální objekty a jestli uživatelé potřebují nějaké speciální aplikace pro zobrazení těchto souborů. Zjištěné informace byly podobné - většinou se jedná o formáty tiff, jpeg, pdf. Podle zjištěných informací pouze Kramerius používá formát DjVu.

Ze speciálních aplikací bych zmínila Javu Runtime Environment, která je užívána u Estonských digitálních periodik, a plug-in pro formát jp2 užívaný pro kartografické materiály v Hispánské digitální knihovně. A samozřejmě Kramerius vyžaduje plug-in pro prohlížení djvu souborů.

Pro běžné formáty jako je tiff, jpeg, pdf nejsou potřeba nějaké speciální aplikace. Většinou už jsou v běžném internetovém prohlížeči zabudované a dají se poměrně lehce aktualizovat. Ale je také na knihovnách, zda poskytnou nějaké vhodné prohlížecí programy jako je např. METS viewer nebo pdf pager.

6. Vyhledávací stroje

Co se týče vyhledávačů, nejčastěji je využíván open source Lucene (u 5 z 13). Další využívané vyhledávače (většinou po jednom) byly např. Primo, Apache Nutch, Autonomy nebo Verity. Kramerius a DML-CZ využívají jednoznačně Lucene.

7. Systémy pro autentizaci a autorizaci

U knihoven, které neposkytují digitální dokumenty volně k dispozici, se užívá systém pro autentizaci a autorizaci uživatelů (nemám na mysli administraci, kde je takový systém bez pochyby potřeba). U pěti digitálních knihoven jsem zjistila, jaký systém používají. Dvě odpovědi se shodovaly a to u Australské národní knihovny a Letonicy, které využívají Active Directory. Další systémy byly např. CAS nebo LDAP. Oproti tomu Kramerius využívá JAAS.

Další knihovny jsou buď volně přístupné, tudíž takový systém nevyužívají (podobně jako DSpace), nebo se mi nepodařilo získat podrobnější informace.

8. Další nástroje

Dalším nástrojem, který knihovny užívají, je nástroj JHOVE pro charakterizaci formátu digitálního objektu.

Námětem pro další práci by mohl být např. kvalitativní průzkum, proč digitální knihovny využívají to, co využívají, jaké jsou podle nich výhody a nevýhody těchto nástrojů a standardů, jestli mají nebo měly podobný problém s určitou záležitostí a jak ho řešily, co by doporučily ostatním digitálním knihovnám nebo jaké jsou jejich plány do budoucna. To by mohlo pomoci např. nově vznikajícím digitálním knihovnám.

Zpracovat tuto práci bylo pro mě zajímavou zkušeností. Mohla jsem nahlédnout hlouběji do problematiky digitálních knihoven a do procesů, kterými prochází. Rozšířila jsem své obzory v tom, jaké existují zahraniční digitální knihovny a jak budují své digitální sbírky. Také jsem mohla vidět, že nutnost zachovat kulturní dědictví si neuvědomuje jen naše země, ale společný cíl mají i digitální knihovny ve světě.

Soupis literatury

About Chronicling America [online]. [Cit. 2010-04-30]. Dostupné z: http://chroniclingamerica.loc.gov/about.

Access [e-Helvetica] [online]. Last updated on: 01.05.2009 [cit. 2010-04-30]. Dostupné z: <http://www.nb.admin.ch/nb_professionnel/01693/01696/01710/index.html?lan....

Archiving [e-Helvetica][online]. Last updated on: 18.05.2009 [cit. 2010-04-30]. Dostupné z:<http://www.nb.admin.ch/nb_professionnel/01693/01696/01709/index.html?lan....

AustriaN Newspapers Online : historische österreichische Zeitungen und Zeitschriften Online [online]. c2003 Österreichische Nationalbibliothek [cit. 2010-04-26]. Dostupné z: <http://anno.onb.ac.at/anno.htm>.

BARTOŠEK, M. Technologie digitálních knihoven. In: INFORUM 2006 : 12. konference o profesionálních informačních zdrojích, Praha, 23. - 25. 5. 2006 [online]. Praha : Albertina icome Praha, 2006 [cit. 2010-05-03]. ISSN 1801-2213. Dostupné z: <http://www.inforum.cz/pdf/2006/Bartosek_Miroslav.pdf>.

BARTOŠEK, M. KOVÁŘ, P. DML-CZ: Metadata editor (serials) : návod pro uživatele [online]. Verze 30.10. 2006 [cit. 2010-04-03]. Dostupné z: <https://editor.dml.cz/help/dfm3x24f_50g5ssjrfb>.

Conserver : le project SPAR et l´archivage numérique [představení] [online]. Mercredi 14 Avril 2010 [cit.2010-04-28]. Dostupné z: <http://www.bnf.fr/fr/professionnels/conserver_spar/s.conserver_SPAR_pres....

Digiteeritud eesti ajalehed : Kollektsioon [online]. [Cit. 2010-04-26]. Dostupné z: <http://dea.nlib.ee/dea_koll.html>.

Digiteeritud eesti ajalehed : Projekt [online]. [Cit. 2010-04-26]. Dostupné z: <http://dea.nlib.ee/dea_proj.html>.

Digitizer´s Handbook : Version 3.3 [online]. [Cit. 2010-04-30]. Dostupné z: <http://www.lnb.lv/en/digitallibrary/for-partners/digitizers-handbook>.

e-Helvetica : Collecting and archiving digital publications [online]. Last updated on: 30.11.2009 [cit. 2010-04-30]. Dostupné z: <http://www.nb.admin.ch/nb_professionnel/01693/index.html?lang=en>.

FAQs [online]. c2010 BNE [cit. 2010-04-29]. Dostupné z: <http://www.bne.es/en/Catalogos/BibliotecaDigital/bibliotecadigitalhispan...

FOLTÝN, T. Kramerius system : uživatelská rozhraní [online]. Poslední změna: Úterý 10.03.2009 [2010-01-18]. Dostupné z: <http://kramerius-info.nkp.cz/digitalizace-v-nk/uzivatelska-rozhrani>.

FOLTÝN, T. Systém Kramerius [online]. Poslední změna: Úterý 10. 3. 2009 [cit. 2010-04-18]. Dostupné z: <http://kramerius-info.nkp.cz/digitalizace-v-nk/system-kramerius/>

Frequently asked questions about work processes [online]. Last updated on: 30.11.2009 [cit. 2010-04-30]. Dostupné z: <http://www.nb.admin.ch/nb_professionnel/01693/01746/01902/index.html?lan....

Gallica Experiment: Offering Digital Resources including Copyrighted Books [online]. cBnF 2010 [cit.2010-04-25]. Dostupné z: <http://www.bnf.fr/en/collections_and_services/digital_libraries_gallica/a.gallica_experimentation
_digital_offer.html
>.

GARTNER, R. Metadata for digital libraries : state of the art and future directions [online]. Bristol : JISC, 2008. Version 1.0 [cit. 2010-03-14]. Dostupné z: <www.jisc.ac.uk/media/documents/techwatch/tsw_0801pdf.pdf>.

Chronicling America : Historic American Newspapers [online]. [Cit. 2010-04-30]. Dostupné z: <http://chroniclingamerica.loc.gov/>.

JHOVE - JSTOR/Harvard Object Validation Environment [online].Last updated 2009-2-25 [cit. 2010-04-23]. Dostupné z: <http://hul.harvard.edu/jhove/>.

LIU, J. Metadata and its applications in the digital library : Approaches and Practices. Westport ; London : Libraries Unlimited, 2007. xx, 192 s. ISBN 978-1-59158-306-6.

National Library of Latvia : Digital Library [online]. [Cit. 2010-04-29]. Dostupné z:    <http://www.lnb.lv/en/digital-library>.

The National Digital Newspaper Program (NDNP) : Technical Guidelines for Applicants [online]. 8/11/2009 Library of Congress (p.11) [cit. 2010-04-30]. Dostupné z: <www.loc.gov/ndnp/pdf/NDNP_201012TechNotes.pdf>.

Österreichische Nationalbibliothek : About : Large-scale digitisation [online]. Last update 4/26/2010 [cit. 2010-04-26]. Dostupné z: <http://www.onb.ac.at/ev/about/15376.htm>.

POLIŠENSKÝ, J. Implementace formátu METS v Systému Kramerius . In: Automatizace knihovnických procesů 2007, 11. ročník seminář [online]. Liberec, 16.-17.5.2007 [cit. 2010-05-04]. Dostupné z: <http://www.akvs.cz/akp-2007/13-polisensky.pdf>.

Presentación [online]. c2010 BNE [cit. 2010-04-29]. Dostupné z: <http://www.bne.es/en/Catalogos/BibliotecaDigital/bibliotecadigitalhispan...

QBIZM TECHNOLOGIES. Proof of concept - využití systému Fedora pro uložení digitálních objektů DTD Periodika a Monografie : analýza a návrh řešení [online]. Verze 1 ze dne 19. 12. 2008. Aktualizace: 21. 1. 2009, s.1 [cit. 2010-05-04]. Dostupné z: <http://digit.lib.cas.cz/index.php?cat=fedora>.

Was ist ANNO? [online]. c2003 Österreichische Nationalbibliothek [cit. 2010-04-26]. Dostupné z: <http://anno.onb.ac.at/anno.htm>.

ŽABIČKA, P. OAI-PMH: Protokol pro metadatovou interoperabilitu [online]. [Cit. 2010-05-05]. Dostupné z: <http://knihovny.cvut.cz/akp2003/sbornik/05_zabicka.pdf>.

Poznámky

[1]    BARTOŠEK, M. Digitální knihovny : teorie a praxe. In: Národní knihovna : knihovnická revue [online]. 2004, roč. 15, č. 4, s. 233-254. ISSN 1214-0678 [cit. 2010-03-10]. Dostupné z: <http://knihovna.nkp.cz/NKKR0404/0404233.html>.

[2]    LIU, J. Metadata and its applications in the digital library : Approaches and Practices. Westport ; London : Libraries Unlimited, 2007. xx, 192 s. ISBN 978-1-59158-306-6, s. 4-5.

[3]    GARTNER, R. Metadata for digital libraries : state of the art and future directions [online]. Bristol : JISC, 2008, s. 5-6.Version 1.0 [cit. 2010-03-14]. Dostupné z: <http://www.jisc.ac.uk/media/documents/techwatch/tsw_0801pdf.pdf>.

[4]    LIU, J. Metadata and its applications in the digital library : Approaches and Practices. Westport ; London : Libraries Unlimited, 2007. xx, 192 s. ISBN 978-1-59158-306-6, s.61.

[5]    GARTNER, R. Metadata for digital libraries : state of the art and future directions [online]. Bristol : JISC, 2008, s. 6-7.Version 1.0 [cit. 2010-03-14]. Dostupné z: <http://www.jisc.ac.uk/media/documents/techwatch/tsw_0801pdf.pdf>.

[6]    LIU, J. Metadata and its applications in the digital library : Approaches and Practices. Westport ; London : Libraries Unlimited, 2007. xx, 192 s. ISBN 978-1-59158-306-6, s. 75.

[7]    BARTOŠEK, M. Technologie digitálních knihoven. In: INFORUM 2006 : 12. konference o profesionálních informačních zdrojích, Praha, 23. - 25. 5. 2006 [online]. Praha : Albertina icome Praha, 2006 [cit. 2010-05-03]. ISSN 1801-2213. Dostupné z: <http://www.inforum.cz/pdf/2006/Bartosek_Miroslav.pdf>.

[8]    DjVuLibre [online]. [Cit. 2010-05-05]. Dostupné z: <http://djvu.sourceforge.net>.

[9]    Introduction to MrSID [online]. Last updated 5/27/2009 [cit. 2010-05-05]. Dostupné z: <http://www.mass.gov/mgis/mrsid.htm>.

[10]      JHOVE - JSTOR/Harvard Object Validation Environment [online].Last updated 2009-2-25 [cit. 2010-04-23]. Dostupné z: <http://hul.harvard.edu/jhove/>.

[11]       BARTOŠEK, M. KOVÁŘ, P. DML-CZ: Metadata editor (serials) : návod pro uživatele [online]. Verze 30. 10. 2006 [cit. 2010-04-03]. Dostupné z: <https://editor.dml.cz/help/dfm3x24f_50g5ssjrfb>.

[12]      ŽABIČKA, P. OAI-PMH: Protokol pro metadatovou interoperabilitu [online]. [Cit. 2010-05-05]. Dostupné  z: <http://knihovny.cvut.cz/akp2003/sbornik/05_zabicka.pdf>.

[13]      FOLTÝN, T. Systém Kramerius [online]. Poslední změna: Úterý 10. 3. 2009 [cit. 2010-04-18]. Dostupné z: <http://kramerius-info.nkp.cz/digitalizace-v-nk/system-kramerius/>

[14]      Tamtéž.

[15]      QBIZM TECHNOLOGIES. Proof of concept - využití systému Fedora pro uložení digitálních objektů DTD Periodika a Monografie : analýza a návrh řešení [online]. Verze 1 ze dne 19. 12. 2008. Aktualizace: 21. 1. 2009, s.1 [cit. 2010-05-04]. Dostupné z: <http://digit.lib.cas.cz/index.php?cat=fedora>.

[16]      FOLTÝN, T. Kramerius system : uživatelská rozhraní [online]. Poslední změna: Úterý 10.03.2009 [2010-01-18]. Dostupné z: <http://kramerius-info.nkp.cz/digitalizace-v-nk/uzivatelska-rozhrani>.

[17]      POLIŠENSKÝ, J. Implementace formátu METS v Systému Kramerius . In: Automatizace knihovnických procesů 2007, 11. ročník seminář [online]. Liberec, 16.-17.5.2007 [cit. 2010-05-04]. Dostupné z: <http://www.akvs.cz/akp-2007/13-polisensky.pdf>.

[18]      Was ist ANNO? [online]. c2003 Österreichische Nationalbibliothek [cit. 2010-04-26]. Dostupné z: <http://anno.onb.ac.at/anno.htm>.

[19]      Österreichische Nationalbibliothek : About : Large-scale digitisation [online]. Last update 4/26/2010 [cit. 2010-04-26]. Dostupné z: <http://www.onb.ac.at/ev/about/15376.htm>.

[20]     AustriaN Newspapers Online : historische österreichische Zeitungen und Zeitschriften Online [online]. c2003  Österreichische Nationalbibliothek [cit. 2010-04-26]. Dostupné z: <http://anno.onb.ac.at/anno.htm>.

[21]      Digiteeritud eesti ajalehed : Projekt [online]. [Cit. 2010-04-26]. Dostupné z:                 <http://dea.nlib.ee/dea_proj.html>.

[22]      Digiteeritud eesti ajalehed : Kollektsioon [online]. [Cit. 2010-04-26]. Dostupné z: <http://dea.nlib.ee/dea_koll.html>.

[23]      Digiteeritud eesti ajalehed : Projekt [online]. [Cit. 2010-04-26]. Dostupné z:                 <http://dea.nlib.ee/dea_proj.html>.

[24]      Gallica Experiment: Offering Digital Resources including Copyrighted Books [online]. cBnF 2010 [cit. 2010-04-25]. Dostupné z:                <http://www.bnf.fr/en/collections_and_services/digital_libraries_gallica/a.gallica_experimentatital
_offer.html
>.

[25]      Conserver : le project SPAR et l´archivage numérique [představení] [online]. Mercredi 14 Avril 2010 [cit.2010-04-28]. Dostupné z:                <http://www.bnf.fr/fr/professionnels/conserver_spar/s.conserver_SPAR_pres....

[26]      Frequently asked questions about work processes [online]. Last updated on: 30.11.2009 [cit. 2010-04-30]. Dostupné z: <http://www.nb.admin.ch/nb_professionnel/01693/01746/01902/index.html?lang=en#sprungmarke3_14>.

[27]      e-Helvetica : Collecting and archiving digital publications [online]. Last updated on: 30.11.2009 [cit. 2010-04-30]. Dostupné z: <http://www.nb.admin.ch/nb_professionnel/01693/index.html?lang=en>.

[28]  Helveticat: <http://libraries.admin.ch/cgi-bin/gw/chameleon?skin=helveticat&lng=en>

[29]      Access [e-Helvetica] [online]. Last updated on: 01.05.2009 [cit. 2010-04-30]. Dostupné z:                <http://www.nb.admin.ch/nb_professionnel/01693/01696/01710/index.html?lan....

[30]      Archiving [e-Helvetica][online]. Last updated on: 18.05.2009 [cit. 2010-04-30]. Dostupné z:                <http://www.nb.admin.ch/nb_professionnel/01693/01696/01709/index.html?lan....

[31]      Presentación [online]. c2010 BNE [cit. 2010-04-29]. Dostupné z:                <http://www.bne.es/en/Catalogos/BibliotecaDigital/bibliotecadigitalhispan...

[32]      FAQs [online]. c2010 BNE [cit. 2010-04-29]. Dostupné z:                 <http://www.bne.es/en/Catalogos/BibliotecaDigital/bibliotecadigitalhispan...

[33]      Chronicling America : Historic American Newspapers [online]. [Cit. 2010-04-30]. Dostupné z: <http://chroniclingamerica.loc.gov/>.

[34]     About Chronicling America [online]. [Cit. 2010-04-30]. Dostupné z: http://chroniclingamerica.loc.gov/about.

[35]      Tamtéž.

[36]      The National Digital Newspaper Program (NDNP) : Technical Guidelines for Applicants [online]. 8/11/2009 Library of Congress (p.11) [cit. 2010-04-30]. Dostupné z: www.loc.gov/ndnp/pdf/NDNP_201012TechNotes.pdf.

[37]       National Library of Latvia : Digital Library [online]. [Cit. 2010-04-29]. Dostupné z: <http://www.lnb.lv/en/digital-library>.

[38]      Digitizer´s Handbook : Version 3.3 [online]. [Cit. 2010-04-30]. Dostupné z: <http://www.lnb.lv/en/digitallibrary/for-partners/digitizers-handbook>.

Líbil se vám článek?
Stáhnout článek v PDF

0 komentářů

Přidat komentář

(If you're a human, don't change the following field)
Your first name.
(If you're a human, don't change the following field)
Your first name.

Přečtěte si také

Přihlášení Registrace
RSS Facebook Twitter YouTube
Zobrazit standardní verzi webu

Taky děláme

Feedback