Dobrovolníci opravují OCR v National Library of Australia

V kategorii: Technologie , Datum vytvoření článku: 06/03/2010

Dělala jsem si poznámky k projektu NLA, nejsou upravené.

Australian Newspapers
http://www.nla.gov.au/ndp/project_details/

Projekt běží od roku 2007, původní projekt už od roku 1996, ale tehdy se od toho upustilo, kvalita byla mizerná, OCR se v té době nedalo pořádně dělat a tak to bylo celkově dost nákladné.

V současném projektu vyvinuli 2x SW:

1. Newspapers Content Management System

2. Search and Delivery System

OCR opravují čtenáři

Jak se vypořádat s "textovým vandalismem"? Verzování - ukládají se všechny verze včetně původní, navržené slovíkem... V podstatě systém Wikipedie. Když se na to přijde, účet prznitele je zablokován. Kdo by měl opravy moderovat? Knihovník? Privilegovaný zkušený osvědčený uživatel? 

Jak korekce fungují?

1. Každý řádek OCR každého článku je převeden na soubor ALTO XML na úrovni stránky, vše je uloženo v SQL databázi.

2. Text opravený již dodavatelem (název, podnázev, 4 první řádky článku) (pozn. u nás nehrozí, budeme sami sobě svým dodavatelem) je nahrazen METS/MODS souborem na úrovni článku

3. Uživatelské korektury jsou uloženy v SQL databázi, nepromítnou se do ALTO ani do METS/MODS souborů.

4. Data v databázi jsou v binárním (čili nestandardním) formátu, kvůli rychlosti parsování a minimalizaci spotřebovaného místa.

5. pro každou pozici slova jsou v tabulce následující věci: A) originální OCR B) slovo opravené dodavatelem (název, ...) C) slovo rekonstruované automaticky podle slovníku D) slovo opravené uživatelem (opakuje se tolikrát, kolikrát byla provedena oprava)

6. Vyhledávání přes Lucene. Každé slovo na stejné pozici je indexováno ve fulltextové databázi Lucene. Lucene je dobrý k uchování pozice slova a může být požito také pro vyhledávání podle synonym. Např.:

ʺThe Chemist{/Pharmacist/Pharmacy}
shop{retailer} was closed{shut}ʺ - Tato fráze má 5 pozic a můžu z ní
vytvořit např. následující fráze:

ʺchemist shop was shutʺ
ʺpharmacy retailer was shutʺ
ʺpharmacist shop was closedʺ

Pokud někdo přepíše text na hovadiny, v tabulce je stále původní verze, kterou Lucene najde, takže "textový vandalismus" nemá vliv na vyhledávání v článcích.

7. V systému jsou zobrazovány verze textu v tomto pořadí: poslední korekce (pokud existuje), pokud ne, tak vydavatelův upravený text, když ani to ne, původní řádkové OCR. Index Lucene je pravidelně updateován.

Reakce uživatelů - dobrovolných opravovatelů:

Ze začátku nerozuměli smyslu projektu, muselo se jim to vysvětlit, Netušili, co to je OCR a vůbec, že v digitalizovaných textech lze hledatpouze na základě OCR. Nebyli schopni si otevřít obrázek a ocr v různých oknech na jedné obrazovce. Když se jim činnost přirovnala k principům Wikipedie, tak už nebyli tak zmatení. Jelikož do textu se dají ještě přidávat poznámky a tagy, nevěděli kam psát opravy, co se myslí tagy a k čemu slouží poznámky.

"A text correcting community of around 1300 people
quickly developed in the first six months 2 million lines of text in
100,000 articles was corrected. Feedback from users was compiled and
made public in January 2009."

MOHL BÝT PROJEKT ÚSPĚŠNÝ U NÁS, KDYŽ ČESKY MLUVÍ MÁLO LIDÍ (OPROTI ANGLIČTINĚ) A NAVÍC JSOU ČEŠI TAKOVÉ LÍNÉ LEMRY?

 

Best practices z projektu:

1) Opravy textů - musí být co nejjednodušší a nejrychlejší, musí jít lehce vložit další řádek, pokud chybí. Protože spousta korektorů sbírá články k jednomu tématu, ale ne pro svůj vlastní výzkum, chtějí mít možnost získat a opravovat články pouze k tomuto tématu (ty, knihovníku, najdi články o tom a tom, já ti je potom opravím). Korektoři chtějí mít povědomí o celé komunitě, jak si stojí, kolik toho opravil ten nejlepší atd. 

Mohlo by sloužit jako sociální síť pro odborníky na netypická témata ve stylu: podívej se, kdo vyhledává a opravuje podobné články jako já, možnost tohoto člověka oslovit, pokud si to ovšem bude přát...

Vznika potřeba vypracovat uživatelské zásady k opravám (co se změnami písma, různými symboly, chybějícími řádky...)

2) Tagování -  za 6 měsíců zkušebního provozu bylo přidáno přes 40 000 tagů (zejména jména :) - zrejme kvůli genealogům)

3) Komentáře - byly implementovány pro badatele, aby si mohli pod články vkládat anotace, ale zvrhlo se to k tomu, že si opravující pod články povídají (kvůli absenci jiné možnosti se vzájemně kontaktovat)

4) Sociální síť - kvůli zájmu uživatelů vznikla možnost mít svůj profil (veřejný, neveřejný), diskusní fórum (založené knihovnou, ale samostatné - nemoderované) atd. Uživatelé se rozdělili na tři skupiny: taggers, text correctors a searchers, někteří jsou ve všech skupinách, ale většina pouze v jedné

5) Vyhledávání omezené na již opravené články - nejen to, uživatelé chtějí být schopni vyhledávát pouze v tazích nebo pouze v komentářích

6) Historie profilu - co jsem kdy opravil, vyhledával, otagoval, okomentoval...

August 2005 FamilySearch Indexing on web introduced.
January 2006 2,004 online volunteers
January 2007 23,000 online volunteers
January 2009 160,000 online volunteers

 

 



Komentáře

    Volby prohlížení komentářů

    Vyberte si, jak chcete zobrazovat komentáře a klikněte na "Uložit změny".

    jak jsem zkoušela opravovat


    Avatar uživatele pavluska

    Kdyz jsem zkousela neco opravovat, narazila jsem na clanek Knihovnikova mzda z roku 1945 :)

    http://newspapers.nla.gov.au/ndp/del/article/...



Syndikovat obsah

pavluska's blog

...because librarians are people too...
» všechny příspěvky

Poslední komentáře

posledních 25 komentářů

Kalendář akcí

Vyzkoušejte

Obrázky ke stažení skutečně zdarma

Zdroje, kde je možné získat obrázky skutečně zdarma pro jakékoliv použití. Většina těchto obrázků je zdarma ke stažení, protože je jejich autoři k tomuto účelu uvolnili a nebo jejich copyright již vypršel.

Clker.com
Rozsáhlý archiv volně šiřitelných clipartů. Cliparty jsou dobře kategorizované a lze je vyhledávat i fulltextově. Každý clipart je k dispozici ve vektorových formátech SVG, ODG (Open Office Draw) a ve třech rozlišeních jako PNG. Všechny cliparty jsou volně k dispozici jako public domain.

PdPhoto.org
Tisíce volně dostupných fotografií. Kromě několika výjimek, které jsou označeny copyrightem, jsou všechny fotografie dostupné jako public domain.

Wikimedia Commons – Multimediální databáze obsahující přes 6 milionů položek volně šiřitelného multimediálního obsahu (fotografie, obrázky, zvuky a videa). U každého souboru je uvedena konkrétní licence a podmínky, za jakých ho lze použít. Velké množství obsahu je public domain.

Multimediální archív NASA – Málokdo ví, že veškeré multimediální materiály NASA, například fotografie planet či jiných vesmírných těles, ale i audio záznamy, video záběry nebo dokonce 3D modely vesmírných těles, nepodléhají copyrightu

» všechny Vyzkoušejte

Novinky na Inflow

Inflow.cz on Facebook

Read or Die

» všechny příspěvky

Spřízněné projekty

KISK

Partsip

Nakliv

Kwído

LibFFest

Guerrilla Readers

ČteSyRád

BiblioHelp - léčba knihou

všechny projekty

Portál Competitive Intelligence

Kurz projektového managementu

Kulturně informační web

VIAKISK

Antypa

ELka

SAR

KPI

Muniport

ProInflow

Audioknihy