Instrukce ke spolupráci na skenování obsahů a obálek

I. Úvod

Skenování obsahů

V souvislosti s novelou autorského zákona, která od poloviny r. 2006 umožňuje obohatit

bibliografické záznamy o obsahy popisovaných dokumentů, byl zahájen pilotní projekt

připojování obsahů dokumentů do bibliografických záznamů. Cílem je poskytnout uživatelům rozšířenou nabídku vyhledávání detailních odborných informací; bibliografické záznamy obohacené o údaje obsahu slouží především studentům a odborným pracovníkům, kteří tento projekt velmi vítají.

 

Kritéria výběru dokumentů určených ke skenování a indexování

Technická:

                        Neskenují se

o       Dokumenty většího formátu – tento limit dán technickým vybavením

      Skenují a neindexují se  - text není vhodný pro OCR

o       Dokumenty s výraznou grafickou úpravou

§         Výrazný barevný podklad obsahu, včetně obrázků

§         Barevné písmo

§         Dokumenty s razítkem, vepsanými informacemi umístěnými na stránce obsahu

o        Dokumenty v nelatinkovém písmu

Věcná:

Skenuje a indexuje se: odborná a populárně-naučná produkce zahrnutá v projektu  CLUSTER – obsahy dokumentů v evropských jazycích.

Zásada při výběru dokumentů: zdravý selský rozum, smysluplné obsahy.

Z indexování jsou vyloučeny dokumenty, jejichž obsahy nezahrnují z hlediska uživatele relevantní informace:

-        Adresáře

-        Atlasy

-        Beletrie

-        Bibliografie

-        Biografie, autobiografie

-        Cestopisy

-        Citáty

-        Divadelní programy

-        Fotografické publikace

-        Hobby příručky

-        Humor

-        Jednoduché návody

-        Katalogy

-        Katalogy výstav

-        Konverzace

-        Křížovky

-        Kuchařky

-        Pracovní sešity

-        Programy koncertů, hudebních festivalů, soutěží

-        Průvodce

-        Slovníky, encyklopedie

-        Soupisy, seznamy

-        Statistiky

-        Texty zákonů, Bible, Deklarace lidských práv, Ústavy, apod.

-        Učebnice pro střední školy

-        Učebnice pro základní školy

Obsahy uvedených dokumentů se indexují, pokud obsahy zahrnují smysluplné a užitečné informace pro vyhledávání

 

Příklady obsahů dokumentů, které se z technických důvodů skenují  ale neindexují[1]

II. Označování záznamů pro skenování

Záměr skenovat obálku/obsah označí pracovník v poli IST - s indikátorem 0. Doporučujeme nastavit klávesovou zkratku přes PerfectKeyboard nebo Shortkey.
Struktura IST0 je obdobná standardnímu poli IST, s podpoli navíc:

a - kód + datum:
pro skenování obsahu - kód vs (v=věcné zpracování, s=skenovat)
pro skenování obálky - kód os
b - login pracovníka (musí být v přehledu loginů systému TOC)
c - kód zpracování obsahu (pouze v případě vs)
V - úplné zpracování (=všechno), tj. skenování + OCR + zpracování textu pro indexování
S - pouze skenovat (obsah není vhodné indexovat, buď z důvodů špatné čitelnosti pro OCR, nebo z obsahových důvodů)
N - neskenovat (upozornění pracovníkům dalších knihoven, kteří se ovšem mohou rozhodnout jinak)
d - označení svazku u vícedílných publikací
text, který má být zobrazen uživatelům na webu za návěštím Obsah/Obálka.

Záměr skenovat obálku i obsah označíme ve dvou polích IST pomocí odpovídajících kódů.

 

IST0  L $$aos20080303$$bmaba
IST0  L $$avs20080303$$bmaba$$cS

 

Záměr skenovat obálku i obsah u vícedílných publikací označíme v opakovaných výskytech pole IST pomocí odpovídajících kódů.

Při označení svazku u vícedílných publikací se řídíme praxí ve jmenném popisu dokumentů: tyto údaje bývají součástí polí 020, 505, případně pole 910.

 

IST0  L $$avs20080303$$bmaba$$cV$$ddíl 1.
IST0  L $$avs20080303$$bmaba$$cV$$ddíl 2.

IST0  L $$avs20080303$$bmaba$$cV$$dsv 1.
IST0  L $$avs20080303$$bmaba$$cV$$dsv 2.

 

U obálek vícesvazkových děl se doporučuje skenovat pouze obálku prvního dílu (lze vytvořit jen jeden náhled, u záznamu by bylo příliš mnoho připojených souborů).

Obsahy dokumentů je tedy možno pouze skenovat

Označení dokumentů určených ke skenování v BIB záznamu

 

|a vs20080424 |b mase |c S

 

 

Výsledkem je PDF dokument zahrnující obsah

 

 

Smysluplné obsahy přinášející informace důležité pro vyhledávání  je možno skenovat a indexovat

Označení dokumentů určených ke skenování a indexování v BIB záznamu

 

|a vs20080423 |b mase |c V

 

 

Výsledkem je PDF dokument zahrnující obsah a možnost vyhledání informací obsažených v daném obsahu pomocí speciálního rejstříku

 

 

 

Digitální objekt: obsah

 

Selekční termín: technoparty

 

 

WWW OPAC – ukázka

 

Speciální rejstřík:

Slova z obsahu (table of contents)

 

 

Selekční termín:

technoparty

 

Digitální objekt:

obsah

 

Takto označené záznamy (kromě příznaku N) jsou každý večer za příslušný den (případně za období od posledního běhu) vyhledány programem a potřebné údaje ze záznamu jsou importovány do databáze TOC, takže druhý den ráno může pracovník skenovat.
Pozor! Pokud by bylo zapsáno špatné datum, záznam se mezi vybrané nedostane. Při opravě je pak nutné dát "čerstvé" datum.

III. Skenování

Na počítači připojeném ke skeneru musí být instalován klient TOC-skenování (oprávněný uživatel instaluje ze složky Download na http://toc.nkp.cz)


Po otevření aplikace a přihlášení vybírá pracovník z nabídky "svých" označených titulů.

Výběr obsahu dokumentu podle titulu

Tituly připravené ke skenování se dají řadit podle sloupců - po kliknutí na záhlaví.

Pokud se rozhodne neskenovat, lze řádek vyřadit z dalšího zpracování funkcí „Odstranit“.  V tomto případě změníme v záznamu v Alephu příznak na N = neskenovat, aby se o totéž nepokoušel zbytečně pracovník jiné knihovny.

 

Pokud se po výběru konkretního titulu a zahájení jeho skenování katalogizátor rozhodne, že ho momentálně skenovat nechce (“sáhl vedle a skenuje jiný obsah”),  může zrušit process funkcí “Vybrat jiný titul pro skenování”.

 

Proces skenování

Volba formátu

 

 

V případě potřeby máme k dispozici funkce  „Rotace“,  „Oříznout“ a „Narovnat“; změnu je nutné před skenováním další stránky pomocí stejnojmenné funkce uložit

 

Zjistíme-li při kontrole pořadí stránek obsahu omyl,  přemístíme nesprávně umístěnou stránku v přehledu funkcí „Vpřed“ nebo „Vzad“

 

Funkcí „Odeslat na zpracování“, opětovným potvrzením je obsah dokumentu odeslán ke zpracování

Jakmile se v úvodním seznamu objeví titul, který nemá být zpracováván pomocí OCR (červeně vysvícený) …

 

… tak jej označte a stiskněte na tlačítko „Nezpracovávat OCR“ – po potvrzení tohoto požadavku bude tento titul označen pro nezpracování OCR a zmizí ze vstupního seznamu.



Jestliže záznam v bázi TOC není, s nejvyšší pravděpodobností bylo špatně vyplněno pole IST0.

Pokud má do systému vstoupit další katalogizátor, lokální supervizor zajistí uložení loginu a dalších údajů do TOC systému (http://toc.nkp.cz, Administrace).

III. Zpracování oskenované "suroviny" (pro info)

Probíhá externě.
Obsahy:
- vytvoření pdf souboru pro zobrazení
- OCR + další zpracování -> vytvoření pomocného souboru pro indexování (pouze záznamy s příznakem V)

Obálky:
- vytvoření jpg souboru = obrázku pro zobrazení
- vytvoření náhledu

IV. Zpřístupnění výsledků uživatelům (pro info)

Soubory k zobrazení (pdf obsahů, jpg obálek) jsou umístěny na server toc.nkp.cz do příslušného adresáře. Náhledy a výstupy textového zpracování obsahů jsou přeneseny do adresářů na serveru s Alephem, aby s nimi mohl pracovat modul ADAM. Informace o všech souborech jsou uloženy do modulu ADAM.
Tím je zajištěno ve www OPACu:
- zobrazení klikací ikonky pro oskenovaný obsah/obálku
- zobrazení náhledu obálky
- vyhledání záznamu podle slov z obsahu ze speciálního souboru slov


V. Přístup ke statistikám zpracování

Přístup po přihlášení z http://toc.nkp.cz, složka Statistiky nebo Katalogy. Lze zjistit stav zpracování záznamů.

VI. Možnost náhrady špatně oskenovaného obsahu/obálky

Pokud se poté, co oskenovaný obsah/obálka projdou celým zpracováním až do báze Aleph, zjistí, že výsledek je nepoužitelný, je možné vymazat připojené "objekty" z Alephu pomocí alephovského klienta (práva by měl mít jen lokální supervizor). Není nutné mazat veškeré řádky, ale musí být vždy smazány dvojice pro obsah (VIEW+INDEX) či dvojice pro obálku (VIEW+THUMBNAIL) U vícedílných publikací je takto možno vymazat jen řádky vztahující se k příslušnému dílu. Poté může nebo nemusí být dokument poslán na skenování znovu (označením v IST0).

 



[1]