Format DjVu a problem
digitalizacji gazet i czasopism.
Czego nie należy przeoczyć
podczas digitalizacji gazet
Przyjęta strategia
digitalizacji
Kiedy przygotowywany sposób
konwersji (profil) jest gotowy
Czy skanowanie z
rozdzielczością 450 dpi to przypadek
„Ilustrowany Kuryer
Codzienny” – format DjVu
Rozmiar
zdigitalizowanych stron czasopism
|
Stare gazety i czasopisma (obok ozalidowych
kopii rysunków technicznych) niewątpliwie należą do tej grupy dokumentów
papierowych, których digitalizacja nastręcza najwięcej kłopotów. Ponadto,
należy mieć na uwadze fakt, iż znacząca ilość bibliotecznych zasobów gazet i
czasopism wydrukowana została na „kwaśnym papierze”, a zatem ich jakość z
każdym rokiem spada. O tym, czy
w celu ochrony dziedzictwa kulturowego zbiory m.in. gazet i
czasopism należy poddać mikrofilmowaniu czy też digitalizacji, prowadzone są
od dawna dyskusje na forach internetowych, w tym m.in. na forum EBIB Biblioteka Narodowa, EBIB
Digitalizacja i biblioteki cyfrowe lub Internetowe
Forum Archiwalne. Bez względu na to, który sposób
ochrony jest bardziej właściwy, wydaje się być naturalnym, że powinien on
gwarantować zachowanie - z możliwie najwyższą wiernością - zarówno treści jak
i szaty graficznej dokumentu papierowego, zwłaszcza, iż nie należy wykluczyć,
że za kilkadziesiąt lat być może będzie on jedynym śladem czy też cyfrową
kopią oryginału, który już przestał istnieć. Skoro zatem postać cyfrowa
dokumentu rozpatrywana jest jako instrument ochrony dziedzictwa kulturowego,
może należy odstąpić od półśrodków czy też metod umożliwiających tworzenie
takich postaci cyfrowych, które swoją jakością tak naprawdę jedynie
sygnalizują jaka jest (lub była) oryginalna postać papierowa. W innym
przypadku, trudno jest logicznie uzasadnić, że gazety lub inne czasopisma
sprzed niemal dwóch wieków a może tylko sprzed 100 lat, zawierające poza
tekstem (wydrukowanym czarną lub
czerwoną farbą drukarską) także zdjęcia lub rysunki (w odcieniach szarości),
potrafimy stosując najnowsze technologie światowe XXI w. archiwizować z
precyzją 1 koloru (czyli w postaci bitonalnej). Wydaje się być nie do końca
zrozumiałym to, iż stosunkowo często można się spotkać z opiniami typu, „...skoro
jakość zgromadzonych gazet w bibliotekach jest niska, wystarczy zastosować
skanowanie w trybie czarno-białym..”. Brak w takich opiniach
uzasadnienia, co oznacza termin „niska”. Niska względem czego ? Innych
egzemplarzy w bibliotece? Niska względem zasobów innych bibliotek? Może niska
dla osoby, która dokonała ich oglądu. Niestety, nie dotarliśmy do opisów,
czym jest ta „niskość” dla algorytmów nowoczesnych aplikacji pozwalających na
ratowanie niszczejących z każdym dniem zasobów papierowych, a taka informacja
byłaby zapewne najbardziej wiarygodną. Akurat stoimy na stanowisku, że
skanowanie w trybie czarno-białym wydaje się być rozsądnym środkiem jedynie
dla dokumentów o wyśmienitej lub przynajmniej dobrej jakości i to z
zastrzeżeniem, że nie dotyczy to dokumentów zawierających ryciny, rysunki lub
zdjęcia. Zastosowanie zaś takiego sposobu skanowania dla dokumentów częściowo
zniszczonych lub wypłowiałych może być ocenione jako działanie albo dalece
nieprzemyślane, albo zbyt pochopne. W stanowisku takim utwierdza nas to, że
oczekując jakości być może jak poniższym przykładzie Bardzo często w zasobach bibliotek cyfrowych spotkać można postaci
cyfrowe o czytelności zbliżonej do poniższych przykładów
W
Bibliotece Jagiellońskiej Uniwersytetu Jagiellońskiego w Krakowie wykonano
krótką serię skanów dwóch czasopism „Głos Narodu” z roku 1915
oraz „Ilustrowany Kuryer Codzienny” z roku 1927.
Skanowanie przeprowadzono w rozdzielczościach 300, 450 i 600 dpi oraz w
trybach pełnego koloru i odcieni szarości. Skanami czarno-białymi – po
zapoznaniu się z niektórymi publikacjami internetowymi - nie byliśmy
zainteresowani w ogóle uznając, że jest to zbyt skromny środek dla procesu
digitalizacji. |
|
Podstawowym celem testu było
przedstawienie takiego sposobu konwersji do formatu DjVu powierzonych nam
plików w formacie Tiff, by powstała postać cyfrowa dokumentów papierowych
posiadała możliwie najbardziej uniwersalne zastosowanie, a zatem :
|
|
|
Dlaczego operacja efektywnej
segmentacji jest tak istotna ? Otóż użytkownicy, którzy zechcą przeprowadzić
rozpoznanie tekstu w pliku DjVu, powinni być świadomi, że jakość tej
operacji zależy wyłącznie od zawartości warstwy treści i jednocześnie nie zależy od
tego czy warstwa tła w ogóle istnieje (pliki bitonalDjVu jej nie posiadają)
lub od tego, co jest w niej zawarte (SegmentedDjVu). |
|
|
|
|
|
|
|
Jednak segmentacja zawartości strony
dostępna w technologii DjVu nie jest „lekiem na całe zło” niskiej
gramatury gazet. Zwyczajowo, roczniki gazet oprawione
w sztywną oprawę przechowywane są tak, że grzbiet oprawy widoczny jest dla
oczu bibliotekarza. Jest to normalne z punktu widzenia konieczności stałego
odszukiwania w bibliotece określonego woluminu. Zaś z punktu widzenia nie
obniżania jakości przechowywanych gazet, grzbiet musiałby być u góry, by nie
dopuścić do trwałych odkształceń arkuszy. Aby ocenić jak w danej bibliotece
przechowywany jest zasób czasopism, wystarczy ogląd części strony
przeciwległej do zszytego boku. Obok pokazano fragment strony gazety na pewno
przechowywanej „w pionie” z grzbietem oprawy wyeksponowanym do oczu
bibliotekarza. Niestety, testy wykazały, że takie
odkształcenia znacząco obniżają jakość rozpoznania tekstu OCR. Na całe
szczęście, profil konwersji nie jest „zainteresowany” tym, czy tekst strony
jest liniowy czy też oparty na krzywej przypominającej owal lub elipsę, więc
segmentacja jest nadal efektywna a czytelność wysoka. |
|
|
Istotnym jest zaś to, że skan
pofalowanej strony może zawierać w jednym – nazwijmy to wierszu – literę „m”
o szerokości mniejszej od litery „n”. I to jest kłopot podwójny, gdyż trudno
przewidzieć jak zawężona lub poszerzona litera zostanie rozpoznana podczas
pracy algorytmów OCR oraz do którego wiersza strony będzie przypisana, skoro
wiersz w takim przypadku to określenie dalece niejednoznaczne. Obok pokazano
fragment strony zapisanej w formacie tiff a poniżej (z lewej) warstwę
treści skonwertowanego pliku tiff do formatu DjVu. Nie należy
obawiać się tego, czy zróżnicowana kolorystyka liternictwa w warstwie
treści strony DjVu wpłynie na jakość rozpoznania OCR. Rozpoznanie
OCR w ogóle „nie widzi” tego, że obiekt w warstwie treści (litera, cyfra,
wykres, ...) posiada jakikolwiek kolor. Zatem, gdyby udało się zeskanować
stronę w trybie bitonal jak poniżej (z prawej) efekt OCR dla obu przypadków
byłby identyczny. Tyle, że poniżej przedstawiono czarno-biały wygląd
kolorowej warstwy treści zaprezentowanej po stronie lewej. |
|
|
|
|
Powyższe
spostrzeżenia prowadzą do wniosku, że skanowanie gazet w trybie kolor lub w
odcieniach szarości umożliwia konwersję pozyskanych skanów do formatu DjVu
z na tyle precyzyjną segmentacją, że czytelność tekstu będzie wysoka. Z kolei
skanowanie gazet w trybie bitonal doprowadzi do zdegenerowania poziomu
zabrudzeń i przebijającej zawartości strony odwrotnej do poziomu tekstu na
skanowanej stronie. Uniemożliwi to jakiekolwiek operacje na otrzymanym
skanie, gdyż zarówno tekst jak i niepożądane dodatki przedstawione będą
jednolitym czarnym kolorem. Co gorsza (dla takich digitalizacji), należy się
także liczyć z utratą części tekstu, który był zbyt wypłowiały (rozjaśniony),
co może postawić duży znak zapytania nad sensem takiej strategii w ochronie
dóbr kultury. Ograniczenia te zobrazowano trzema poniższymi przykładami
zaczerpniętymi z bitonalnych publikacji dostępnych w internecie. |
|
Czasami można spotkać efekt
przedstawiony poniżej. Pojawia się on w dwóch przypadkach. Pierwszym jest
przypadek kiedy posiadamy gazetę, w której - podczas gdy ją drukowano - w
niektórych częściach strony powstało podwójne odbicie tekstu. Drugim
przypadkiem jest poruszenie strony gazety podczas gdy skaner nie zakończył
całkowicie skanować jej powierzchni. Taki efekt na trwałe wpisuje się w
postać cyfrową dokumentu papierowego i nawet idealna segmentacja zawartości
nie potrafi ukryć jego zaistnienia. |
|
|
|
|
|
|
|
|
Użytkownicy oprogramowania DocumentExpress
posiadający już pewne doświadczenie w tworzeniu plików DjVu mogą z
mniejszą lub większą dokładnością przewidzieć jaka będzie precyzja
segmentacji fragmentów strony gazety zaprezentowanej powyżej. Generalnie,
należy oczekiwać, że profile Manuscript lub Scanned
najprawdopodobniej najbardziej „wypłowiałe” i rozjaśnione fragmenty wyrazów
umieszczą w warstwie tła. Dla przykładu (widok po prawej stronie) należy
oczekiwać, że słowo „PRENUMERATA” w części „PRENU” trafi do warstwy tła, a
pozostałe 3 sylaby do warstwy treści. W takim przypadku można się
nawet zgodzić z tym, że to jest właśnie przykład niskiej jakości gazet.
Przykład digitalizacji takiej jakości tekstu poprzez skanowanie czarno-białe
(bitonal) pokazano poniżej. Część tekstu zaprezentowanych stron utracona
została bezpowrotnie. Jednak efekt pracy precyzyjnie
przygotowanego profilu konwersji do formatu DjVu może mile zaskoczyć.
Może nawet wręcz doprowadzić do podejrzeń o manipulację, bo przecież widok
warstwy treści w skonwertowanym pliku DjVu jak zaprezentowano poniżej
jest chyba niemożliwy? |
|
|
|
|
|
A jednak, jest to efekt
zwykłego wydania myszką polecenia „Start Job”, a dokładniej,
poprzedzone jeszcze w programie DocumentExpress Enterprise wskazaniem
nazwy profilu konwersji i zaznaczenia, czy powinno być prowadzone
automatyczne rozpoznanie warstwy tekstowej OCR.
Oznacza to, że być może
pojawiła się realna szansa – a nie sygnalizowana do chwili obecnej na żadnym
forum – całkowitego zachowywania zawartości digitalizowanych dokumentów a nie
tylko takiej ich części, na zachowanie jakiej pozwalały domyślne ustawienia
używanego oprogramowania. Warunek jest tylko jeden. Stosując technologię DjVu,
dla określonej i podobnej jakością partii roczników potrzebny jest
precyzyjnie napisany profil. Może (ale nie musi) okazać się, że taki profil
rewelacyjnie poradzi sobie z kolejną partią (a nieco odmiennych) gazet
poddanych digitalizacji. Jeżeli jednak dla innych roczników napisany profil nie
będzie tak wydajny, to wystarczy napisać profil kolejny. Prezentowane w
niniejszym artykule czasopisma „Głos Narodu” oraz „Ilustrowany
Kuryer Codzienny” skonwertowano za pomocą dwóch różnych profili.
Ponieważ zasób biblioteczny takiego dla przykładu „Kuryera”
może sięgać kilkudziesięciu tysięcy stron, więc może praca nad jednym
profilem bardziej się opłaca niż zgadywanie, czy skanować gazety w trybie
bitonal, a może podnieść rozdzielczość skanowania, a może też wykonać obie te
czynności na raz. Można też dokonać oszacowania o jakich ilościach
digitalizacji mowa. Jeżeli 14-stronicowe pismo np. w/w IKC wychodziło 6 dni w
tygodniu i posiadamy zasób 7 lat (po 52 tygodnie każdy) tego pisma, to
digitalizacji poddać należy 7 * 52 * 6 * 14 = 30.576 stron. A
wystarczy tylko jeden profil. |
|
|
Przedstawione
powyżej mankamenty dotyczące jakości gazet podlegających digitalizacji – poza
rozdarciami arkusza, na które się nie natknęliśmy – powinny stanowić komplet
kwestii, które należy mieć na uwadze przygotowując proces digitalizacji.
Analiza – chociaż pobieżna – materiału przeznaczonego do digitalizacji pozwoli
dokonać oceny, jakiej jakości postać cyfrową powinniśmy otrzymać, czy w ogóle
jest sens prowadzić rozpoznanie tekstu OCR dla ocenianej partii dokumentów,
no i przede wszystkim pod jakim kątem precyzować profil konwersji, według
którego powstanie kolekcja plików DjVu. Kolejnym i ostatnim krokiem
jest uruchomienie jednym poleceniem tysięcy konwersji poszczególnych stron. |
|
Przed rozpoczęciem konwersji
kilkunastu a może kilkudziesięciu tysięcy stron należy upewnić się, że
przygotowany profil nie zawiedzie. Wydaje się, że najprostszym sprawdzeniem
jest wykonanie próbnej konwersji dla kilkunastu stron i wnikliwa ocena
otrzymanych plików DjVu. Jedyne co, to należy znaleźć sposób, choćby bardzo prosty lecz dokonujący oceny jakości otrzymanej postaci cyfrowej zdigitalizowanej partii dokumentów papierowych. Inaczej, o tym, czy postać cyfrowa posiada pożądaną jakość przesądzi zapewne tylko opinia osoby uznanej za „Guru w temacie”, tylko ... Tylko, że potrzebna jest
uzasadniona ocena, czy jakość konwersji, którą osiągnięto to optimum i czy
posiadamy już postać finalną profilu. Chyba, że dostrzegamy pewne
niedociągnięcia, to weryfikowany odcinek pracy należy skorygować. Niewłaściwie wskazany profil
konwersji czy też wadliwie napisany, może zadowalająco dla przykładu
konwertować tekst małą i dużą czcionką na stronie gazety, a jednocześnie
załączone na niej zdjęcia zniszczy, bo jak inaczej ocenić poniższy przykład. Jako przykładowy sposób oceny
proponujemy przeanalizować nie jakość wizualną zawartości zdigitalizowanej
strony ale jakość jej niepożądanego dodatku czyli przebijającej zawartości ze
strony odwrotnej. Propozycja może kontrowersyjna ale za to oparta na
logicznej i prostej zależności. Jeżeli szum czy też przebijającą treść udało
się wyeksponować w pliku DjVu czytelnie, to i jakość zawartości samej strony
względem jakości papierowego oryginału zapewne będzie bardzo wysoka. Oczywiście,
zakładamy tu, że również jakość plików Tiff powstałych ze skanowania postaci papierowej
została oceniona pozytywnie, gdyż jest to warunkiem koniecznym do wystawienia poprawnej
oceny jakości strony w formacie DjVu względem postaci papierowej. Zaletą takiego sposobu
weryfikacji jakości konwersji jest również to, że nie jest nam potrzebna do wglądu postać
papierowa, więc konwersję prowadzić można nawet poza murami biblioteki (np. zbiory lwowskie
można digitalizować we wrocławskiej siedzibie Ossolineum), a pomimo to osoba prowadząca
konwersje nie popełni błędu. Ponadto, podczas oceny porównujemy elementy tej samej strony,
zatem nie jest ważne czy strona poprzednia posiadała dla przykładu mnóstwo plam po zalaniu
a bieżąca strona jest "bardzo ładna", gdyż ocena dotyczy tylko relacji konkretna strona
czasopisma - odpowiadający jej plik DjVu. Jeżeli różnice odcieni
szarości zdjęcia pozwalają nam wygodnie odczytać na łysinie napis „ierownik
Tartak”, który jest fragmentem tytułu ze strony odwrotnej „Kierownik
Tartaku”, możemy być pewni, że postać cyfrowa zdigitalizowanej strony jest na
pewno wiarygodna, a warstwa tła pliku DjVu nie jest rozmyta. Celem
ułatwienia odczytu przebijającego napisu, zdjęcie łysego pana odwrócono o
180°, co zresztą widać po odwróconym pasku narzędziowym nad zdjęciem.
Zaprezentowane poniżej fragmenty pochodzą z cyfrowej postaci DjVu „IKC”
strony 11 i 12. |
|
|
|
|
|
Jak
wspomniano wyżej, czasopisma skanowane były dla trzech wartości
rozdzielczości, a mianowicie dla 300, 450 i 600 dpi. Wartości 300 oraz 600
dpi wydają się być dobrane w naturalny sposób, natomiast wartość 450 dpi
wymaga słowa komentarza. Otóż, wybór ten podyktowany był niektórymi
mechanizmami enkodera formatu DjVu. Podczas powstawania pliku DjVu zawartość konwertowanej strony dzielona jest na warstwę treści oraz warstwę tła. I to zapewne jest jasne i oczywiste. Natomiast istotnym jest krok kolejny czyli sposób w jaki warstwy te „trafią” do pliku DjVu. Nie może to być jeden sposób, ponieważ warstwy te zawierają zupełnie odmienne naturą elementy konwertowanej strony. Do warstwy treści trafiają obiekty najczęściej jedno- lub dwubarwne (litery, cyfry, linie, znaki, ...), co oznacza, że sposób ich zapisu i kompresji musi być całkowicie odmienny od sposobu zapisu nie obiektów, lecz współtworzących warstwę tła obszarów, w których jakość oddania kolorów a właściwie przejść tonalnych przyczynia się do finalnej oceny jakości pliku DjVu. Stąd
też użytkownicy wersji Enterprise mogą ustawiać osobno dzielnik dla
kompresji obiektów w warstwie treści (foreground subsample od 1 do 12)
jak i dzielnik – nie dla poziomu kompresji – ale do wyznaczenia wartości
rozdzielczości z jaką powstanie warstwa tła (background subsample od 1
do 10). Tą ostatnią wartość można ustawiać również w wirtualnej drukarce LizardTecha.
Poniższa
tabela pokazuje, że dla rozdzielczości plików Tiff 300, 450 i 600 dpi można
tak przeprowadzić konwersję (czy też tak ustawić dzielniki, o których
wspomniano wyżej), że powstałe pliki DjVu będą posiadać albo identyczną
wartość rozdzielczości dla warstwy tła albo/oraz identyczną wartość dla
warstwy treści pomimo, iż powstały z plików Tiff o różnych rozdzielczościach.
Dla trzech rozdzielczości - 300, 450 i 600 dpi jednocześnie można dobrać 3
takie warianty : 150, 75 i 50,
zaś dla dwóch wartości rozdzielczości plików Tiff dostępne są kolejne
4 warianty – 300, 100, 60, 37.5). |
|
Dzielnik 1÷12 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
|
|
300 |
[dpi] |
300 |
150 |
100 |
75 |
60 |
50 |
|
37,5 |
|
30 |
|
25 |
|
450 |
[dpi] |
450 |
225 |
150 |
112,5 |
90 |
75 |
|
|
50 |
45 |
|
37,5 |
|
600 |
[dpi] |
600 |
300 |
200 |
150 |
120 |
100 |
|
75 |
|
60 |
|
50 |
|
400 |
[dpi] |
400 |
200 |
133,33 |
100 |
80 |
66,66 |
|
50 |
|
40 |
|
|
Po wskazaniu wartości dzielnika 2 dla konwersji plików Tiff 300 dpi (czyli 300/2 = 150 dpi)
i odpowiednio 3 dla plików Tiff 450 dpi oraz 4 dla plików Tiff 600 dpi otrzymano (i zaprezentowano
w niniejszym artykule) takie publikacje DjVu, w których obiekty (litery, znaki, linie, ...) w
warstwach treści o rozdzielczościach odpowiednio 300, 450 i 600 dpi zawsze były kompresowane dla
150 dpi.
Zapoznając się z dowolną publikacją można wywołać z menu przeglądarki opcję szczegółów
informacji o stronie, by odczytać informacje jak pokazano niżej. W każdym przedstawionym fragmencie
okienka informacyjnego, dane o warstwie treści wykazane są w dwóch ostatnich wierszach.
|
|
Niespodzianką
okazała się efektywność działania profili podczas konwersji do formatu DjVu. W przypadku
konwersji „Ilustrowanego Kuryera Codziennego,” praktycznie idealną segmentację (rozumianą
jako umieszczenie wszystkich liter w warstwie treści pliku DjVu) uzyskuje się tylko dla
rozdzielczości 300 dpi. Dla niektórych stron z rozdzielczością 450 dpi, jedna-dwie litery
(z tytułów wydrukowanych dużą czcionką) pozostają w warstwie tła. Najbardziej kłopotliwą
dla idealnej segmentacji okazała się konwersja dla 600 dpi i to nawet przy uwzględnieniu
takich niuansów konwersji jak wartość parametru Resolution Multiplayer, który po
uaktywnieniu posiada określone przez producenta wartości dla rozdzielczości 300 dpi oraz
dla „konwersji powyżej 400 dpi”. Problem polega na tym, że nie wiadomo o ile powyżej 400
dpi parametr ten wpływa jeszcze korzystnie na przebieg konwersji. A może właśnie tłumaczy,
dlaczego dla wartości 450 dpi (bliskiej wartości 400 dpi) jakość konwersji można uznać za
satysfakcjonującą. |
|
Warstwa tła stron publikacji w formacie DjVu |
||
|
300
dpi |
450
dpi |
600
dpi |
|
|
|
|
|
|
|
|
|
|
Strony
„Głosu Narodu” posiadają rozmiar 47.9 cm * 61.0 cm, zaś
dzielnik dla warstwy treści ustawiono w profilu na wartość sześciokrotnie
mniejszą niż domyślna wartość producenta. Dlatego też otwarcie poszczególnych
stron może nie być błyskawiczne i trwać około 2÷3 sekundy. Gdyby celem
nadrzędnym prezentacji była publikacja postaci elektronicznej w internecie,
zapewne wspomniany wyżej dzielnik byłby ustawiony, co najwyżej trzykrotnie
niżej od wartości domyślnej. |
Ocenę
jakości, czytelności stron jak i poszczególnych segmentacji – pozostawiamy
czytelnikowi.
|
Dla
digitalizacji „Ilustrowanego Kuryera Codziennego” o rozmiarach strony 33.2
cm * 45.9 cm (zeskanowanowanego wyłącznie w trybie pełnego koloru)
wykonano poza konwersją postaci podstawowej także :
|