Restauracja e-obiektów udostępnionych w formacie prezentacyjnym

Digitalizacja i archiwizacja zasobów bibliotek prowadzona jest od ponad 10 lat. Przez ten okres, znaczenie terminu „digitalizacja” (a może cyfryzacja) wielokrotnie ulegało zmianie. Przyczyna tych zmian związana jest zarówno z dostępnymi na dany czas technikami, narzędziami programistycznymi jak i sukcesywnie powiększającymi się doświadczeniami pracowni reprograficznych czy też digitalizacyjnych bibliotek.

Problemem godnym zauważenia może być relacja pomiędzy sposobem w jaki biblioteki prezentują czytelnikom e-obiekty a tym, jak oryginały tych obiektów wyglądają naprawdę. Wiarygodność zaprezentowania e-obiektu jest zapewne jednym z ważniejszych czynników kształtujących opinie czytelników o danej bibliotece, a właściwie  o zaprezentowanych przez nią zasobach. Dyskusji dotyczącej powyższego problemu w pewnym stopniu sprzyja fakt pojawienia się na rynku różnych urządzeń przenośnych, za pomocą których czytelnicy coraz częściej „odwiedzają” biblioteki cyfrowe. Wyświetlacze tych urządzeń są jeszcze mniejsze niż wyświetlacze laptopów lub notebooków, a to na pewno jest pewnym utrudnieniem w zapoznawaniu się z e-obiektami o jakości przeciętnej lub niskiej.

Jakość e-obiektów powstałych ze znakomicie zachowanych obiektów papierowych zależy wyłącznie od tego jakim sprzętem, oprogramowaniem, wiedzą oraz doświadczeniem dysponują osoby, które realizują kolejne usługi digitalizacji. Wynik powinien być całkowicie satysfakcjonujący zarówno bibliotekarzy jak i czytelników ich biblioteki. Z kolei w przypadku obiektów papierowych o średnim lub znaczącym poziomie zniszczenia, efekt digitalizacji będzie zapewne budzić pewne zastrzeżenia.

Oczywiście, można przywołać słowa jednego z twórców formatu pdf „trash in – trash out”, czyli dałeś śmieci – dostaniesz śmieci (wypowiedź dotycząca odpowiedzi na pytanie: jaka będzie jakość pliku pdf po konwersji skanu tiff o niskiej jakości) i może być to pewnym usprawiedliwieniem. Usprawiedliwieniem dla efektu pracowni digitalizacyjnej nad skanami o niskiej jakości i nic ponadto. Natomiast pozostanie pytanie „czy można zastosować takie techniki informatyczne, dzięki którym jakość e-obiektów powstałych z częściowo lub znacząco zniszczonych obiektów papierowych będzie wyższa niż jakość papierowych oryginałów”?

Zapewne już kilka lat temu można było podjąć takie działania, by za ich pomocą (np. korzystając z profesjonalnego oprogramowania graficznego typu Photoshop, CorelDraw, …) realizować mnóstwo operacji, które przywróciłyby piękny wygląd skanom zniszczonych stron, po czym tak zredagowane pliki zaprezentować czytelnikom. Zapewne nakład potrzebnej pracy (do wykonania takich operacji) jak i obawa przed tym, że efekt pracy grafika będzie oceniony jako obraz niewiarygodny względem oryginału papierowego, powoduje, że wspomniane wyżej techniki nie są stosowane.

Spośród dostępnych sposobów prezentowania e-obiektów za wiarygodne a może po prostu całkowicie akceptowane zarówno przez czytelników jak i bibliotekarzy jest udostępnianie e-obiektów jako obrazy bitonalne, obrazy z 256-cio stopniową skalą szarości, obrazy kolorowe, a w czytelniach niektórych bibliotek również jako mikrofilmy (przynajmniej ze względu na ich cenę, wyłącznie czarno-białe).

Skoro obrazy bitonalne i mikrofilmy, które ocenić można jako te, którym „skradziono tło a litery pomalowano na czarno” lub e-obiekty zaprezentowane w skali szarości, które nijak nie oddają wyglądu oryginału papierowego, uznawane są za wiarygodne (pomimo, że tak nie jest), to czy ewentualne działania zmierzające przywrócenie skanom zniszczonych obiektów papierowych akceptowalną lub wysoką jakość można z góry ocenić jako działania prowadzące do powstania e-obiektów niewiarygodnych czy też e-obiektów poddanych jedynie wirtualnym zabiegom konserwatorskim?

Opinie zapewne będą podzielone, zwłaszcza, że – jeżeli w ogóle takie narzędzia zostaną użyte – o zakresie ich zastosowania decydować będzie człowiek kierując się własną opinią i własnym doświadczeniem. A to już jest kryterium niepowtarzalne, nawet w obszarze porównań zaledwie kilku bibliotek.

Pozostawiając powyższe pytanie bez odpowiedzi, przedstawić można narzędzie, które dla prezentacyjnego formatu DjVu realizuje działania o charakterze restytucyjnym względem skanów digitalizowanych obiektów bibliotecznych. Powstało ono m.in. dlatego, by coraz szersza użytkowników, stosujących urządzenia o małych wyświetlaczach nie tylko nie opuszczała biblioteki cyfrowej, którą stale odwiedzała ale wracała do niej bardzo chętnie.  Wyższa czytelność, większa jakość e-obiektu to właściwości, których od e-obiektu oczekuje w naturalny sposób każdy czytelnik i nie jest to odkrycie o charakterze przełomowym.

Zapoznawanie się z e-obiektami powstałymi z bardzo zniszczonych obiektów nie jest wygodne i wymaga znacznego wysiłku. Przykład takiego obiektu (pojedyncza strona oraz powiększony jej fragment) przedstawiono poniżej

Wyświetlenie powyższego obiektu - przykładowo - na monitorze o przekątnej 24”, wprawne posługiwanie się przeglądarką DjVu oraz wyłączanie warstwy tła powoduje, że komfort zapoznawania się z jego treścią jest wysoki. Operowanie zaś urządzeniem przenośnym przez czytelnika korzystającego z bardzo podstawowych funkcji przeglądarek powoduje, że nawet duże powiększenie fragmentu strony sprawi mu kłopot. „Restytucja skanów” powyższego obiektu umożliwia zaprezentować powyższy e-obiekt z jakością znacznie wyższą :

Celem opracowanego algorytmu, a w ślad za nim narzędzia informatycznego było umożliwienie znacząco zniszczonym stronom e-obiektów o bardzo precyzyjnej segmentacji zawartości strony i jednokolorowym tle (gdy obiekt opuścił drukarnię) przypisać tło strony z innego obiektu. Od strony technicznej, warunkiem podstawowym podczas powstawania tego narzędzia była możliwość zastosowania go w ciągłej produkcji e-publikacji. Ingerencja człowieka w konwersję każdej strony e-obiektu z osobna, została z góry wykluczona, gdyż przydatność przygotowanego w taki sposób narzędzia obniżyłaby się do zera.

Powyżej zaprezentowano odrestaurowaną postać e-obiektu, którego kolejne strony również posiadają drobne plamki. Wybór taki jest świadomym, gdyż założono, że czytelnik powinien sądzić, że zapoznaje się z treścią e-obiektu ponad stuletniego. I e-obiekt ten rzeczywiście powstał ze skanów takiego obiektu, tylko że dalece zniszczone tła kolejnych stron zostały wymienione na takie tła, których wygląd nie stoi w sprzeczności z opinią czytelnika (na jaką liczy bibliotekarz) i jednocześnie nasz czytelnik komfort zapoznawania się z treścią e-obiektu oceni jako wysoki. Ponieważ to użytkownik narzędzia decyduje jakie tło użyte będzie w równoległej konwersji dwóch plików tiff (z których powstaje jeden plik DjVu), użytkownik ten bezpośrednio wpływa na wygląd finalny e-obiektu i opinię czytelników. Czy jest to działanie poprawne, etyczne, …? Na pewno jest to działanie w interesie czytelników, w osiągnięciu ich zadowolenia z udostępnienia e-obiektów o wyższej jakości niż jakość, którą oferuje „klasyczna konwersja” plików skanów.

Powyżej przedstawiono odrestaurowany e-obiekt, który podczas pierwszej restytucji powstał z jaśniejszymi stronami, a podczas kolejnej - ze stronami ciemniejszymi. Który wariant należy wybrać do opublikowania ? Taki, który wg subiektywnej oceny wykonującej go osoby jest ładniejszy. W porównaniu do skanów oryginału obiektu, które to przedstawiono poniżej, oba powyższe rozwiązania ocenione będą o wiele wyżej.

Zestawienia tabelaryczne wielu przeróżnych wartości liczbowych nawet w e-obiektach o bardzo wysokiej jakości wymagają odpowiedniego skupienia. Sytuacja, w której jakość oryginału obiektu jest niska, strony zawierają znaczące „przebijanie” tekstu ze strony sąsiadującej, część liter oceniono jako częściowo wypłowiałe, prowadzi do digitalizacji, która pozwoli na udostępnienie czytelnikowi e-obiektu takim jaki jest oryginał, ale nie oznacza to, że będzie to jakość satysfakcjonująca. W pewnym sensie będzie to odzwierciedlenie zasady „trash in – trash out”  :

Działania narzędzia restytucyjnego sytuację taką mogą odmienić. W wyniku odrestaurowania e-obiektu, czytelnik wyświetli ten sam e-obiekt o jakości :

Wszystkie e-obiekty poddane odrestaurowaniu posiadają - dla części przypadków - przynajmniej taką samą jakość warstwy treści jak e-obiekty powstałe podczas „klasycznej” konwersji, a w pozostałych przypadkach – znacznie więcej niż połowa – jakość wyższą. Wynika to z bardzo prostego faktu. Podstawowa konwersja za pomocą profili specjalnie pisanych dla określonej kolekcji skanów, prowadzi do plików djvu o precyzji segmentacji zawartości stron 100% tylko dla pewnej części skanów z tej kolekcji. Precyzja segmentacji pozostałych stron mieści się zazwyczaj w przedziale 97÷99.9%. W jednym z przedstawionych w niniejszym artykule e-czasopiśmie, ilość liter tekstu wszystkich jego stron, które w wyniku konwersji do formatu DjVu umieszczone zostały w warstwach tła nie przekroczyła 10. Po odrestaurowaniu, warstwy treści tego e-czasopisma są bezbłędne (czyli poziom precyzji segmentacji osiągnął wartość 100%).

Gdy przed opublikowaniem określonej kolekcji e-obiektów stwierdzi się, że część z nich należy poddać restauracji, są one przeglądane m.in. pod kątem maksymalnie wysokiej precyzji segmentacji. W naturalny sposób precyzowany jest użyty pierwotnie do konwersji profil, ale już dla węższej kolekcji plików, co przyczynia się do podniesienia poziomu precyzji segmentacji. Końcowy efekt wizualny e-obiektu zapewnia jednak - przede wszystkim - wymiana „odpowiednio dobranego” tła podczas ponownej konwersji – tym razem równoległej – odrestaurowywanych skanów e-obiektów (wraz z skanami, które są źródłem teł o pożądanej jakości, kolorystyce, fakturze papieru itp.).

Przykład podniesienia czytelności e-obiektu, w którym

·         przebijanie tekstu stron sąsiadujących jest bardzo uciążliwe,

·         na stronach występują drzeworyty, których segmentacja jest jednym z trudniejszych zadań podczas konwersji plików tiff oraz

·         tytuły wydrukowane są bardzo dużą czcionką (relatywnie względem wysokości liter czcionki treści artykułów), co powoduje, że często bardzo trudno „zmusić je” odpowiednim profilem konwersji, by zostały umieszczone w warstwie treści

przedstawiono poniżej przed odrestaurowaniem :

I po użyciu narzędzia odrestaurowania e-obiektu:

Poważnym kłopotem podczas digitalizacji czasopism są popularne, wydawane przez wiele lat dzienniki (czasami nawet 2 numery/1 dzień) i co zrozumiałe, cieszące się dziś dużą czytnością wśród czytelników BC. Problem polega na tym, że w rocznikach takich czasopism występują okresy, w których czasopisma te wydawane były na papierze o wyjątkowo niskiej gramaturze, być może rzędu 50÷60 g/m². Przykładowo wymienić można tu „Kuryera Warszawskiego”, Gazetę Warszawską”, „Wiek” czy też „Gazetę Polską” (ale tą normalną z XIX-XX w.). Przebijanie tekstu w takich obiektach bibliotecznych jest normalnością, która znacząco utrudnia zapoznawanie się z zawartością kolejnych ich stron.

Narzędzie odrestaurowywania dla takich obiektów jest równie wydajne. Kłopotliwym jedynie może być zgromadzenie (w „prywatnym archiwum” użytkownika narzędzia) różnych plików teł (kolorystyka, proporcje szerokość-wysokość, strony lewe i prawe, pożądany stopień ich „zniszczenia o co najwyżej…” a zbliżony do innych numerów, które nie będą podlegać odrestaurowaniu) wykorzystywanych podczas odrestaurowania stron o formacie nie rzadko A3 i większym. Jeżeli dobrane w poniższym przykładzie tło ocenione może być jako dobrane poprawnie, czytelność odrestaurowanego e-obiektu przestawia się następująco :

Zakładając, że konwersja plików skanów w formacie macierzystym do e-publikacji w prezentacyjnym formacie DjVu składa się m.in. z następujących czynności :

·         Przygotowanie specjalizowanych profili konwersji dla określonej partii skanów (w zależności od ich zawartości, jakości, …),

·         Konwersję pojedynczego numeru czasopisma za pomocą 1÷6 profili konwersji (innym profilem strony wyłącznie z tekstem, innym strony zawierające zdjęcia, kolejnym dla stron z drzeworytami, …),

·         Wykonanie e-publikacji z użyciem słowników kształtów wspólnych,

·         Wykonanie mapowania (dodania kolekcji hiperłączy) dla numerów z spisem treści (jeżeli e-obiekt posiada spis treści),

·         Wykonanie OCR uwzględniającego logiczną strukturę rozpoznawanych stron (wg szpalt/kolumn/regionów i wg ciągłości treści w kolejnych artykułach),

·         Integrowanie w e-publikacjach pożądanych adnotacji,

·         Integrowanie w e-publikacjach deskryptywnych metadanych zgodnych z atrybutami DC jako : kontener DjVu meta oraz kontener XMP meta (odpowiadający opisowi w formacie rdf),

·         Integrowanie w każdej stronie każdej e-publikacji technicznych metadanych opisujących : właściwości strony w formacie DjVu, sposobu jej powstania oraz właściwości pliku w formacie macierzystym, z którego strona ta powstała (również jako dwa kontenery DjVu meta oraz XMP meta)

I że wydajność zespołu 6÷7 osób powinna zagwarantować wydajność 30.000 stron/tydzień kalendarzowy, to zastosowanie mechanizmów odrestaurowywania e-obiektów o znacząco niskiej jakości  (np. w ilości 3-5% całej kolekcji) nie powinno obniżyć w/w wydajności do poziomu niższego niż przedział 24.000÷27.000 stron/tydzień kalendarzowy.

Kłopotliwe „ambiguous objects”

“Ambiguous objects” w procesie konwersji oznaczają takie elementy graficzne zawarte na konwertowanej stronie, które nie są jednoznacznie rozpoznane, a właściwie to nie są odpowiednio zakwalifikowane przez encoder do tego, czy umieścić je w warstwie treści czy też warstwie tła. W takiej sytuacji niezbędna jest wiedza i doświadczenie osoby przygotowującej profil konwersji do formatu DjVu. Podczas konwersji obiektów bibliotecznych do takich obiektów (sprawiających kłopoty) zaliczyć należy przede wszystkim numery sygnatur umieszczone odręcznie – najczęściej ołówkiem - oraz mniej lub bardziej rozmazane elementy pieczęci. Jeżeli dodatkowo strony obiektu są znacząco zniszczone, problem nie tylko odrestaurowania ale i konwersji staje się nieco trudniejszy. Jako przykład zaprezentować można kilka numerów “Orła Bałego”.

Numer 1/1848 (strona pierwsza)

Numer 14-15/1848 (strona ostatnia)

Efekt pracy narzędzia odrestaurowania potwierdza, że również niejednoznaczne obiekty mogą - zamiast umieszczenia ich częściowo w warstwie treści i częściowo w warstwie tła (co obniża wizualną ocenę e-obiektu) - być umieszczone albo w całości w warstwie treści i zostać zaprezentowane w całości czytelnikowi albo w całości być umieszczone w warstwie tła co w trakcie odrestaurowania spowoduje ich usunięcie z e-obiektów. Jakkolwiek właściwość tą zaprezentowano poniżej na przykładzie numerów sygnatur, należy mieć na uwadze, to iż wiele obiektów posiada czarne, szare, czerwone i inne podkreślenia różnych fragmentów digitalizowanych stron e-obiektów.

Numer 1/1848 (strona pierwsza)

Numer 1/1848 (strona pierwsza) , profil konwersji usunął obiekty niejednoznaczne

Numer 1/1848 (strona pierwsza), profil konwersji zachował obiekty niejednoznaczne

Numer 8/1848 (strona pierwsza)

Numer 8/1848 (strona pierwsza) , profil konwersji usunął obiekty niejednoznaczne

Numer 8/1848 (strona pierwsza), profil konwersji zachował obiekty niejednoznaczne

Numer 9/1848 (strona pierwsza)

Numer 9/1848 (strona pierwsza) , profil konwersji usunął obiekty niejednoznaczne

Numer 9/1848 (strona pierwsza), profil konwersji zachował obiekty niejednoznaczne

Numer 13/1848 (strona pierwsza)

Numer 13/1848 (strona pierwsza) , profil konwersji usunął obiekty niejednoznaczne

Numer 13/1848 (strona pierwsza), profil konwersji zachował obiekty niejednoznaczne

Numer 14-15/1848 (strona pierwsza)

Numer 14-15/1848 (strona pierwsza) , profil konwersji usunął obiekty niejednoznaczne

Numer 14-15/1848 (strona pierwsza), profil konwersji zachował obiekty niejednoznaczne

Numer 14-15/1848 (strona ostatnia)

Numer 14-15/1848 (strona ostatnia) , profil konwersji zachował obiekty niejednoznaczne

Zakres zastosowania narzędzia odrestaurowania e-obiektów, zalety i ograniczenia.

Przedstawione narzędzie zadowalająco nadaje się do obiektów, których kolejne strony są jednokolorowe, nie posiadają zdjęć lub innych obiektów graficznych umieszczanych w warstwie tła.

Warunkiem satysfakcjonującej restauracji jest posiadanie takiego profilu konwersji skanu w formacie macierzystym, który gwarantuje precyzję segmentacji zawartości kolejnych stron przynajmniej na poziomie 99.5%.

Pracownia realizująca restaurację e-obiektu posiada możliwość przeznaczenia określonej ilości roboczogodzin osobie o określonej wiedzy i doświadczeniu dla jej wykonania

Osoba realizująca kolejne restauracje zgromadziła określoną ilość przeróżnych (wielkością, kolorystyką, …) plików w formacie macierzystym, które posłużą jako tła w odrestaurowanych stronach e-publikacji.

Pracownia dysponuje oprogramowaniem DocumentExpress Enterprise (najlepiej z encoderem 5.1) oraz darmową przeglądarką (dla jednostek edukacyjnych) IrfanView.

Algorytm odrestaurowania można w prosty sposób „uprościć” i odrestaurowanie prowadzić wprost na plikach DjVu e-publikacji przygotowanych sposobem „klasycznym”. Taki zabieg (czy też wariant przebiegu restauracji e-obiektu) znacząco obniży nakład potrzebnej pracy, ale uniemożliwi jednocześnie ew. podniesienie o kolejny krok jakości warstwy treści. W takim przypadku, do zrealizowania procesu restauracji oprogramowanie DocumentExpress Enterprise nie jest wykorzystywane w ogóle (a zatem i nie jest wymagane). Należy mieć na uwadze również to, że dla wielu e-obiektów DjVu, warstwy treści kolejnych stron zawierają 100% liter, znaków i innych elementów graficznych (po konwersji „klasycznej”). Dla tych e-obiektów nie podnosi się już precyzji segmentacji, ponieważ jest idealna, zatem taką restaurację byłoby wręcz zalecanym prowadzić sposobem uproszczonym.

W zależności od tego jakie pliki w formacie macierzystym użyto jako tła odrestaurowywanych e-obiektów, miłym zaskoczeniem może być relacja pomiędzy wielkością e-obiektu przed i po jego odrestaurowaniu.

Ilościowe ujęcie procesu restytucji jakości e-obiektów.

Format prezentacyjny DjVu charakteryzuje się między innymi bardzo małymi rozmiarami plików. Praktycznie nie sposób wskazać inny format plików, który posiadałby możliwość jeszcze bardziej oszczędnego tworzenia e-publikacji. Okazuje się, że e-publikacje DjVu powstałe z e-publikacji DjVu podczas procesu ich odrestaurowywania, mogą być mniejsze nawet o kolejne 60% w stosunku do rozmiaru plików, z których powstały.

Wartości te najlepiej oddaje tabela przytoczonych w niniejszym artykule przykładów :

l.p.

Nazwa czasopisma

Rozmiar po konwersji podstawowej [kB]

Rozmiar e-publikacji po odrestaurowaniu [kB]

Obniżenie rozmiaru o… [%]

1

Wiadomości Polskie, 1854-1861 (034488)

993,00

658,00

33,7

2a

Korrespondent Kraiowy y Zagraniczny,1793 (strony jaśniejsze)

4 365,50

3 324,27

23,9

2b

Korrespondent Kraiowy y Zagraniczny,1793 (strony ciemniejsze)

4 365,50

4 337,69

0,6

3

Gazeta Handlowa i Przemysłowa, 1843-1845 (2g.20.6.2)

1 131,17

461,12

59,2

4

Gazeta Rolnicza, Przemysłowa i Handlowa, 1850-1860 (2.20.6.2)

3 296,25

2 343,66

28,9

5

Gazeta Polska, 1868-1873 (06092)

2 726,96

2 358,10

13,5

6a

Orzeł Biały, 1848 (34897) - pięć numerów

6 778,52

2 938,79

56,6

6b

Orzeł Biały, 1848 (34897) - pięć numerów (zachow. obiekty niejedn.)

6 778,52

2 873,58

57,6

Tabela w jednoznaczny sposób pokazuje, że tak bardzo niepożądane w e-obiektach „przebicia tekstu” ze strony sąsiadującej, plamy i zabrudzenia stanowią znaczący udział procentowy w całkowitym rozmiarze e-obiektu. Usunięcie ich podczas odrestaurowywania e-obiektu i zastąpieniem „czystym tłem”, które to w większości swojej powierzchni jest jednym „wielkim” wypełnieniem barwnym, prowadzi  efekcie do znaczących oszczędności w obciążeniu dysków serwerów plików w BC. Z kolei przykład dwóch odmiennych restytucji czasopisma „Korrespondent…” pokazuje, że tło nie może być zbyt „bogate” w szczegóły (chyba, że to efekt zamierzony), ponieważ wtedy efekt oszczędności liczony będzie zaledwie w promilach (w tabeli powyżej zaledwie 6).

Ta dodatkowa zaleta, jaką jest znaczące obniżenie rozmiaru e-publikacji, a w konsekwencji mniejsze obciążenie dysków serwerów i szybsze dostarczanie e-obietów do komputerów lub urządzeń przenośnych czytelników może być bardzo interesującą opcją dla BC, które zamierzają udostępniać czytelnikom przynajmniej 50.000 o ile nie powyżej 100.000 różnych publikacji elektronicznych.

 

Wszystkie zaprezentowane e-publikacje wykonano w oparciu o skany oryginałów obiektów, które są wyłączną własnością Biblioteki Uniwersyteckiej w Warszawie (http://ebuw.uw.edu.pl/dlibra). Pliki skanów wykorzystano wyłącznie w celach odpowiedniego zaprezentowania możliwości narzędzia restauracji e-obiektów.

Wszystkie przedstawione e-publikacje (zarówno te przed jak i po procesie odrestaurowywania) wyposażone są w ukryte warstwy tekstowe, adnotacje zgodne z oczekiwaniami ich właściciela, deskryptywne metadane odpowiadające opisom e-publikacji dostępnych w formacie rdf oraz techniczne metadane dla wszystkich stron wszystkich e-publikacji.

Miniatura każdej z zaprezentowanych e-publikacji jest jednocześnie hiperłączem do tej publikacji w prezentacyjnym formacie DjVu.

 

Grzegorz Bednarek

grzegorz@djvu.pl

Październik 2011