Prezentacja wybranych zbiorów Biblioteki Jagiellońskiej w Krakowie.

Prawdziwe skarby bibliotek w oryginale zobaczyć może niewielka grupa osób. Dla przeciętnego czytelnika - co zrozumiałe - zbiory takie są niedostępne. Skoro jednak obecne technologie informatyczne umożliwiają w wirtualnym świecie internetu przedstawienie niemal dowolnej informacji a zasoby kolejnych bibliotek cyfrowych rozrastają się bardzo szybko, można pokusić się o to, by elektroniczne publikacje – i to nie tylko prawdziwych skarbów – tych bibliotek były publikacjami kompletnymi nie tylko z punktu widzenia treści samej publikacji ale również z wiarygodnym przedstawieniem szaty graficznej, wiernym oddaniem kolorystyki, zachowaniem wielkości stron odpowiadających rozmiarowi oryginału i oczywiście wykonanych z możliwie najwyższą jakością.
 

Jakość publikacji

Pierwszą właściwością publikacji, na którą zwraca uwagę czytelnik, jest jej wygląd. Trudno zachęcić do kolejnych odwiedzin biblioteki cyfrowej, w której publikacje są nieczytelne lub zamazane. Poza tym jakość publikacji wystawia ocenę samej bibliotece. Ponieważ zasoby bibliotek cyfrowych tworzone są od kilku lat, a zatem i za pomocą technologii dostępnych kilka lat temu, można w ich zasobach odnaleźć publikacje, które przedstawiono w „sztucznych” i nierzeczywistych odcieniach szarości, można też odnaleźć publikacje czarno-białe, których jakość spośród wszystkich możliwych publikacji jest zdecydowanie najniższa.

Można zadać sobie pytanie, czy określoną pozycją w bibliotece cyfrowej jest publikacja czy też jedynie jej treść. Jeżeli celem jest wyłącznie treść, można ją opublikować w formacie rtf lub html zamiast czarno-białych skanów. Jeżeli jednak celem jest możliwie wiarygodne przedstawienie publikacji, uwagę zwrócić należy na przynajmniej kilka jej właściwości.

Mając na uwadze fakt, że publikacje powstałe  z zastosowaniem technologii DjVu posiadają bardzo mały rozmiar, w pierwszym etapie przygotowania publikacji można się skupić na możliwie najlepszej jej jakości. Dostępnymi narzędziami są programy DocumentExpress Professional lub DocumentExpress Enterprise. Używając tych narzędzi wystarczy dobrać stosowny profil i przeprowadzić konwersję. O tym, jaki otrzymamy plik decyduje trafność wyboru profilu (profil konwersji to kolekcja liczbowych parametrów determinujących sposób konwersji do formatu DjVu). W wersji Professional użytkownik posiada do dyspozycji 7 różnych profili konwersji, spośród których dla starodruków i rękopisów przydatne mogą być Normal, Manuscript i Drawing. Z kolei w wersji Enterprise użytkownik - poza profilami podstawowymi - posiada do dyspozycji moduł samodzielnego tworzenia i precyzowania profili. To narzędzie w przypadku publikowania zbiorów cennych lub wręcz skarbów bibliotecznych może sprostać wymogom najbardziej wymagających użytkowników. Poniżej, celem porównania przedstawiono efekt działania różnych profili konwersji.

Tabela zawiera kolejno od lewej

·   wygląd pliku Tiff przed konwersją,

·   jako ciekawostka, możliwości programu - do zastosowań osobistych – DjVu Solo,

·   efekt konwersji trzech w/w profili,

·   efekt konwersji profilem specjalnie napisanym dla starodruków M. Reja i zeszytów Iskra – „UJ-Starodruk”.

W pierwszym rzędzie pokazano kompletny widok strony, a w drugim wyłącznie warstwę treści dokumentu powstałą podczas jej konwersji do formatu DjVu.

Śledząc wyłącznie poniższe miniaturki zauważyć można, że precyzja segmentacji profilu Normal jak i możliwości programu DjVu Solo są dla konwersji takiego dokumentu niewystarczające. Jednak dla wielu innych stron tego starodruku metody te dały satysfakcjonujący efekt. W przypadku konwersji stron poplamionych, zawierających wiele blisko sąsiadujących linii w/w sposoby zawodzą. Profile Drawing, Manuscript jak i UJ-Starodruk wykonały segmentację całkowicie poprawnie. Należy sądzić, że dla książek zachowanych w nieco lepszym stanie (mniejsza ilość plam, nieznacznie przebijający druk liter z drugiej strony kartki), podstawowe profile konwersji Manuscript lub Drawing pozwolą utworzyć publikacje o wystarczająco wysokiej jakości. Ponieważ profil UJ-Starodruk pozwolił uzyskać publikację DjVu o najwyższej jakości i przy okazji najbardziej precyzyjnej segmentacji zawartości poszczególnych stron, niniejsza prezentacja udostępnia zeszyty „Iskra” oraz „Figliki” i „Zwierzyniec” Mikołaja Reja wykonane tym właśnie profilem.

Umieszczone w tabeli miniatury fragmentu strony starodruku Mikołaja Reja można powiększyć kliknięciem myszki lub obejrzeć kompletną stronę za pośrednictwem przycisku „DjVu”.

Plik Tiff

DjVu Solo

Normal

Manuscript

Drawing

UJ-Starodruk

 

DjVu Solo

Normal

Manuscript

Drawing

UJ-Starodruk

55,3 kB

52,5 kB

53,3 kB

52,8 kB

61,7 kB

Czwartą publikacją jest rękopis sprzed blisko 600 lat. Ilość ozdobnych elementów zawierających bardzo dużą liczbę szczegółów, jasny kolor liter, wiele zdań dopisanych „drobnym maczkiem”, jaśniejsze, ciemniejsze lub poplamione strony spowodowały, że dla wykonania konwersji o satysfakcjonującej jakości zaistniała konieczność utworzenia kolejnego profilu konwersji – „UJ-Rękopis”. Nie oznacza to, że profile Manuscript lub Drawing nie radziły sobie z takim dokumentem zadowalająco.

Strategia przyjęta celem uzyskania możliwie maksymalnej jakości związana była ściśle z budową plików DjVu. Zawartość pojedynczej strony publikacji przechowywana jest – ogólnie rzecz ujmując – w dwóch nałożonych na siebie warstwach. Pierwsza nazywana jest warstwą treści i zawierać powinna litery, cyfry oraz małe elementy graficzne o ostrych i jednolitych krawędziach. Taka warstwa powstaje najczęściej w rozdzielczości jaką prowadzono skanowanie postaci papierowej (w przypadku tej publikacji 300 dpi). Druga warstwa nazywana warstwą tła, zawiera wypełnienia barwne strony oraz stanowiące jej część obrazki lub wklejone fotografie. Taka warstwa dla optymalnych rozmiarów całej publikacji wykonywana jest z rozdzielczością kilkakrotnie mniejszą od rozdzielczości warstwy treści (w tym wypadku 100 dpi).

Niepowtarzalny urok ozdobnych elementów w publikacji, które podstawowe profile konwersji w znaczącej ilości umieszczają w warstwie tła sprawił, że za cel przyjęto napisanie takiego profilu, który jeżeli nie dla wszystkich elementów ozdobnych (rękopis posiada 655 stron) to dla ich ogromnej większości dokona takiej segmentacji, w efekcie której w warstwie treści umieszczone zostaną poza tekstem również obrysy elementów ozdobnych i ich jednolite wypełnienia barwne. Zobrazowanie efektu konwersji do formatu DjVu za pomocą profilu o w/w właściwościach przedstawia poniższy rysunek, w którym na fragment strony w formacie DjVu nałożono powiększenie ozdobnego elementu wyświetlonego jako widok kompletny oraz ten sam fragment wyświetlony jako warstwa treści.


Gdyby nie nałożyć powiększeń na powyższy rysunek, zauważalne byłoby jedynie to, że strona zawiera jakiś element ozdobny złożony z mniejszej lub większej ilości barwnych plamek. Z kolei opisana wyżej zmiana strategii konwersji skanu strony prowadzi do uzyskania takiej jakości, która pozwala czytelnikowi przy odpowiednim powiększeniu wyraźnie przyjrzeć się nawet oczkom dzielnego zucha, który w jakimś celu coś tam sobie trzyma.

Łatwo zauważyć również, że skoro z taką precyzją i wiarygodnością przedstawione są bardzo drobne szczegóły na pojedynczej stronie, to ogólna jakość całej publikacji musi być bardzo wysoka. I to właśnie - jak sądzimy – powinno być naistotniejszym czynnikem podczas wyboru sposobu konwersji do formatu DjVu.

Aby odnieść się do tak otrzymanej jakości publikacji rękopisu, wykonano kolejne konwersje rękopisu za pośrednictwem profili Manuscript oraz Drawing. Spośród tych dwóch profili łatwo domyślić się, że odpowiedniejszym okazał się - jak sama nazwa wskazuje – Manuscript.

Ponadto, należy pamiętać o tym, że z treścią dokumentu czy też publikacji zapoznajemy się przede wszystkim wyświetlając jego postać kompletną a nie poszczególne warstwy.  Zawartość poszczególnych warstw jest jedynie informacją pomocniczą informującą z jakiej jakością publikacji się zapoznajemy.

Poza tym, nie wszystkie biblioteki posiadają półki zapełnione wyłącznie XIII i XIV-to wiecznymi rękopisami, co sugeruje, że do technik tworzenia indywidualnych profili, jakże przydatnych w sytusacji konwersji starych i zniszczonych dokumentów, nie sięga się zbyt często i profile konwersji podstawowej spełnią większość oczekiwań jakościowych czytelników.

Poniższa tabela przedstawia jakość fragmentu strony w formacie DjVu otrzymanej na drodze konwersji odpowiednio za pośrednictwem profili UJ-Rękopis, Manuscript oraz Drawing.

 

UJ-Rękopis
 

Manuscript
 

Drawing
 

UJ-Rękopis
 

Manuscript
 

Drawing
 


Rozmiar publikacji, szybkość wyświetlenia strony na komputerze czytelnika.

Profile konwersji UJ-Starodruk oraz UJ-Rękopis, dzięki którym uzyskano najlepsze efekty konwersji mają swoją cenę w procesie digitalizacji dokumentów. Tą ceną jest wzrost rozmiaru publikacji względem rozmiaru tej samej publikacji ale otrzymanej na drodze konwersji za pomocą profili podstawowych. Oczywiście, nie jest regułą, ze każdy napisany indywidualnie profil konwersji powoduje wzrost objętości publikacji.
 

Aby przedstawić ilościowe różnice w wielkości opublikowanych w niniejszej prezentacji zbiorów, wykonano dodatkową konwersję skanów w formacie Tiff do formatu pdf. Ponadto, pobrano ze strony internetowej publikację rękopisu w formacie jednostronicowych plików jpg. Rękopis opublikowany na stronie internetowej przedstawiony jest w skali 1:3, co oznacza, że powierzchnia pojedynczej strony takiej publikacji jest 9-krotnie mniejsza od powierzchni oryginału. Mając na uwadze powyższe uwagi, uzyskane dane przedstawiono na poniższym wykresie oraz w kolejnej tabeli. Wykres przedstawia rozmiar kompletnej publikacji wykonanej w formacie pdf (945 MB), w formacie jpg i w skali 1:3 (320 MB), w formacie DjVu za pośrednictwem podstawowego profilu Manuscript (159 MB) oraz w formacie DjVu za pośrednictwem profilu UJ-Rękopis (206 MB). Dodatkowo, co w niewielkim stopniu wpłynęło na wzrost objętości publikacji, w publikacji pdf osadzono i zapisano miniatury kolejnych stron, a w publikacjach DjVu osadzono i zapisano miniatury stron oraz rozwijalny spis treści z nazwami poszczególnych stron zgodnymi z nazwami na stronie internetowej Biblioteki Jagiellońskiej.

W przypadku publikacji elektronicznych w formacie DjVu tak naprawdę nie jest istotny rozmiar całej publikacji lecz przeciętny rozmiar pojedynczej strony. Wynika to z faktu, że czytelnik publikacji w formacie DjVu wskazując do wyświetlenia określoną stronę, wydaje polecenie pobrania z serwera internetowego wyłącznie takiej ilości bajtów, które odpowiadają tej stronie. Inaczej jest w przypadku publikacji dla przykładu w formacie pdf. Jeżeli czytelnik zamierza zapoznać się z treścią strony np. nr 200, wydaje polecenie pobrania z serwera internetowego takiej ilości bajtów, które odpowiadają stronom od nr 1 do nr 200. Dla powyższego rękopisu zapisanego w formacie pdf przeciętny rozmiar strony wynosi 945.022,8/655 stron = 1442,8 kB zaś w formacie DjVu rozmiar ten wynosi dla profilu Manuscript 243 kB a dla profilu UJ-Rękopis 315,7 kB. Powracając do powyższego przykładu. Aby móc zapoznać się ze stroną nr 200 w sytuacji gdy publikacja wykonana jest w formacie pdf należy pobrać do komputera 288.560,0 kB, a gdy zapisana jest w formacie DjVu wystarczy 315,7 kB.

Mając z kolei na uwadze różnice w jakości publikacji wykonanej za pomocą profili Manuscript i UJ-Rękopis oraz różnice w wielkościach przeciętnej strony ok. 70 kB (315,7-243), naturalnym było podjęcie decyzji o opublikowaniu rękopisu w wyższej jakości, zatem przygotowanego w oparciu o profil UJ-Rękopis.

Cztery publikacje przedstawione w niniejszej prezentacji zajmują łącznie 0,22 GB (do ich zapisu i to z zapasem wystarczy wycofany już ze sprzedaży pendrive 256 MB). Gdy wielkość tą porówna się z objętością źródłowych plików w formacie Tiff, tj. 39.13 GB (do zapisu potrzebne jest pudełko 10 płyt DVD-R), można uznać za niemożliwe, by publikacje DjVu 178 razy mniejsze posiadały tak wysoką jakość a kolejne ich strony dostępne były dla czytelnika w czasie pobierania 1÷4 sekund. Ale taką właśnie jest technologia elektronicznych dokumentów DjVu.

 

Format plików

Codex cum glossa,  [kB]

Figliki  [kB]

Zwierzyniec  [kB]

Iskra  [kB]

Postać archiwalna

TIFF

34 078 789,3

1 487 812,1

5 024 843,6

441 751,9

Publikacja (skala 1:3)

jpeg

320 175,4

 

 

 

Publikacja pdf

pdf

945 022,9

41 445,8

137 825,2

12 445,8

DjVu Solo 3.1

 

 

4 270,2

 

 

Konwersje Professional i Enterprise

Profil Normal

DjVu

 

4 897,8

17 617,5

1 338,6

Profil Drawing

DjVu

159 952,9

4 884,6

17 555,0

1 334,6

Profil Manuscript

DjVu

159 154,4

5 033,7

17 885,7

1 334,5

Profil "UJ-Starodruk"

DjVu

 

5 906,7

20 035,0

1 643,5

Profil "UJ-Rękopis"

DjVu

206 781,2

 

 

 

Zmniejszenie rozmiaru publikacji w formacie DjVu względem plików TIFF o : 

99,4 %

99,6 %

99,6 %

99,6 %

Wytłuszczeniem zaznaczono wersję publikacji dostępnej w niniejszej prezentacji.

Kolorystyka, profile barwne.

Skanowanie najczęściej prowadzone jest do kolekcji plików w formacie Tiff. Realizowane jest za pomocą skanerów profesjonalnych, a zatem urządzeń o możliwościach zarówno pod względem sprzętowym jak i pod względem dołączonego oprogramowania całkowicie odmiennych od skanerów dostępnych w hipermarketach. Zeskanowane strony publikacji zapisywane są w plikach Tiff, w których obok zawartości zeskanowanej strony bardzo często umieszczane są informacje o wybranym profilu barwnym.

Edytory i przeglądarki plików graficznych powinny podczas wyświetlania lub edycji pliku uwzględnić nie tylko jego treść ale również i profil barwny (jeżeli jest dostępny w otwartym pliku). Z kolei oprogramowanie archiwizacyjne konwertuje z zasady finalne już postaci zredagowanych uprzednio plików. Zatem, w zależności od tego jak przygotowane zostaną pliki do konwersji, taki będzie jej efekt. Oprogramowanie typu Illustrator lub PhotoShop wyświetla zeskanowane pliki Tiff prawidłowo. Podobnie aplikacje Microsoft „Podgląd obrazów systemu Windowslub „MS Office Picture Manager”. Z kolei efekt działania kilku innych produktów informatycznych – a co ciekawe dołączanych właśnie do skanerów stolikowych - może budzić zdziwienie (kilka przykładów poniżej).

Oczywiście czytelnicy, którzy nigdy nie będą posiadać możliwości zapoznania się z oryginałem unikatowej publikacji, nie mogą podejrzewać o zaistniałej - a przedstawionej poniżej - rozbieżności. Zatem zwrócenie uwagi, by konwersji poddać pliki z odpowiednio dobranym profilem barwnym leży po stronie osoby przygotowującej publikację elektroniczną. Z naszych doświadczeń wynika także, że pliki z prawidłowo dobranym profilem barwnym podlegają bardziej precyzyjnej segmentacji zawartości stron podczas konwersji.

IrfanView

Brava! Reader

ArcSoft Photo Studio for Canon

HP Image Zone

MS Paint

Podgląd obrazów systemu Windows

MS Office Picture Manager

 

Zapraszamy do zapoznania się z publikacjami.



Wrzesień 2007

Grzegorz Bednarek
GB Soft, Zabrze
grzegorz@djvu.pl

http://www.djvu.com.pl