open-source nástroje pro hromadnou digitalizaci

Obvyklou snahou při digitalizaci vázaných předloh (knih, katalogů, rukopisů) je automatizace nebo alespoň zjednodušení mnohokrát se opakujících operací při skenování jednotlivých listů, resp. dvoustran digitalizovaného materiálu. Bez knižního skeneru nezbývá než se smířit s nutností manuálního obracení listů a opakovaného adjustování předlohy na desku skeneru nebo pod objektiv snímací kamery. S čím se ale netřeba smiřovat je ruční zpracování (postprocessing) získaných digitálních snímků.
Daniel Stender ve svém blogu popisuje jeden z možných způsobů dalšího zpracování stránek digitalizovaných předloh. Úspěšně jsme jej vyzkoušeli a doporučujeme k následování! IT nadšence jistě neodradí primární zaměření na operační systémy *nixového typu ani skutečnost, že nejzdlouhavější částí celého postupu není samotná realizace dávkově prováděných úprav, ale spíše laborování s nastavením utilit convert (ImageMagick) a unpaper.

1. Vlastní skenování (lze často nahradit mnohem rychlejším snímáním digitálním fotoaparátem)
Předpokládejme, že obrázky ke zpracování jsou v  ~/Obrázky:

# vytvořit pracovní adresář + nastavit práva:
mkdir /tmp/pgm; chmod 777 /tmp/pgm
cd ~/Obrázky

2. Rozsekání dvoustran na jednotlivé strany a řádné očíslování výstupu. V případě jednostránkových vstupních scanů se tato operace vynechává!

unpaper --layout double --output-pages 2 %03d.pnm /tmp/pgm/singlepage%03d.pgm

3. Manuální náprava chyb (časté jsou např. ztráty obsahu u silně podexponovaných snímků)

4. Zvýšení kontrastu, doostření, konverze barev do odstínů šedé

cd /tmp/pgm
# připravit výstupní adresář + nastavit práva:
mkdir /tmp/out; chmod 777 /tmp/out
for i in *pgm; do convert $i -verbose -equalize -sharpen 2 -contrast-stretch 2%x25% -trim -colorspace Gray -depth 8 /tmp/out/${i%pgm}pgm; done

5. Odfiltrování tiskových kazů a artefaktů vzniklých při skenování (černé, šedivé a bílé plochy, nečistoty)

#--overwrite je zde kvůli možnosti opakovaného spouštění při ladění parametrů
cd /tmp/out
unpaper -ms 10,10 --overwrite --noisefilter-intensity 10 singlepage%03d.pgm /tmp/out/%03d.pbm

6. Konverze do formátu TIFF, multipage-TIFF a následné sestavení PDF

for i in *pbm; do convert $i -verbose ${i%pbm}tif; done
tiffcp *tif vsechno.tif
tiff2pdf -o kniha.pdf vsechno.tif

cp kniha.pdf ~/Obrázky

Výsledkem je kompletní grafický PDF dokument, který obvykle stačí pro většinu použití. Doplnění textové vrstvy pořízené na základě výstupu z OCR není o mnoho složitější – viz odkazovaný blogpost Daniela Stendera.