Uložení a archivace digitálních dat

Z WikiCITeM

Na textu se pracuje, nehotová místa jsou značena hvězdičkami ***.
Uvítám jakékoliv komentáře, opravy a zpřesnění textu.

Jan Hubička, Muzeum fotografie Šechtl a Voseček

Sedmá kapitola z Digitalizace historických fotografických materiálů. Další kapitoly jsou:

  1. Volba hardware k digitalizaci
  2. V jaké kvalitě digitalizovat
  3. Základní postup digitalizace
  4. Tisk fotografií z digitálních předloh
  5. Databáze pro správu fotografií
  6. Zpřístupnění archívu
  7. Uložení a archivace digitálních dat

Problémy spojené z dlouhodobou archivací digitálních dat jsou velmi často diskutovaným problémem. Praxe ukazuje, že většina digitálních dat pořízená před 20ti lety je dnes nepoužitelná. K tomu přispívá několik faktorů:

  • Nízká životnost digitálních médií
    Životnost dnes běžně používáných CD a DVD se pohybuje řádově v jednotkách až desítkách let podle kvality média a jeho uložení.
  • Nízká morální životnost médií
    Data uložená před 20ti lety na 8mi bitovém počítači na kazetu Emgeton jsou dnes jen těžko použitelná prostě proto, že zařízení potřebné pro jejich přečtení se již dlouho nepoužívá.
  • Nízká morální životnost digitálních formátů
    Softwarové vybavení počítačů se stále vyvíjí rychlým tempem. Formáty digitálních dat stále vznikají a nahrazují staré. Data uložená před 20ti lety tedy mají velkou šanci být ve formátu, jehož přečtení a převedení do formátu dnes používaného je velmi náročné.

Z těchto problémů lze snadno vyvodit, že archivace digitálních dat je předem prohranou záležitostí a nemá smysl se o ni vůbec pokoušet. Tento závěr je jen zčásti pravdivý. Nelze sice předpokládat, že za 100 let budou data dnes uložená na CD, DVD či disky čitelná a použitelná, ale hlavní výhodou digitálních dat je možnost bezztrátové duplikace. Lze je tedy opakovaně přenášet na nová média, do nových formátů a uchovávat ve větším počtu kopií.

Podle Moorova zákona klesnou nároky na uložení konstantního množství digitálních dat přibližně na polovinu každý rok. Zatímco tedy archivace analogových materiálů (skleněných negativů a filmů) se stává rok od roku náročnější a jejich životnost nelze prodlužovat donekonečna, digitální data bude vždy možné kopírovat, a pokud nenastane konec digitální doby, budou se nároky na kopírování do budoucna snižovat. Pravidelné kopírování dat řeší problémy s nízkou životností medií.

Morální životnost digitálních formátů

Při volbě digitálních formátů je dobré držet se zásady používat pouze formáty, které nejsou závislé na jednom výrobci. Formáty dobře dokumentované, široce používané a nezatížené patenty (otevřené formáty) mají větší šanci přežít. Navíc je vhodné používat pouze formáty, které lze snadno převést na jiný formát. Běžné formáty na uložení obrázků (TIFF, JPEG apod.) jsou z tohoto pohledu velmi vhodné, protože jsou již mezi námi několik let a navíc existují tisíce nástrojů pro práci s nimi.

Z formátů dnes běžných pro práci s obrázky lze doporučit formát TIFF, který umožňuje uložení 16ti bitových dat bez ztráty kvality. Navíc umožňuje uložení množství metadat o technických detailech pořízení fotografie. Často je doporučováno pro archivaci nepoužívat možnosti komprese formátu TIFF. Kompresi JPEG opravdu nelze doporučit: je omezena na 8 bitů na kanál a svou kvalitou je dnes již překonaná. Komprese LZW a ZIP jsou však bezztrátové a přiliš škodlivé nejsou: není problém data převést do nekomprimovaných, identických jako před kompresí.

Běžné grafické formáty ale mají nevýhodu, že ztrácejí informaci o použitém digitalizačním zařízení: při převodu zdigitalizovaných dat do běžného digitálního obrazu se provádějí úpravy, které vedou ke ztrátě informace. Z tohoto důvodu byly vyvinuty různé formáty RAW, které umožňují provést převod do pixelového formátu podle potřeby. Tyto formáty sice odstraňují problém se ztrátou informace, ale jsou typickým příkladem formátu, který bude brzy v budoucnu překonán a stane se zastaralým.

Program VueScan nabízí zajímavé řešení: ukládání RAW dat přímo do souborů TIF (v programu označených jako RAW TIF). Tyto soubory lze snadno zpracovávat buď VueScanem, nebo běžnými programy pro práci s obrázky. Toto je možné u skenerů, které, na rozdíl od dnes běžných digitálních fotoaparátů, snímají kompletní barevnou informaci v každém pixelu. Převod do obrázku je tedy mnohem přímočařejší než v případě digitálního fotoaparátu.

Další zajímavou alternativou je formát DNG, který je snahou firmy Adobe řešit problém s explozí nejrůznějších RAW formátů. Tento formát umožňuje uložení RAW dat ve formě nezávislé na digitálním fotoaparátu, a program VueScan obsahuje také možnost exportu do formátu DNG z mnoha běžných skenerů. Tento formát je však stále poměrně mladý a jen budoucnost ukáže, do jaké míry budou data uložená v DNG čitelná. Rozhodně je však vhodnější alternativou než klasické RAW formáty.

JPEG2000

JPEG2000 patří k nejmodernějším formátům pro práci s digitálními fotografiemi. Jedná se o dobře zdokumentovaný mezinárodní standard. Umožňuje jak bezeztrátovou kompresi podobnou formátu TIFF (zde ale dosahuje přibližně o třetinu až polovinu lepšího kompresního poměru), tak ztrátovou kompresi pomocí waveletů.

JPEG2000 byl také navržen pro práci s daty ve velkém rozlišení. Je organizován tak, že získání souboru v menším rozlišení potřebuje jen počátek souboru. Je tedy rychlejší při práci v nízkém rozlišení než běžné TIFF soubory, které potřebují čas pro úplné načtení celého souboru. JPEG2000 je také odolnější vůči chybám - pokud je poškozen, zůstane alespoň obraz v nižší kvalitě.

Ztrátová komprese JPEG2000 dosahuje výborných kompresních poměrů s velmi malým množstvím artefaktů. Jedná se hlavně o ztrátu digitálního šumu při větší kompresi zrna fotografie. Ani tak ale nelze použití ztrátové komprese příliš doporučit: je zjevné, že vývoj v této oblasti se příliš neustálil a v budoucnosti bude nutné převést data do nového formátu. Pokud i ten bude ztrátový, dojde k dvojité ztrátě kvality. Navíc není úplně jasné, jak detailní analýzy získaných dat budou v budoucnu zajímavé a jestli ztráta šumu a zrna není podstatná. V našem projektu ale používáme ztrátovou kompresi JPEG2000 k uložení všech dalších souborů (např. fotografií upravených pro tisk apod.) vyjma primárních skenů.


Na začátek seriálu