Dlouhodobé uchování digitálních dat – 2.

V první díle jsme se seznámili s tím, jakým způsobem lze řešit problém ukládání digitálních dat, jaké jsou základní rozdíly mezi jejich krátkodobým a dlouhodobým uchováním. Mnozí (nebo nemnozí?) zjistili, že vypálení na CD nebo DVD média není zdaleka tou nejjistější ani nejefektivnější metodou datové archivace. S ohledem na speciální určení velkokapacitních páskových pamětí, a tedy i jejich komplikované nasazení v muzejním prostředí, věnujeme dnešní i všechny příští díly vytvoření datového úložiště založeného na principu magnetického záznamu na pevný disk.

Než se pustíme do shánění financí a vyhledávání dodavatelů, musíme mít jasno co od datového úložiště očekáváme. Důležité je vědět zejména:

  1. Jak velký datový objem hodláme spravovat ?
  2. Bude datová kapacita konečná, nebo ji hodláme později navyšovat ?
  3. Máme v úmyslu spojit síly s jinou institucí v podobné situaci ?
  4. Chceme zároveň řešit otázku ukládání popisných metadat ?
  5. Kam až sahají naše odborné znalosti v této oblasti ?

1. Jak velký datový objem hodláme spravovat

Při kalkulaci datového objemu samozřejmě nestačí sečíst obsah složek „Dokumenty“ na všech spravovaných počítačích. Ne všechna data, která zde uživatelé mají, si skutečně zaslouží zachovat „na věky věkův“, naopak mnoho cenných dat bychom našli v jiném umístění. Je tedy nutné vycházet z informací popisujících jednotlivé podadresáře, porozhlédnout se i jinde po discích (co třeba C:\Demus ?). V úvahu musíme vzít i možný (a pravděpodobný) výskyt duplicit – tatáž data mohou mít na svých discích různí spolupracovníci, mnohdy v nekonzistentních verzích. Zrovna tak se ale vyskytují i data, která na žádném počítači nenajdeme. Jedná se o různé zálohy na CD/DVD-ROM, instalační média a podobně. U výměnných médií nezapomínejme na to, že uložená data nutně nemusejí zaplňovat jejich kapacitu beze zbytku. Sada deseti CD-ROM tedy nemusí nutně obsahovat 10 x 700 MB dat, ale často mnohem méně.

S postupem digitální dokumentace ve sbírkách i mimo ně budou stále přibývat další a další digitální data, která bude nezbytné ukládat. Zkušenost nás učí, že i v případě srovnatelného množství zpracovaných objektů v jednotlivých letech budeme pro jejich uložení potřebovat stále více a více místa. Jednak moderní digitalizační postupy obvykle produkují větší datové soubory než ty minulé (otázka kvality digitálních dat), ale také se do popředí pozornosti dostávají takové charakteristiky dokumentovaných objektů, které by byly v minulosti považovány za málo významné a pozoru nehodné (vliv většího množství metadat).

2. Bude datová kapacita konečná, nebo ji hodláme později navyšovat?

Množství spravovaných digitálních dat samozřejmě nikdy není konečné. Mění se (roste) a na to musí reagovat i kapacita datového úložiště. Každé technické zařízení – i to, které má být využito v projektu uchování dat v horizontu stovek let – postupně fyzicky i morálně zastarává a musí být nahrazeno novým, modernějším. Nemá smysl pořizovat si do kanceláře PC špičkových parametrů jen proto, aby dobře plnilo svůj účel ještě za patnáct let. Stejně tak je vhodnější i v případě datového úložiště rozvrhnout jeho funkčnost na rozumně zvolený časový úsek, v jehož průběhu se bude postupně modernizovat nákupem komponent (zejména disků) a na jehož konci se odepíše, vyřadí, rozebere, dá dětem na hraní apod.

Vezmeme-li v úvahu tempo vývoje soudobé výpočetní techniky, zjistíme, že i takto vysoce specializovaný datový server nemá valný smysl dimenzovat na delší funkční období nežli nějakých deset roků. Měli bychom tedy myslet na to, aby zařízení bylo po celou tuto dobu schopno fungovat a efektivními upgrady držet krok s technickým vývojem. Představu jednou provždy hotového datového úložiště (out-of-box) je tedy záhodno přinejmenším v podmínkách našich muzeí zavrhnout.

3. Máme v úmyslu spojit síly s jinou institucí v podobné situaci?

Pozice osamělého bojovníka je prakticky vždy méně výhodná. Nemáme možnost konzultovat své potřeby s partnerem řešícím obdobné problémy, inspirovat se odlišným názorem, společně řešit koncepční otázky. Významným argumentem pro spojení sil je i možnost vytvořit datové úložiště, které sestává ze dvou nebo více geograficky oddělených částí – tzv. distribuované úložiště. Protože bezpečnost takového řešení je výrazně vyšší, lze je doporučit ve všech případech, kde to alespoň trochu jde. Společný postup přináší rovněž možnost jednoduše nakoupit zcela totožný hardware i software v několika kusech u jednoho dodavatele, dosáhnout tak leckdy významné slevy a navíc se oprostit od problematického laborování s pěti různými ovladači na pěti odlišných počítačích. Montáží serverů a instalací softwaru tak může být pověřen jediný pracovník, který rychle získá rutinu a provede vše potřebné najednou.

Chceme-li využít výhod společného postupu, nezapomínejme i na rozdíly, které mohou vyvstat. Jiné nároky na datové úložiště bude mít velká galerie zřizovaná Ministerstvem kultury, jiné malé městské muzeum. Platí tedy ono známé „rovný rovného si hledá“.

4. Chceme zároveň řešit otázku ukládání popisných metadat?

Hned na úvod se sluší napsat, že ukládání metadat řešit musíme. Jistě nechceme, aby se za pár let stalo naše datové úložiště jen skladem líbivých obrázků bez jakéhokoli popisu. Tak jako je každý fyzický předmět v našich sbírkách vybaven evidenčním číslem a doprovodnou dokumentací, tak by měla být i naše dlouhodobě uchovávaná data opatřena příslušnými informacemi (metadaty) o tom co se v nich skrývá, kdo je jejich autorem, kdy a za jakých okolností vznikla a jak postupovat při jejich přehrání/zobrazení.

V situaci, kdy potřebujeme okamžitě přenést několik terabajtů dat ze stárnoucích CD-ROM do datového úložiště, nezbývá obvykle mnoho času, financí a sil na cokoli dalšího. Máme-li tu možnost, je vhodné zároveň s fyzickým uložením našich dat řešit i jejich dosud obvykle nedostatečné vybavení metadaty. Řada dostupných databázových systémů tuto práci při troše programátorské zručnosti zastane, můžeme se vrhnout i do komplexního řešení za podpory tzv. repozitářového software.

5. Kam až sahají naše odborné znalosti v této oblasti?

Tento aspekt úzce souvisí zejména s předchozími dvěma. Zcela pomineme situaci, kdy uživatel – potenciální správce datového úložiště sotva tuší že počítač má jakýsi disk a dá se připojit do internetu. I znalosti síťových správců se v různých institucích samozřejmě liší. Patříte-li do skupiny nejmenších městských a regionálních muzeí, pravděpodobně žádného správce sítě nemáte a jeho funkci lépe nebo hůře zastává osoba občas posílaná zřizovatelem, šikovný přítel slečny knihovnice nebo jiný externista. Umí dotyčný sestavit fungující počítač z jednotlivých komponent? Zvládne jej připojit do stávající počítačové sítě? Pracoval někdy v jiném operačním systému než Windows nebo MS-DOS? Odpoví-li třikrát ano, máte téměř vyhráno. Pokud jen dvakrát, pošlete jej na stáž. Jen jedna pozitivní odpověď? Vyměňte ho! (Žádná? Vyhlašte výběrové řízení na nového ředitele…)

Jak dopadlo podobné zamyšlení v případě Moravského zemského muzea v Brně ?

ad 1. (Jak velký datový objem hodláme spravovat ?)

Aktuální objem dat, která bude třeba uchovávat v režimu dlouhodobé archivace, byl odhadnut na přibližně 2 TB. Takový datový prostor zahrnuje i rezervu pro cca 5 roků provozu bez nutnosti upgradu diskového pole. Pro dosažení nezbytné úrovně bezpečnosti budou data interně zrcadlena na dvou sadách disků v konfiguraci RAID 0. Reálně je tedy třeba počítat s dvojnásobným množstvím disků.

ad 2. (Bude datová kapacita konečná, nebo ji hodláme později navyšovat ?)

Přestože v následujících pěti letech zřejmě nebude nutné kapacitu úložiště navyšovat, předpokládaná životnost celého zařízení bude jistě delší. S ohledem na cenu běžně dostupných komponent byla zvolena varianta umožňující doplnit do skříně serveru další disky a navýšit tak kapacitu úložiště až na technické maximum 16 TB. Datové úložiště tak může v optimálním případě plnit svoji funkci po celou dobu své morální i technické životnosti, a to pouze za cenu průběžného upgradu – doplňování datových disků.

ad 3. (Máme v úmyslu spojit síly s jinou institucí v podobné situaci ?)

Už od počátku plánování datového úložiště bylo zcela zřejmé, že se musí jednat o geograficky distribuované řešení, které jediné je schopno zajistit bezpečnost dat i v případě katastrof takového kalibru jako je požár serverovny, ba i celé muzejní budovy. Protože podobné problémy ve stejné době začali řešit i kolegové z Technického muzea v Brně, bylo rozhodnuto vsadit na tradičně dobré sousedské vztahy a postupovat společně. Geografická vzdálenost obou institucí je jen několik kilometrů, což zjednodušuje vzájemné kontakty, přípravu projektu, montáž a instalaci hardwaru. Samozřejmě se nejedná o zcela ideální případ, protože v případě katastrofy velkého rozsahu, která by postihla město Brno jako celek, by mohlo v krajním případě dojít ke zničení obou zrcadlených datových skladů.

ad 4.(Chceme zároveň řešit otázku ukládání popisných metadat ?)

I v takové instituci jako je Moravské zemské muzeum ještě mnoho pracovníků skutečný význam metadatové dokumentace plně nechápe. Vyžadovat v takové situaci zápis skutečně plnohodnotné sady metadatových deskriptorů by se rovnalo manažerské sebevraždě a vedlo by pouze k znechucení personálu a odmítnutí datového úložiště jako celku. Proto bylo rozhodnuto používat pro metadatový záznam pouze jednoduchou databázovou aplikaci umožňující zaznamenávat základní sadu metadat v rozsahu standardního Dublin Core.

ad 5. (Kam až sahají naše odborné znalosti v této oblasti ?)

Správa prostředků výpočetní techniky v Moravském zemském muzeu leží na bedrech jediného(!) technického správce o jehož schopnostech svědčí to, že samostatně zvládá údržbu mnoha desítek počítačů, instalaci softwaru, evidenci licencí, objednávky materiálu atd. Pomocníkem je mu student VUT Brno, který je v muzeu zaměstnán na částečný úvazek a stará se o funkci serverového softwaru běžícího na systému FreeBSD. Tito dva pracovníci jsou schopni společnými silami sestavit kompletní datový server a nainstalovat operační systém i obslužný software pro správnou funkci úložiště. Všechny práce budou probíhat v úzké součinnosti s pracovníky Technického muzea v Brně, kteří budou následně zajišťovat provoz obdobně konfigurovaného stroje ve své budově.

Známe zadání i rámcové řešení. Máme k dispozici potřebné specialisty, průběžně jsme zajistili i financování (vlastní zdroje + program ISO Ministerstva kultury ČR). V příštím díle se tedy můžeme vyzbrojit křížovým šroubovákem a směle pustit do práce!