Metodika zápisu, validace a zálohování dat
Z WikiCITeM
Kapitola z příručky Digitální dokumentace objektů kulturní, historické a vědecké hodnoty
Všechny datové sklady musejí být adekvátním způsobem chráněny před zneužitím nebo znehodnocením (smazáním, přepsáním) uložených dat. Z tohoto důvodu je vhodné stanovit a dodržovat soubor standardizovaných postupů pro dosažení (QA) a kontrolu kvality (QC) uchovávaných digitálních dat.
V praxi je vhodné rozlišovat následující fáze životního cyklu dat:
Rozpracované soubory - dosud neupravené či nepropojené, většinou na pevném disku, o zálohování (obvykle na jiný počítač v síti nebo na CD) se stará ten, kdo data vytváří a upravuje.
Pracovní datové sklady - pro odbornou práci se sbírkami, prezentaci apod., obvykle na pevných discích. Pravidelné zálohování by mělo být zajištěno na úrovni operačního systému, správy sítě, správy serveru.
Archivní datové sklady - dlouhodobé uložení ve dvou kopiích (základní záloha a bezpečnostní duplikát), obvykle na CD, DVD, nebo jiných velkokapacitních mediích. Pravidelná kontrola čitelnosti a obnova podle plánu, zodpovídá správce sbírkového fondu nebo pověřený správce dokumentace.
Obsah
Bezpečnostní zajištění práce s daty
Minimální požadavky
- datové sklady nepřístupné vně lokální sítě (LAN) instituce
- stanovení závazných organizačních pravidel pro přístup k datovým skladům
- rozložení pravomoci k provedení nejkritičtějších operací s daty (likvidace datových skladů, mazání a přepsání souborů v dlouhodobých datových skladech) mezi více spolupracujících osob
Optimální charakteristika
- datové sklady nepřístupné mimo pracoviště digitalizace a zpracování dat
- certifikovaný přístup do datového skladu s logováním provedených změn
- personální oddělení editační a kontrolní činnosti
- implementace normalizovaných bezpečnostních standardů - např. systému POSIX (http://csrc.nist.gov/publications/nistpubs/800-7/node18.html, 2008/07/10 nedostupný, náhrada: http://en.wikipedia.org/wiki/Posix, http://standards.ieee.org/regauth/posix/)
Pravidla pro pojmenování datových souborů
V rámci každého z datových skladů musí být zajištěna jedinečnost pojmenování datových souborů tak, aby se vyloučila možnost záměny dat v různém formátu či stavu zpracování. Naopak totožná data v různých datových skladech musejí nést stejné souborové názvy.
Minimální požadavky
- evidenční kód objektu (např. inventární číslo) jako prefix
- identifikace časového období pořízení snímku, není-li obsažena v doprovodných metadatech
- standardní přípona datového formátu oddělená tečkou
- případné další informace, uložené v prefixu, musejí být od evidenčního kódu odděleny podtržítkem (_)
Optimální charakteristika
- prefix ve formátu: <kód podsbírky>_<evidenční kód objektu>_<identifikátor snímku> (záznamy jevů a událostí lze považovat za doprovodnou dokumentaci k určité "podsbírce" podle terminologie CES)
- u obrazových dat identifikátor snímku může naznačovat zda jde o celek, detail, avers, revers apod.
- identifikace časového období pořízení digitální dokumentace
- v případě odchylek od obvyklého formátu nesmí chybět odpovídající dokumentace (minimálně jako komentovaný textový záznam v nejvyšším adresáři datového skladu)
Validace uložených dat
Zajišťuje správnost obsahu i formy datových skladů a zabraňuje postupné ztrátě jejich informační hodnoty.
Minimální požadavky
- pravidelná kontrola čitelnosti souborů
- periodická namátková kontrola obsahu binárních souborů a jejich souvztažnosti s textovým záznamem v databázi
- cyklická obnova úložných médií v dostatečném odstupu před skončením jejich fyzické životnosti
Optimální charakteristika
- automatizovaná průběžná kontrola čitelnosti souborů a testování kontrolních součtů
- postupná systematická kontrola obsahu binárních souborů a jejich souvztažnosti s textovým záznamem v databázi
- personální oddělení zápisu dat od jejich kontroly
Pořizování záloh
Minimální požadavky
- pravidelná tvorba záloh v souladu s interní směrnicí pracoviště
- není přípustné kódování dat za použití hesla (password, passphrase)
- záloha musí být vybavena kontrolním kódem (CRC, MD5, popř. jiný) umožňujícím ověření její validity bez porovnání s originálními daty (splněno např. i při kompresi do ZIP)
Optimální charakteristika
- automatizace tvorby záloh (např. skriptem na úrovni operačního systému)
- rozdílové zálohování jednou denně (v případě změn v zálohovaných datech)
- kompletní zálohování nejméně jednou ročně