Metodika zápisu, validace a zálohování dat

Z WikiCITeM

Kapitola z příručky Digitální dokumentace objektů kulturní, historické a vědecké hodnoty

Všechny datové sklady musejí být adekvátním způsobem chráněny před zneužitím nebo znehodnocením (smazáním, přepsáním) uložených dat. Z tohoto důvodu je vhodné stanovit a dodržovat soubor standardizovaných postupů pro dosažení (QA) a kontrolu kvality (QC) uchovávaných digitálních dat.

V praxi je vhodné rozlišovat následující fáze životního cyklu dat:

Rozpracované soubory - dosud neupravené či nepropojené, většinou na pevném disku, o zálohování (obvykle na jiný počítač v síti nebo na CD) se stará ten, kdo data vytváří a upravuje.

Pracovní datové sklady - pro odbornou práci se sbírkami, prezentaci apod., obvykle na pevných discích. Pravidelné zálohování by mělo být zajištěno na úrovni operačního systému, správy sítě, správy serveru.

Archivní datové sklady - dlouhodobé uložení ve dvou kopiích (základní záloha a bezpečnostní duplikát), obvykle na CD, DVD, nebo jiných velkokapacitních mediích. Pravidelná kontrola čitelnosti a obnova podle plánu, zodpovídá správce sbírkového fondu nebo pověřený správce dokumentace.

Bezpečnostní zajištění práce s daty

Minimální požadavky

  • datové sklady nepřístupné vně lokální sítě (LAN) instituce
  • stanovení závazných organizačních pravidel pro přístup k datovým skladům
  • rozložení pravomoci k provedení nejkritičtějších operací s daty (likvidace datových skladů, mazání a přepsání souborů v dlouhodobých datových skladech) mezi více spolupracujících osob

Optimální charakteristika

Pravidla pro pojmenování datových souborů

V rámci každého z datových skladů musí být zajištěna jedinečnost pojmenování datových souborů tak, aby se vyloučila možnost záměny dat v různém formátu či stavu zpracování. Naopak totožná data v různých datových skladech musejí nést stejné souborové názvy.

Minimální požadavky

  • evidenční kód objektu (např. inventární číslo) jako prefix
  • identifikace časového období pořízení snímku, není-li obsažena v doprovodných metadatech
  • standardní přípona datového formátu oddělená tečkou
  • případné další informace, uložené v prefixu, musejí být od evidenčního kódu odděleny podtržítkem (_)

Optimální charakteristika

  • prefix ve formátu: <kód podsbírky>_<evidenční kód objektu>_<identifikátor snímku> (záznamy jevů a událostí lze považovat za doprovodnou dokumentaci k určité "podsbírce" podle terminologie CES)
  • u obrazových dat identifikátor snímku může naznačovat zda jde o celek, detail, avers, revers apod.
  • identifikace časového období pořízení digitální dokumentace
  • v případě odchylek od obvyklého formátu nesmí chybět odpovídající dokumentace (minimálně jako komentovaný textový záznam v nejvyšším adresáři datového skladu)

Validace uložených dat

Zajišťuje správnost obsahu i formy datových skladů a zabraňuje postupné ztrátě jejich informační hodnoty.

Minimální požadavky

  • pravidelná kontrola čitelnosti souborů
  • periodická namátková kontrola obsahu binárních souborů a jejich souvztažnosti s textovým záznamem v databázi
  • cyklická obnova úložných médií v dostatečném odstupu před skončením jejich fyzické životnosti

Optimální charakteristika

  • automatizovaná průběžná kontrola čitelnosti souborů a testování kontrolních součtů
  • postupná systematická kontrola obsahu binárních souborů a jejich souvztažnosti s textovým záznamem v databázi
  • personální oddělení zápisu dat od jejich kontroly

Pořizování záloh

Minimální požadavky

  • pravidelná tvorba záloh v souladu s interní směrnicí pracoviště
  • není přípustné kódování dat za použití hesla (password, passphrase)
  • záloha musí být vybavena kontrolním kódem (CRC, MD5, popř. jiný) umožňujícím ověření její validity bez porovnání s originálními daty (splněno např. i při kompresi do ZIP)

Optimální charakteristika

  • automatizace tvorby záloh (např. skriptem na úrovni operačního systému)
  • rozdílové zálohování jednou denně (v případě změn v zálohovaných datech)
  • kompletní zálohování nejméně jednou ročně