Archiviazione web

Article

August 15, 2022

L'archiviazione web si riferisce alla raccolta e all'archiviazione permanente di pubblicazioni online con lo scopo di offrire al pubblico e alla scienza uno sguardo al passato in futuro. Il risultato del processo è un archivio web. La più grande struttura internazionale per l'archiviazione web è l'Internet Archive di San Francisco (USA), che si considera l'archivio dell'intero World Wide Web. Gli archivi di stato e le biblioteche di molti paesi si stanno impegnando per proteggere i record di rete nella loro area. Dal 1987, le leggi tedesche sugli archivi hanno definito l'archiviazione dei documenti digitali come un compito obbligatorio degli archivi di stato, ma l'attuazione di questo mandato è solo all'inizio. Nel 2006 è stata approvata la DNBG (Legge sulla Biblioteca nazionale tedesca), che estende il mandato della Biblioteca nazionale tedesca all'archiviazione dei siti web. Anche gli stati federali stanno pianificando di modificare le loro leggi sul deposito legale in questo senso, o hanno già implementato il cambiamento.

Destinazioni di archiviazione

L'obiettivo dell'archiviazione web è mappare sistematicamente una sezione definita delle presenze web disponibili su Internet. A tal fine, è necessario chiarire preventivamente una politica generale di raccolta, una procedura di selezione e la frequenza di archiviazione. Un sito web archiviato con tutte le funzioni multimediali (codice HTML, fogli di stile, JavaScript, immagini e video) dovrebbe essere preservato a lungo termine. I metadati come provenienza, ora di acquisizione, tipo MIME e ambito dei dati vengono utilizzati per la successiva descrizione, utilizzo e conservazione. I metadati garantiscono l'autenticità e l'integrità del materiale dell'archivio digitale. Dopo il subentro, devono essere prese precauzioni tecniche e legali per garantire la costante accessibilità del pubblico e per prevenire successive modifiche al materiale archivistico.

Terminologia

Risorsa originale Una fonte originale che è attualmente o dovrebbe essere disponibile su Internet e per la quale è richiesto l'accesso a uno stato precedente. ricordo Un ricordo di una fonte originale è una risorsa che incapsula lo stato originale di una fonte in un momento definito. TimeGate Un TimeGate è una risorsa che, in base a una data e un'ora, trova il ricordo che meglio corrisponde a questo limite di tempo. Mappa del tempo Una TimeMap è una risorsa che produce un elenco di tutti i ricordi che sono stati creati per la fonte originale.

Processo di selezione

non specifico In questo processo di selezione, un intero dominio viene gradualmente scritto in un archivio. A causa della grande richiesta di memoria, la procedura funziona solo per domini più piccoli (netarkivet.dk). lista da cui scegliere Un elenco di istituzioni sarà determinato in anticipo. La stabilità degli URL associati alle istituzioni deve essere verificata regolarmente. Utilizzo delle statistiche di accesso In futuro è ipotizzabile una raccolta “intelligente” che, in base ai conteggi degli accessi, archivi quelle parti del web (o una selezione) che hanno tassi di accesso particolarmente elevati.

Metodi di trasferimento

Raccolta a distanza

Il metodo di archiviazione più comune consiste nell'utilizzare un web crawler. Un web crawler recupera il contenuto di un sito web come un utente umano e scrive i risultati in un oggetto archivio. Più precisamente, si tratta di una ricerca ricorsiva di siti web in base ai link presenti in essi, a partire da una determinata area di partenza, che può essere sia un sito web che un elenco di siti web da cercare. A causa di limitazioni quantitative, ad esempio a causa della durata o dello spazio di archiviazione, sono possibili varie restrizioni (condizioni di terminazione) per quanto riguarda la profondità, il dominio e i tipi di file da archiviare. Nel caso di progetti più grandi, la valutazione dei siti web per il ranking URL è particolarmente importante