Archivio Internet

Article

August 11, 2022

Internet Archive (o IA) è un'organizzazione no-profit dedicata all'archiviazione del Web che funge anche da biblioteca digitale. Questi archivi elettronici sono costituiti da istantanee (copie di pagine prese in momenti diversi) di pagine web, software, filmati, libri e registrazioni audio. Per garantire la stabilità e la sicurezza dei dati archiviati, presso la Bibliotheca Alexandrina in Egitto viene mantenuto un sito mirror funzionante. AI mette le sue collezioni a disposizione gratuita di ricercatori, storici e accademici. Situata nel distretto di Richmond, a sud del Presidio di San Francisco, è membro dell'American Library Association ed è ufficialmente riconosciuta come biblioteca dallo Stato della California. Il web crawler utilizzato da IA ​​è Heritrix, software gratuito. Il software gratuito per la scansione dei libri è Scribe.

Storia

Internet Archive è stato fondato nel 1996 da Brewster Kahle. Per i loro obiettivi - la conservazione della conoscenza umana e l'accessibilità delle collezioni a tutti - i fondatori di IA paragonano questo progetto a quello più antico della Biblioteca di Alessandria.

Servizi di archiviazione Internet

Macchina del ritorno

La Wayback Machine è la parte istantanea del Web sviluppata da Internet Archive. Wayback Machine è stato creato da Brewster Kahle per archiviare e indicizzare qualsiasi cosa sul web. La Wayback Machine viene aggiornata dai contenuti di Alexa. Questo servizio permette agli utenti di vedere le versioni archiviate delle pagine web nel tempo: è l'“indice tridimensionale”. Le istantanee sono disponibili da sei a dodici mesi dopo l'acquisizione. La frequenza delle istantanee varia, non tutti gli aggiornamenti del sito Web vengono registrati e possono essere osservati intervalli di diverse settimane. Nel 2006, la Wayback Machine conteneva quasi due petabyte di dati. Il volume cresce a un ritmo di 20 terabyte al mese, un aumento di due terzi rispetto ai dodici terabyte al mese che era il tasso di crescita del 2003. Tale crescita è superiore alla quantità di testo contenuta nelle più importanti biblioteche del world.world, inclusa la Library of Congress. Nel 2009, la Wayback Machine conteneva quasi tre petabyte di dati e il suo aumento è stato di 100 terabyte al mese. I dati sono archiviati in sistemi prodotti da Capricorne Technologies, rack Petabox. Il nome "Wayback Machine" si riferisce agli episodi di The Rocky and Bullwinkle Show, dove Mr. Peabody, un cane professore e il suo assistente Sherman (un animale domestico umano), usano una macchina del tempo chiamata "WABAC Machine" per descrivere famosi eventi storici. Nel 2015, la Russia avrebbe erroneamente bloccato l'intero sito di Wayback Machine.

Archive-It

Gli utenti che desiderano archiviare i propri dati in modo permanente e immediato possono utilizzare il servizio Archive-It di IA per un abbonamento. I dati raccolti vengono periodicamente indicizzati dalla Wayback Machine. A dicembre 2007, questo servizio aveva creato più di 230 milioni di URL per 466 collezioni pubbliche, comprese agenzie governative, università e istituzioni culturali. Esempio di organizzazioni o istituzioni che partecipano ad Archive-It: Organizzazione della letteratura elettronica, gli Archivi di Stato della Carolina del Nord, la Commissione per la Biblioteca e gli Archivi di Stato del Texas, Università di Stanford, la Biblioteca nazionale australiana, il Gruppo Biblioteche di Ricerca.

Collezioni

Oltre agli archivi web, i servizi di Internet Archive mantengono raccolte significative di media digitali che sono sia