Macchina del ritorno

Article

August 10, 2022

La Wayback Machine è un archivio digitale del World Wide Web. È stata fondata da Internet Archive, una biblioteca senza scopo di lucro con sede a San Francisco, in California. Creato nel 1996 e lanciato al pubblico nel 2001, consente all'utente di tornare "indietro nel tempo" e vedere come apparivano i siti web in passato. I suoi fondatori, Brewster Kahle e Bruce Gilliat, hanno sviluppato la Wayback Machine per fornire "accesso universale a tutta la conoscenza" preservando le copie archiviate delle pagine web defunte. Dalla sua creazione nel 1996, sono state aggiunte all'archivio oltre 613 miliardi di pagine. Il servizio ha anche suscitato polemiche sul fatto che la creazione di pagine archiviate senza il permesso del proprietario costituisca violazione del copyright in determinate giurisdizioni.

Storia

La Wayback Machine ha iniziato ad archiviare le pagine Web memorizzate nella cache il 12 maggio 1996, con l'obiettivo di rendere pubblico il servizio cinque anni dopo. I fondatori di Internet Archive Brewster Kahle e Bruce Gilliat hanno lanciato la Wayback Machine a San Francisco, in California, nell'ottobre 2001, principalmente per affrontare il problema della scomparsa del contenuto del sito Web ogni volta che viene modificato o quando un sito Web viene chiuso. Il servizio consente agli utenti di visualizzare le versioni archiviate delle pagine Web nel tempo, che l'archivio chiama "indice tridimensionale". Kahle e Gilliat hanno creato la macchina sperando di archiviare l'intera Internet e fornire "l'accesso universale a tutta la conoscenza". Il nome "Wayback Machine" è un riferimento a un dispositivo immaginario per viaggiare nel tempo e tradurre, la "Wayback Machine", utilizzata dai personaggi Mister Peabody e Sherman nel cartone animato Le avventure di Rocky e Bullwinkle and Friends. In uno dei segmenti del cartone animato, "Peabody's Improbable History", i personaggi hanno usato la macchina per assistere, partecipare e spesso alterare eventi famosi della storia. Dal 1996 al 2001, le informazioni sono state conservate su nastro digitale, con Kahle che occasionalmente permetteva a ricercatori e scienziati di attingere al database "goffo". Quando l'archivio ha raggiunto il suo quinto anniversario nel 2001, è stato svelato e aperto al pubblico in una cerimonia all'Università della California, a Berkeley. Al momento del lancio di Wayback Machine, conteneva già oltre 10 miliardi di pagine archiviate. I dati sono archiviati nell'ampio cluster di nodi Linux di Internet Archive. Rivisita e archivia occasionalmente nuove versioni di siti Web (vedere i dettagli tecnici di seguito). I siti possono anche essere acquisiti manualmente inserendo l'URL di un sito Web nella casella di ricerca, a condizione che il sito Web consenta a Wayback Machine di "scansionarlo" e salvare i dati. Il 30 ottobre 2020, Wayback Machine ha iniziato a verificare i contenuti.

Dettagli tecnici

Il software è stato sviluppato per "scansionare" il Web e scaricare tutte le informazioni e i file di dati pubblicamente accessibili sulle pagine Web, la gerarchia di Gopher, il sistema di bacheca Netnews (Usenet) e il software scaricabile. Le informazioni raccolte da questi "crawler" non includono tutte le informazioni disponibili su Internet, poiché gran parte dei dati è limitata dall'editore o archiviata in database non accessibili. Per superare le incongruenze nei siti Web parzialmente memorizzati nella cache, Archive-It.org è stato sviluppato nel 2005 da Internet Archive come mezzo per consentire alle istituzioni e ai creatori di contenuti di raccogliere e preservare volontariamente raccolte di contenuti digitali e creare archivi digitali. fonti, alcune importate da terzi ed altre generate internamente dall'Archivio. Ad esempio, le scansioni sono fornite dalla Sloan Foundation e Alexa, le scansioni eseguite da IA ​​per conto di NARA e Internet Memory Foundation, mirror di Common Crawl. I "Worldwide Web Crawls" sono in corso dal 2010 e catturano il Web globale. La frequenza delle acquisizioni di istantanee varia a seconda del sito web. I siti web nei "Worldwide Web Crawls" sono inclusi in un "elenco di scansione", con il sito archiviato una volta per scansione. Il completamento di una scansione può richiedere mesi o addirittura anni, a seconda delle dimensioni. Ad esempio, "Wide Crawl Number 13" è iniziato il 9 gennaio,