Archivio Internet

Article

June 28, 2022

Internet Archive (inglese: Internet Archive) è una biblioteca digitale senza scopo di lucro fondata nel 1996 dal fondatore di Alexa Brewster Carley negli Stati Uniti che fornisce servizi di lettura di file multimediali su Internet. Ha sede a San Francisco, in California. La missione del distretto di Richmond è "accesso universale a tutte le conoscenze" (inglese: accesso universale a tutte le conoscenze). L'"archivio" fornisce materiali digitali come siti Web, pagine Web, materiali grafici, musica, video, audio, software, immagini dinamiche e milioni di libri, che vengono archiviati in modo permanente e ottenuti copie gratuite. A partire da ottobre 2012, le sue riserve di informazioni hanno raggiunto 10 PB (ovvero 10.240 TB). Inoltre, l'archivio è anche uno dei fautori dell'apertura e della liberalizzazione della rete.

Sorgente dati

I dati dell'archivio vengono raccolti automaticamente dal proprio web crawler e l'archivio dell'archivio del sito Web "Website Time Machine" ha eseguito la scansione di oltre 150 miliardi di pagine Web.

Situazione di finanziamento

Il budget annuale è di circa 10 milioni di dollari USA e la fonte è il suo servizio di web crawler, le partnership, le sponsorizzazioni e la Kali Austin Foundation. Ci sono solo dozzine di dipendenti nel quartier generale, la maggior parte dei dipendenti lavora nel centro di scansione dei libri e c'è anche un data center a Redwood City.

Banca dati

Il database degli archivi è membro dell'International Internet Reservation Association ed è stato selezionato come biblioteca ufficiale designata dallo Stato della California nel 2007. I dati raccolti dagli archivi sono vari. All'inizio del 2015, Internet Archive aveva raccolto un totale di 2.400 giochi MS-DOS.

Storia

Nel 1996, Brewster Kahle ha fondato la redditizia Alexa Internet contemporaneamente a Internet Archive; nell'ottobre dello stesso anno, ha iniziato a raccogliere e archiviare dati. Tuttavia, questi dati erano inaccessibili fino allo sviluppo della "Macchina del tempo" nel 2001. Alla fine del 1999, l'ambito della raccolta è stato ampliato. Nell'agosto 2012, è stato annunciato che BitTorrent sarebbe stato aggiunto alle sue esistenti opzioni di download di file da 1,3 milioni. Poiché è coordinato attraverso due data center di archivio, questo diventa il modo più veloce per scaricare i dati dall'archivio. Il 6 novembre 2013, è scoppiato un incendio presso la sede degli Archivi nel distretto di Richmond, danneggiando molte attrezzature e alcuni appartamenti vicini, con perdite stimate che raggiungono i 600.000 dollari USA.

Archivio web

Macchina del tempo

La macchina del tempo del sito web è uno dei servizi più importanti di Internet Archive e prende il nome da una vignetta americana chiamata The Rocky and Bullwinkle Show. La macchina del tempo consente alle persone di cercare e accedere agli archivi delle proprie pagine web. In alcuni paesi e regioni, l'uso del termine macchina del tempo è diventato molto comune e "macchina del tempo" e "archivi Internet" hanno persino iniziato a essere usati come sinonimi.

Archive-It

Archive-it è uno strumento per aiutare le organizzazioni e gli individui a creare archivi. Una volta che l'URL del sito Web di destinazione è stato inserito e salvato e il sito Web consente l'accesso al robots.txt utilizzato da Internet Archive, la pagina Web diventerà parte della macchina del tempo. A marzo 2014 (2014-03), Archive-it ha più di 275 organizzazioni in 46 stati e 16 altri paesi come suoi partner e ha un archivio online di oltre 7,4 miliardi di pagine web.

Bibliografia da collezione

L'Internet Archive ha raccolto libri digitalizzati da tutto il mondo e collezioni speciali delle principali biblioteche e istituzioni del patrimonio culturale. Internet Archive gestisce 33 centri di scansione di libri in 5 paesi e le sue attività sono supportate finanziariamente da biblioteche e fondazioni. A luglio 2013 (2013-07), gli archivi avevano raccolto 4,4 milioni di libri, con oltre 15 milioni di download al mese. A partire dal novembre 2008 (2008-11), gli archivi hanno un totale di 1 milione di testi online con una dimensione totale di 0,5 PB, che coprono immagini fotografiche originali, immagini ritagliate e distorte, file PDF e dati OCR originali.

Numero di testi in ogni lingua

Numero di testi in ogni epoca

Dati immagine

Oltre al contenuto di cui sopra, Internet Archive raccoglie anche un gran numero di media digitali, tutti conformi al dominio pubblico statunitense o all'accordo di licenza CC. Questi file multimediali sono organizzati in raccolte in base ai tipi di media (immagini in movimento, audio, testo, ecc.) e sono suddivisi in sotto raccolte secondo vari standard. Ad esempio, i materiali pertinenti forniti dal Metropolitan Museum of Art saranno classificati in un sottoinsieme e il numero di materiali pertinenti in questa collezione attualmente supera i 140.000. Ogni raccolta principale contiene una sottocollezione "community" (precedentemente denominata "open source") per l'archiviazione dei contributi pubblici.

Raccolta audio

File audio�