Macchina del ritorno
Article
August 10, 2022

La Wayback Machine è un archivio digitale del World Wide Web. È stata fondata da Internet Archive, una biblioteca senza scopo di lucro con sede a San Francisco, in California. Creato nel 1996 e lanciato al pubblico nel 2001, consente all'utente di tornare "indietro nel tempo" e vedere come apparivano i siti web in passato. I suoi fondatori, Brewster Kahle e Bruce Gilliat, hanno sviluppato la Wayback Machine per fornire "accesso universale a tutta la conoscenza" preservando le copie archiviate delle pagine web defunte. Dalla sua creazione nel 1996, sono state aggiunte all'archivio oltre 613 miliardi di pagine. Il servizio ha anche suscitato polemiche sul fatto che la creazione di pagine archiviate senza il permesso del proprietario costituisca violazione del copyright in determinate giurisdizioni.
Storia
La Wayback Machine ha iniziato ad archiviare le pagine Web memorizzate nella cache il 12 maggio 1996, con l'obiettivo di rendere pubblico il servizio cinque anni dopo. I fondatori di Internet Archive Brewster Kahle e Bruce Gilliat hanno lanciato la Wayback Machine a San Francisco, in California, nell'ottobre 2001, principalmente per affrontare il problema della scomparsa del contenuto del sito Web ogni volta che viene modificato o quando un sito Web viene chiuso. Il servizio consente agli utenti di visualizzare le versioni archiviate delle pagine Web nel tempo, che l'archivio chiama "indice tridimensionale". Kahle e Gilliat hanno creato la macchina sperando di archiviare l'intera Internet e fornire "l'accesso universale a tutta la conoscenza". Il nome "Wayback Machine" è un riferimento a un dispositivo immaginario per viaggiare nel tempo e tradurre, la "Wayback Machine", utilizzata dai personaggi Mister Peabody e Sherman nel cartone animato Le avventure di Rocky e Bullwinkle and Friends. In uno dei segmenti del cartone animato, "Peabody's Improbable History", i personaggi hanno usato la macchina per assistere, partecipare e spesso alterare eventi famosi della storia. Dal 1996 al 2001, le informazioni sono state conservate su nastro digitale, con Kahle che occasionalmente permetteva a ricercatori e scienziati di attingere al database "goffo". Quando l'archivio ha raggiunto il suo quinto anniversario nel 2001, è stato svelato e aperto al pubblico in una cerimonia all'Università della California, a Berkeley. Al momento del lancio di Wayback Machine, conteneva già oltre 10 miliardi di pagine archiviate. I dati sono archiviati nell'ampio cluster di nodi Linux di Internet Archive. Rivisita e archivia occasionalmente nuove versioni di siti Web (vedere i dettagli tecnici di seguito). I siti possono anche essere acquisiti manualmente inserendo l'URL di un sito Web nella casella di ricerca, a condizione che il sito Web consenta a Wayback Machine di "scansionarlo" e salvare i dati. Il 30 ottobre 2020, Wayback Machine ha iniziato a verificare i contenuti.Dettagli tecnici
Il software è stato sviluppato per "scansionare" il Web e scaricare tutte le informazioni e i file di dati pubblicamente accessibili sulle pagine Web, la gerarchia di Gopher, il sistema di bacheca Netnews (Usenet) e il software scaricabile. Le informazioni raccolte da questi "crawler" non includono tutte le informazioni disponibili su Internet, poiché gran parte dei dati è limitata dall'editore o archiviata in database non accessibili. Per superare le incongruenze nei siti Web parzialmente memorizzati nella cache, Archive-It.org è stato sviluppato nel 2005 da Internet Archive come mezzo per consentire alle istituzioni e ai creatori di contenuti di raccogliere e preservare volontariamente raccolte di contenuti digitali e creare archivi digitali. fonti, alcune importate da terzi ed altre generate internamente dall'Archivio. Ad esempio, le scansioni sono fornite dalla Sloan Foundation e Alexa, le scansioni eseguite da IA per conto di NARA e Internet Memory Foundation, mirror di Common Crawl. I "Worldwide Web Crawls" sono in corso dal 2010 e catturano il Web globale. La frequenza delle acquisizioni di istantanee varia a seconda del sito web. I siti web nei "Worldwide Web Crawls" sono inclusi in un "elenco di scansione", con il sito archiviato una volta per scansione. Il completamento di una scansione può richiedere mesi o addirittura anni, a seconda delle dimensioni. Ad esempio, "Wide Crawl Number 13" è iniziato il 9 gennaio,Titoli di articoli correlati
Home
Article
Wayback Machine (Peabody's Improbable History)
archive
World Wide Web
Internet Archive
San Francisco, California
Brewster Kahle
Bruce Gilliat
except China
Bahrain
Internet Archive
Java
Python
Brewster Kahle
Massachusetts Institute of Technology
cached
Internet Archive
Brewster Kahle
Bruce Gilliat
San Francisco
California
web pages
Wayback Machine
Mister Peabody
The Adventures of Rocky and Bullwinkle and Friends
database
University of California, Berkeley
Linux
URL
ad servers
siege
crawl
Gopher
Netnews
Sloan Foundation
Alexa
NARA
Internet Memory Foundation
Common Crawl
limited
PetaBox
Sun Open Storage
Sun Modular Datacenter
Sun Microsystems
petabytes
terabytes
toolbar
permanent link
billion
hosting of malicious binaries
Alexa rank
robots exclusion standard
parked domains
University of California, Berkeley
Igor Girkin
Malaysia Airlines Flight 17
March for Science
Reddit
climate change
Wikipedia editors
Cloudflare
progressive web applications
robots.txt
Telewizja Polska USA, Inc.
TVP Polonia
EchoStar
Dish Network
in limine
hearsay
Internet as a source of prior art
United States patent office
European Patent Office
prior art
RESTful
copyright
Scientology and the Internet
Scientology
Church of Scientology
DMCA
Computer Fraud and Abuse Act
robots.txt
Suzanne Shell
declaratory judgment
United States District Court for the Northern District of California
copyright
countersuit
terms of service
United States District Court for the District of Colorado
breach of contract
copyright infringement
pornographic actor
DMCA requests
Federal Court of Canada
stalkerware application
FlexiSpy
Twitter
Taylor Lorenz
blocked in China
blocked in its entirety in Russia
Alison Macrina
Daily Beast
cyberattack
backup
Long Now Foundation
The Atlantic
List of Web archiving initiatives
Heritrix
Library Genesis
Web archiving
Time capsule
Time travel
Link rot
Internet Archive
Internet Archive
Internet Archive
WHOIS
WHOIS
INIST
doi
ISSN
Sun Microsystems
VirusTotal
Alexa Internet
University of California
doi
ISSN
S2CID
Lepore, Jill
The New Yorker
ISBN
doi
Colorado District Court
InformationWeek
McVeigh, Glennys
CanLII
Federation of Law Societies of Canada
CanLII
Federation of Law Societies of Canada
Vice
Fox News
The Register