recupero delle informazioni

Article

August 10, 2022

Il recupero delle informazioni (情報檢索, recupero delle informazioni) si riferisce all'atto di ottenere una parte correlata a un contenuto desiderato da informazioni collettive. I metadati o gli indici possono essere utilizzati per questo. I sistemi automatizzati di recupero delle informazioni vengono utilizzati per alleviare una condizione chiamata "sovraccarico di informazioni". Molte università e biblioteche pubbliche istituiscono sistemi di recupero delle informazioni per fornire l'accesso ai propri libri, giornali e vari documenti. Un motore di ricerca web è uno dei sistemi di reperimento delle informazioni più facilmente riscontrabili su base giornaliera.

Storia

L'idea di utilizzare i computer per recuperare informazioni è stata resa popolare nel 1945 da Bernie Bush nel suo articolo As We May Think in The Atlantic. I primi sistemi automatizzati di recupero delle informazioni furono introdotti negli anni '50 e '60. Nel 1970, diversi metodi per prendere di mira piccoli corpora, come la collezione Cranfield, che sono raccolte di migliaia di documenti, erano stati introdotti nella comunità accademica. I sistemi di ricerca su larga scala come il sistema Lockheed Dialog iniziarono ad essere utilizzati all'inizio degli anni '70. Nel 1992, il Dipartimento della Difesa ha sponsorizzato la Text Retrieval Conference (TREC) con il National Institute of Standards and Technology (NIST), che faceva parte del programma di testo TIPSTER. Lo scopo di questo programma era supportare il mondo accademico relativo al recupero delle informazioni, supportando l'infrastruttura necessaria per misurare le prestazioni delle metodologie di recupero del testo per testi su larga scala. In questo modo è stata promossa la ricerca su un metodo di ricerca altamente scalabile applicabile a un corpus molto ampio. E con l'avvento del motore di ricerca web, la richiesta di un sistema di ricerca su larga scala è aumentata.

Elemento di recupero delle informazioni

Il sistema IR di oggi è in gran parte composto da cinque elementi: set di dati, indice, classifica, espressione e feedback degli utenti. Set di dati: i dati da ricercare possono essere ampiamente suddivisi in dati DB e dati del documento. I dati di tipo DB sono dati archiviati in DB con un determinato schema come meteo, prezzo delle azioni, orari dei treni, ecc., mentre i dati del tipo di documento si riferiscono a dati composti da titolo, corpo e data di creazione. I dati del tipo di documento sono ulteriormente suddivisi in dati del tipo di documento formale e dati del tipo di documento atipici. I dati del tipo di documento strutturato sono dati che hanno un proprio formato, come i dati di ricerca nella conoscenza o i dati del blog, e i dati del tipo di documento atipici sono dati Web. Si riferiscono a dati in una forma relativamente libera, come un documento. Indicizzazione: l'indicizzazione si riferisce alla creazione di un elenco di documenti per ogni parola rispetto a un set di dati del tipo di documento ed è spesso espressa come un elenco invertito. D'altra parte, a seconda del metodo di indicizzazione, può essere suddiviso in indicizzazione batch e indicizzazione incrementale, che indicizzano i set di dati contemporaneamente.La ricerca di notizie è un campo in cui viene generalmente applicata l'indicizzazione incrementale. Ciò che è importante nel processo di indicizzazione per il recupero delle informazioni è il processo di estrazione delle parole di indice da un determinato documento.Ci sono metodi di n-grammi che possono essere applicati indipendentemente dalle caratteristiche linguistiche e dai metodi attraverso l'analisi morfologica dell'elaborazione del linguaggio naturale. Classifica: la classifica si riferisce all'operazione di elencare i dati del tipo di documento nell'ordine più appropriato per una query di input e per questo scopo esistono vari algoritmi di ricerca. Qui, per rilevanza si riferisce alla somiglianza tra la query e il documento, la freschezza del documento e l'unicità del documento.