Il presente rapporto tecnico ha lo scopo di fornire una visione d’insieme sui metodi, le tecnologie computazionali e gli strumenti disponibili e maggiormente utilizzati nell’ambito dell’estrazione di combinazioni di parole da corpora testuali, al fine di guidare la scelta di una metodologia appropriata per la realizzazione di un dizionario combinatorio dell’italiano secondo un approccio corpus-based. Il rapporto tecnico comprende due sezioni. Nella prima sezione vengono descritti i metodi computazionali più comunemente utilizzati per l’estrazione di combinazioni di parole o espressioni multiparola (MWE) da corpora; il rapporto si concentra su metodi e risorse impiegati per l’estrazione di MWE di lingua generale da corpora monolingui: non vengono quindi analizzati approcci più tipici della ricerca su linguaggi di specialità (in cui l’estrazione di MWE specializzate è spesso basata sul confronto tra corpora specialistici vs. corpora di riferimento), né studi condotti sull’identificazione di MWE mediante corpora paralleli. La seconda sezione è quindi dedicata ad un’analisi delle principali risorse esistenti e ad una loro valutazione preliminare.

Metodi e risorse computazionali per l’estrazione di combinazioni di parole da corpora

CASTAGNOLI, SARA;
2014-01-01

Abstract

Il presente rapporto tecnico ha lo scopo di fornire una visione d’insieme sui metodi, le tecnologie computazionali e gli strumenti disponibili e maggiormente utilizzati nell’ambito dell’estrazione di combinazioni di parole da corpora testuali, al fine di guidare la scelta di una metodologia appropriata per la realizzazione di un dizionario combinatorio dell’italiano secondo un approccio corpus-based. Il rapporto tecnico comprende due sezioni. Nella prima sezione vengono descritti i metodi computazionali più comunemente utilizzati per l’estrazione di combinazioni di parole o espressioni multiparola (MWE) da corpora; il rapporto si concentra su metodi e risorse impiegati per l’estrazione di MWE di lingua generale da corpora monolingui: non vengono quindi analizzati approcci più tipici della ricerca su linguaggi di specialità (in cui l’estrazione di MWE specializzate è spesso basata sul confronto tra corpora specialistici vs. corpora di riferimento), né studi condotti sull’identificazione di MWE mediante corpora paralleli. La seconda sezione è quindi dedicata ad un’analisi delle principali risorse esistenti e ad una loro valutazione preliminare.
2014
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11393/241627
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact