Metodi e risorse computazionali per l’estrazione di combinazioni di parole da corpora

Castagnoli, Sara; Nissim, Malvina; Masini, Francesca

Il presente rapporto tecnico ha lo scopo di fornire una visione d’insieme sui metodi, le tecnologie computazionali e gli strumenti disponibili e maggiormente utilizzati nell’ambito dell’estrazione di combinazioni di parole da corpora testuali, al fine di guidare la scelta di una metodologia appropriata per la realizzazione di un dizionario combinatorio dell’italiano secondo un approccio corpus-based. Il rapporto tecnico comprende due sezioni. Nella prima sezione vengono descritti i metodi computazionali più comunemente utilizzati per l’estrazione di combinazioni di parole o espressioni multiparola (MWE) da corpora; il rapporto si concentra su metodi e risorse impiegati per l’estrazione di MWE di lingua generale da corpora monolingui: non vengono quindi analizzati approcci più tipici della ricerca su linguaggi di specialità (in cui l’estrazione di MWE specializzate è spesso basata sul confronto tra corpora specialistici vs. corpora di riferimento), né studi condotti sull’identificazione di MWE mediante corpora paralleli. La seconda sezione è quindi dedicata ad un’analisi delle principali risorse esistenti e ad una loro valutazione preliminare.