Technological innovation plays a central role across multiple fields and is increasingly shaping translation studies. The widespread use of machine translation (MT) has significantly transformed both professional practice and the perception of the translator’s role. Translators are increasingly involved in post-editing tasks, which has led to a redefinition of the profession’s decision-making and creative dimensions (Sakamoto 2019). In this context, the growing importance of post-editing in the language services market highlights the need for further investigation into its application in different specialised fields. This study examines the quality of machine-translated German scientific language into Italian within the domain of linguistics and the post-editing effort required to achieve publishable quality, defined by Monti (2019) as outbound translation. It investigates scientific language in its key components: common language, everyday scientific language (alltägliche Wissenschaftsprache), and terminology, as identified by Ehlich (1996/2007). The empirical analysis is based on a corpus of German-language scientific articles, translated into Italian with the generic MT system DeepL in Trados Studio. To evaluate translation quality and post-editing effort, MT outputs are examined through error identification, classification, annotation, and post-editing. Based on the error analysis, specific guidelines are developed to optimise post-editing and produce publication-ready texts. Addressing the lack of standard post-editing guidelines (Hu and Cadwell 2016), this study proposes a structured framework for analysing errors in automatically translated German scientific texts, facilitating both their correction and evaluation. The first phase of the project highlighted the challenges faced by generic MT systems in accurately translating German scientific texts. To address these limitations, the project advanced to a second phase, implementing fine-tuning to adapt a pre-trained MT system specifically for this domain. This approach aligns with domain adaptation strategies proposed in previous studies (e.g., Bertoldi and Federico 2009; Bojar & Tamchyna 2011; Sennrich et al. 2016; Ueffing et al. 2007). Given the scarcity of suitable parallel corpora, the fine-tuning process required the creation of a synthetic corpus, incorporating artificially generated data to enhance the MT system’s ability to handle the linguistic complexity of the domain. Following the fine-tuning process, a translation experiment was conducted. In conclusion, the performance of the fine-tuned system was compared with that of DeepL in order to determine whether training on a domain-specific corpus can lead to a significant improvement in the quality of machine translation of German scientific texts into Italian within the domain of linguistics.

Nel panorama contemporaneo, l’innovazione tecnologica riveste un ruolo centrale in numerosi ambiti, esercitando un’influenza sempre più significativa anche nel campo degli studi traduttivi. In particolare, la diffusione capillare della traduzione automatica (TA) ha trasformato in modo sostanziale non solo la pratica professionale, ma anche la percezione stessa del ruolo del traduttore, sempre più orientato verso attività di post-editing, con una conseguente ridefinizione della componente decisionale e creativa della professione (Sakamoto 2019). In questo contesto, la crescente rilevanza del post-editing nel mercato dei servizi linguistici rende necessario approfondirne l’applicazione nei diversi ambiti specialistici. Il presente studio analizza la qualità della traduzione automatica del linguaggio scientifico tedesco in italiano in ambito linguistico e valuta l’entità dell’intervento richiesto al post-editor per elaborare proposte di traduzione utili al raggiungimento di una qualità pubblicabile, ossia quella che Monti (2019) definisce come outbound translation. Il linguaggio scientifico viene esaminato nelle sue componenti chiave individuate da Ehlich (1996/2007): linguaggio comune, linguaggio scientifico quotidiano (alltägliche Wissenschaftssprache) e terminologia. L’analisi empirica si basa su un corpus di contributi scientifici in lingua tedesca tradotti in italiano mediante il sistema di TA generico DeepL integrato in Trados Studio. Successivamente, gli output della TA sono stati sottoposti a una fase di individuazione, classificazione e annotazione degli errori e, infine, di post-editing. Sulla base degli errori emersi, sono state elaborate linee guida specifiche volte a ottimizzare il processo di post-editing e garantire una qualità del testo finale idonea alla pubblicazione. In considerazione dell’assenza di linee guida standard per il post-editing (Hu e Cadwell 2016), lo studio propone pertanto un quadro strutturato per l’analisi degli errori in testi scientifici tedeschi tradotti automaticamente in italiano, facilitandone la correzione e la complessiva valutazione. I risultati di tale analisi hanno mostrato che i sistemi di TA generici, come DeepL, non essendo addestrati specificatamente per la traduzione del linguaggio scientifico, non sono in grado di produrre in modo costante risultati ottimali. Tale riscontro ha condotto all’integrazione di una fase sperimentale basata sull’addestramento di un sistema di TA neurale pre-addestrato (fine-tuning) per tradurre il linguaggio scientifico tedesco in italiano in ambito linguistico. In linea con le strategie di adattamento al dominio descritte in letteratura (ad esempio Bertoldi e Federico 2009; Bojar e Tamchyna 2011; Sennrich et al. 2016; Ueffing et al. 2007) e in assenza di corpora paralleli adeguati al fine-tuning, è stato creato un corpus sintetico, incorporando dati generati artificialmente per migliorare la capacità del sistema di TA di gestire la complessità linguistica del dominio. A conclusione del processo di fine-tuning, è stato eseguito un esperimento di traduzione e sono state confrontate le prestazioni del sistema adattato con quelle di DeepL, al fine di verificare se l’addestramento su un corpus specifico consenta un miglioramento qualitativo significativo della traduzione automatica di testi scientifici tedeschi in italiano in ambito linguistico.

Studio sulla traduzione automatica del linguaggio scientifico tedesco in italiano e sulla valutazione della sua qualità / Lattanzio, F.. - (2026 May 21).

Studio sulla traduzione automatica del linguaggio scientifico tedesco in italiano e sulla valutazione della sua qualità

Lattanzio, F.
2026-05-21

Abstract

Technological innovation plays a central role across multiple fields and is increasingly shaping translation studies. The widespread use of machine translation (MT) has significantly transformed both professional practice and the perception of the translator’s role. Translators are increasingly involved in post-editing tasks, which has led to a redefinition of the profession’s decision-making and creative dimensions (Sakamoto 2019). In this context, the growing importance of post-editing in the language services market highlights the need for further investigation into its application in different specialised fields. This study examines the quality of machine-translated German scientific language into Italian within the domain of linguistics and the post-editing effort required to achieve publishable quality, defined by Monti (2019) as outbound translation. It investigates scientific language in its key components: common language, everyday scientific language (alltägliche Wissenschaftsprache), and terminology, as identified by Ehlich (1996/2007). The empirical analysis is based on a corpus of German-language scientific articles, translated into Italian with the generic MT system DeepL in Trados Studio. To evaluate translation quality and post-editing effort, MT outputs are examined through error identification, classification, annotation, and post-editing. Based on the error analysis, specific guidelines are developed to optimise post-editing and produce publication-ready texts. Addressing the lack of standard post-editing guidelines (Hu and Cadwell 2016), this study proposes a structured framework for analysing errors in automatically translated German scientific texts, facilitating both their correction and evaluation. The first phase of the project highlighted the challenges faced by generic MT systems in accurately translating German scientific texts. To address these limitations, the project advanced to a second phase, implementing fine-tuning to adapt a pre-trained MT system specifically for this domain. This approach aligns with domain adaptation strategies proposed in previous studies (e.g., Bertoldi and Federico 2009; Bojar & Tamchyna 2011; Sennrich et al. 2016; Ueffing et al. 2007). Given the scarcity of suitable parallel corpora, the fine-tuning process required the creation of a synthetic corpus, incorporating artificially generated data to enhance the MT system’s ability to handle the linguistic complexity of the domain. Following the fine-tuning process, a translation experiment was conducted. In conclusion, the performance of the fine-tuned system was compared with that of DeepL in order to determine whether training on a domain-specific corpus can lead to a significant improvement in the quality of machine translation of German scientific texts into Italian within the domain of linguistics.
21-mag-2026
38
UMANESIMO E TECNOLOGIE
Nel panorama contemporaneo, l’innovazione tecnologica riveste un ruolo centrale in numerosi ambiti, esercitando un’influenza sempre più significativa anche nel campo degli studi traduttivi. In particolare, la diffusione capillare della traduzione automatica (TA) ha trasformato in modo sostanziale non solo la pratica professionale, ma anche la percezione stessa del ruolo del traduttore, sempre più orientato verso attività di post-editing, con una conseguente ridefinizione della componente decisionale e creativa della professione (Sakamoto 2019). In questo contesto, la crescente rilevanza del post-editing nel mercato dei servizi linguistici rende necessario approfondirne l’applicazione nei diversi ambiti specialistici. Il presente studio analizza la qualità della traduzione automatica del linguaggio scientifico tedesco in italiano in ambito linguistico e valuta l’entità dell’intervento richiesto al post-editor per elaborare proposte di traduzione utili al raggiungimento di una qualità pubblicabile, ossia quella che Monti (2019) definisce come outbound translation. Il linguaggio scientifico viene esaminato nelle sue componenti chiave individuate da Ehlich (1996/2007): linguaggio comune, linguaggio scientifico quotidiano (alltägliche Wissenschaftssprache) e terminologia. L’analisi empirica si basa su un corpus di contributi scientifici in lingua tedesca tradotti in italiano mediante il sistema di TA generico DeepL integrato in Trados Studio. Successivamente, gli output della TA sono stati sottoposti a una fase di individuazione, classificazione e annotazione degli errori e, infine, di post-editing. Sulla base degli errori emersi, sono state elaborate linee guida specifiche volte a ottimizzare il processo di post-editing e garantire una qualità del testo finale idonea alla pubblicazione. In considerazione dell’assenza di linee guida standard per il post-editing (Hu e Cadwell 2016), lo studio propone pertanto un quadro strutturato per l’analisi degli errori in testi scientifici tedeschi tradotti automaticamente in italiano, facilitandone la correzione e la complessiva valutazione. I risultati di tale analisi hanno mostrato che i sistemi di TA generici, come DeepL, non essendo addestrati specificatamente per la traduzione del linguaggio scientifico, non sono in grado di produrre in modo costante risultati ottimali. Tale riscontro ha condotto all’integrazione di una fase sperimentale basata sull’addestramento di un sistema di TA neurale pre-addestrato (fine-tuning) per tradurre il linguaggio scientifico tedesco in italiano in ambito linguistico. In linea con le strategie di adattamento al dominio descritte in letteratura (ad esempio Bertoldi e Federico 2009; Bojar e Tamchyna 2011; Sennrich et al. 2016; Ueffing et al. 2007) e in assenza di corpora paralleli adeguati al fine-tuning, è stato creato un corpus sintetico, incorporando dati generati artificialmente per migliorare la capacità del sistema di TA di gestire la complessità linguistica del dominio. A conclusione del processo di fine-tuning, è stato eseguito un esperimento di traduzione e sono state confrontate le prestazioni del sistema adattato con quelle di DeepL, al fine di verificare se l’addestramento su un corpus specifico consenta un miglioramento qualitativo significativo della traduzione automatica di testi scientifici tedeschi in italiano in ambito linguistico.
File in questo prodotto:
File Dimensione Formato  
LATTANZIO_Tesi.pdf

accesso aperto

Descrizione: Studio sulla traduzione automatica del linguaggio scientifico tedesco in italiano e sulla valutazione della sua qualità
Tipologia: Tesi di dottorato
Licenza: Creative commons
Dimensione 7.99 MB
Formato Adobe PDF
7.99 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11393/376910
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact