Research plays an important role in the cultural and scientific progress of a society and in the economic development of its territories. Very often only the authors can see or reuse data, results, prototypes or documents, while the community has no access to such products. For several years the Open Access movement has been promoting the possibility of open access to scientific publications. This is just the tip of an iceberg which can only be overcome through an open science approach. “According to the principles of Open Science, knowledge produced with public resources is a wealth to be valued rather than closed. Any product of public research must be freely available and must be freely reusable to increase the impact of scientific work” . On the basis of these considerations, the present thesis is oriented towards a reading of the research products in two ways: - the nature of the research products as digital objects and their role in the digital archives of research organisations; - information requirements and the need to preserve and protect this information. In particular this research aims to define an automatic metadata extraction framework that can optimize access to these important sources of information and knowledge. In 2018, the European Commission published a series of recommendations on access to scientific information. Progressively, tools and methods of knowledge governance developed during the management of research projects funded through the framework programmes and other EU initiatives have become mandatory. This is a first important step which, however, still requires a long and arduous work before reaching truly significant goals. Even today, despite the efforts of researchers, research data, information and documents are still not part of digital preservation systems except to a partial and insignificant extent. The aim of the thesis is also that of an analysis and a reflection on the real possibility of conservation of these resources and the opportunity to redesign the boundaries of open science in a logic of safeguarding and reliability of products. In this perspective, the debate focuses on the issue of access to the objects preserved as a result of a coherent process of representation of metadata. A quality metadata generally requires the investment of considerable sums of money and a considerable amount of time. The current development of Machine and Deep Learning techniques enables the implementation of more and more accurate and efficient knowledge extraction systems. The domain of book and document science is undoubtedly an excellent test bed for the application of tools and automatic extraction of metadata. The framework theorized in the present work tries, therefore, to automate the process of metadata extraction also in a logic of digital escosystems in which interoperability becomes one of the main assets. The scientific community is reconfigured as one of the possible stakeholders in a network in which decision-makers, entrepreneurs and research institutions work in synergy to build innovation and development for the well-being of citizens. At the end of the thesis work, a reflection on the results obtained seems necessary. First of all, it is necessary to highlight the complexity of the domain of research projects. A further criticality is represented by the digital environment in which are found the research products. If digital facilitates the communication processes, it also requires application of models and methodologies for the representation of resources and for guaranteeing their recovery over time without compromising their probative value. There is also a difficulty due to the lack of culture of researchers towards data and information management processes in a context that, too often, has to deal with increasingly tight deadlines and high parameters such as/ quantity to be respected. Another factor is the continuous pressure exerted by publishers and large information players who strongly oppose the possibility of creating open science. Undoubtedly, the attention from the governance of research institutions is also insufficient. It’s lastly important consider the reduced demand for access by decision-makers and players in the production system. The criticalities listed draw an articulated and complex framework in which the elements identified in the thesis can only represent partial approaches and solutions that require, however, synergy and stakeholder engagement. Thus, the framework model defined in the thesis tries to link to the domain, with the aim of selecting technologies, methodologies and operational processes appropriate to the specifics of the environment. Over the next few months, the model will be piloted in selected communities to evaluate the effectiveness or need for changes or additions. The thesis work is organized in 2 chapters: - Chapter 1 outlines the state of the art in research products, metadata and digital preservation. - Chapter 2 gets to define metadata extraction framework conceptual structure and architecture.

La ricerca svolge un ruolo importante nel progresso culturale e scientifico di una società e nello sviluppo economico dei suoi territori. Ciò malgrado i risultati, i dati, i documenti che caratterizzano i processi di produzione della ricerca e che sono alla base della possibilità di un riuso fruttuoso della stessa rimangono troppo spesso inaccessibili se non al ristretto manipolo degli autori. Già da diversi anni il movimento Open Access promuove la possibilità di accesso aperto alle pubblicazioni scientifiche, nella piena consapevolezza che tale aspetto costituisca solo la punta di un iceberg tanto imponente quanto profondo che può essere combattuto solo con un approccio di Open Science. “Secondo i principi dell’Open Science il sapere prodotto con risorse pubbliche è una ricchezza da valorizzare invece che da chiudere. Qualsiasi prodotto della ricerca pubblica deve essere disponibile gratuitamente e deve poter essere liberamente riutilizzabile per aumentare l'impatto del lavoro scientifico” . Partendo da tali considerazioni il presente lavoro di tesi si orienta verso una lettura dei prodotti di ricerca in una duplice chiave: - la natura di oggetti digitali dei prodotti della ricerca e il loro ruolo documentale negli archivi digitali degli enti di ricerca; - i fabbisogni informativi e le esigenze di conservazione e tutela di tale patrimonio informativo. In particolare, la ricerca condotta per la presente tesi di dottorato, muovendo dall’idea della conservazione digitale dei prodotti della ricerca mira a definire un framework di estrazione automatica di metadati in grado di ottimizzare l’accesso a tali importanti fonti informative e di conoscenza. Nel 2018 la Commissione europea ha pubblicato una serie di raccomandazioni sull’accesso all’informazione scientifica rendendo obbligatori progressivamente strumenti e metodi di governo della conoscenza sviluppata durante la gestione dei progetti di ricerca finanziati attraverso i programmi quadro e le altre iniziative UE. Si tratta di un primo importante passo che, tuttavia, richiede ancora un lungo e faticoso lavoro prima di giungere a traguardi davvero significativi. Nonostante l’impegno dei ricercatori i dati, le informazioni e i documenti della ricerca non entrano ancor oggi a far parte dei sistemi di conservazione se non in una misura parziale e spesso non significativa. Obiettivo del lavoro di tesi è allora anche quello di un’analisi e una riflessione sulla reale possibilità di conservazione di tali risorse e sull’occasione di ridisegnare i confini della scienza aperta in una logica di salvaguardia e di affidabilità dei prodotti. In tale prospettiva il dibattito si sposta sulla tematica dell’accesso agli oggetti conservati come risultato di un coerente processo di rappresentazione dei metadati. Come è noto una metadatazione di qualità richiede, generalmente, l’investimento di considerevoli somme di denaro e un importante dispendio di tempo. L’ attuale sviluppo di tecniche di Machine e Deep Learning consente di implementare sistemi di estrazione di conoscenza sempre più precisi e performanti. Il dominio della scienza del libro e del documento è senza dubbio un ottimo banco di prova per l’applicazione di tool e di estrazione automatica di metadati. Il framework teorizzato nel presente lavoro prova, quindi, ad automatizzare il processo di estrazione dei metadati anche in una logica di ecosistemi digitali in cui l’interoperabilità diventa uno dei principali asset. La comunità scientifica si riconfigura come uno dei possibili stakeholder di una rete in cui decisori, imprenditori e enti di ricerca operano sinergicamente alla costruzione di innovazione e sviluppo per il benessere dei cittadini. Al termine del lavoro di tesi una riflessione sui risultati ottenuti appare necessaria. In primis occorre evidenziare la complessità del dominio relativo ai progetti di ricerca. Un’ulteriore criticità è rappresentata dall’ambiente digitale in cui si trovano i prodotti della ricerca che se da un alto agevola i processi di comunicazione dall’altro richiama l’applicazione di modelli e metodologie per la rappresentazione delle risorse e per la garanzia di un loro recupero nel tempo senza comprometterne il valore probatorio. Vi è poi una difficoltà riconducibile alla scarsa cultura dei ricercatori verso i processi di gestione dei dati e delle informazioni in un contesto che, troppo spesso, deve fare i conti con tempi sempre più stretti e elevati parametri quali/quantitativi da rispettare. Altro fattore frenante è la continua pressione esercitata da editori e grandi player dell’informazione che contrastano con forza la possibilità di realizzazione della scienza aperta. Senza dubbio insufficiente risulta, anche, l’attenzione da parte delle governance degli enti di ricerca e infine, non meno importante è la ridotta domanda di accesso da parte dei decisori e degli attori del sistema produttivo. Le criticità elencate disegnano un quadro articolato e complesso in cui gli elementi individuati nella tesi possono solo rappresentare approcci e soluzioni parziali che possono diventare abilitanti in presenza di una logica di sinergia e di stakeholder engagement. Per tale ragione il modello di framework definito nella tesi prova ad ancorarsi saldamente al dominio, al contesto di produzione della ricerca per selezionare tecnologie, metodologie e processi operativi adeguati alle specifiche dell’ambiente. Nei prossimi mesi il modello sarà sperimentato su alcune community al fine di valutarne l’efficacia e/o la necessità di modifiche o integrazioni. Il lavoro di tesi è organizzato in 2 capitoli: - il capitolo 1 traccia lo stato dell’arte relativamente ai prodotti della ricerca, ai metadati e alla conservazione digitale. - il capitolo 2 partendo di modelli di conservazione e dalle metodologie e tecniche di estrazione automatica di metadati arriva a definire la struttura concettuale del framework di estrazione e l’architettura tecnologica dello stesso. Al termine del lavoro di tesi una riflessione sui risultati ottenuti appare necessaria. In primis occorre evidenziare la complessità del dominio relativo ai progetti di ricerca. Un’ulteriore criticità è rappresentata dall’ambiente digitale in cui si trovano i prodotti della ricerca che se da un alto agevola i processi di comunicazione dall’altro richiama l’applicazione di modelli e metodologie per la rappresentazione delle risorse e per la garanzia di un loro recupero nel tempo senza comprometterne il valore probatorio. Vi è poi una difficoltà riconducibile alla scarsa cultura dei ricercatori verso i processi di gestione dei dati e delle informazioni in un contesto che, troppo spesso, deve fare i conti con tempi sempre più stretti e elevati parametri quali/quantitativi da rispettare. Altro fattore frenante è la continua pressione esercitata da editori e grandi player dell’informazione che contrastano con forza la possibilità di realizzazione della scienza aperta. Senza dubbio insufficiente risulta, anche, l’attenzione da parte delle governance degli enti di ricerca e infine, non meno importante è la ridotta domanda di accesso da parte dei decisori e degli attori del sistema produttivo. Le criticità elencate disegnano un quadro articolato e complesso in cui gli elementi individuati nella tesi possono solo rappresentare approcci e soluzioni parziali che possono diventare abilitanti in presenza di una logica di sinergia e di stakeholder engagement. Per tale ragione il modello di framework definito nella tesi prova ad ancorarsi saldamente al dominio, al contesto di produzione della ricerca per selezionare tecnologie, metodologie e processi operativi adeguati alle specifiche dell’ambiente. Nei prossimi mesi il modello sarà sperimentato su alcune community al fine di valutarne l’efficacia e/o la necessità di modifiche o integrazioni.

Lo sviluppo di un framework di estrazione automatica di metadati per la conservazione dei prodotti della ricerca.

BARTUCCI, ARMANDO
2023-01-01

Abstract

Research plays an important role in the cultural and scientific progress of a society and in the economic development of its territories. Very often only the authors can see or reuse data, results, prototypes or documents, while the community has no access to such products. For several years the Open Access movement has been promoting the possibility of open access to scientific publications. This is just the tip of an iceberg which can only be overcome through an open science approach. “According to the principles of Open Science, knowledge produced with public resources is a wealth to be valued rather than closed. Any product of public research must be freely available and must be freely reusable to increase the impact of scientific work” . On the basis of these considerations, the present thesis is oriented towards a reading of the research products in two ways: - the nature of the research products as digital objects and their role in the digital archives of research organisations; - information requirements and the need to preserve and protect this information. In particular this research aims to define an automatic metadata extraction framework that can optimize access to these important sources of information and knowledge. In 2018, the European Commission published a series of recommendations on access to scientific information. Progressively, tools and methods of knowledge governance developed during the management of research projects funded through the framework programmes and other EU initiatives have become mandatory. This is a first important step which, however, still requires a long and arduous work before reaching truly significant goals. Even today, despite the efforts of researchers, research data, information and documents are still not part of digital preservation systems except to a partial and insignificant extent. The aim of the thesis is also that of an analysis and a reflection on the real possibility of conservation of these resources and the opportunity to redesign the boundaries of open science in a logic of safeguarding and reliability of products. In this perspective, the debate focuses on the issue of access to the objects preserved as a result of a coherent process of representation of metadata. A quality metadata generally requires the investment of considerable sums of money and a considerable amount of time. The current development of Machine and Deep Learning techniques enables the implementation of more and more accurate and efficient knowledge extraction systems. The domain of book and document science is undoubtedly an excellent test bed for the application of tools and automatic extraction of metadata. The framework theorized in the present work tries, therefore, to automate the process of metadata extraction also in a logic of digital escosystems in which interoperability becomes one of the main assets. The scientific community is reconfigured as one of the possible stakeholders in a network in which decision-makers, entrepreneurs and research institutions work in synergy to build innovation and development for the well-being of citizens. At the end of the thesis work, a reflection on the results obtained seems necessary. First of all, it is necessary to highlight the complexity of the domain of research projects. A further criticality is represented by the digital environment in which are found the research products. If digital facilitates the communication processes, it also requires application of models and methodologies for the representation of resources and for guaranteeing their recovery over time without compromising their probative value. There is also a difficulty due to the lack of culture of researchers towards data and information management processes in a context that, too often, has to deal with increasingly tight deadlines and high parameters such as/ quantity to be respected. Another factor is the continuous pressure exerted by publishers and large information players who strongly oppose the possibility of creating open science. Undoubtedly, the attention from the governance of research institutions is also insufficient. It’s lastly important consider the reduced demand for access by decision-makers and players in the production system. The criticalities listed draw an articulated and complex framework in which the elements identified in the thesis can only represent partial approaches and solutions that require, however, synergy and stakeholder engagement. Thus, the framework model defined in the thesis tries to link to the domain, with the aim of selecting technologies, methodologies and operational processes appropriate to the specifics of the environment. Over the next few months, the model will be piloted in selected communities to evaluate the effectiveness or need for changes or additions. The thesis work is organized in 2 chapters: - Chapter 1 outlines the state of the art in research products, metadata and digital preservation. - Chapter 2 gets to define metadata extraction framework conceptual structure and architecture.
2023
La ricerca svolge un ruolo importante nel progresso culturale e scientifico di una società e nello sviluppo economico dei suoi territori. Ciò malgrado i risultati, i dati, i documenti che caratterizzano i processi di produzione della ricerca e che sono alla base della possibilità di un riuso fruttuoso della stessa rimangono troppo spesso inaccessibili se non al ristretto manipolo degli autori. Già da diversi anni il movimento Open Access promuove la possibilità di accesso aperto alle pubblicazioni scientifiche, nella piena consapevolezza che tale aspetto costituisca solo la punta di un iceberg tanto imponente quanto profondo che può essere combattuto solo con un approccio di Open Science. “Secondo i principi dell’Open Science il sapere prodotto con risorse pubbliche è una ricchezza da valorizzare invece che da chiudere. Qualsiasi prodotto della ricerca pubblica deve essere disponibile gratuitamente e deve poter essere liberamente riutilizzabile per aumentare l'impatto del lavoro scientifico” . Partendo da tali considerazioni il presente lavoro di tesi si orienta verso una lettura dei prodotti di ricerca in una duplice chiave: - la natura di oggetti digitali dei prodotti della ricerca e il loro ruolo documentale negli archivi digitali degli enti di ricerca; - i fabbisogni informativi e le esigenze di conservazione e tutela di tale patrimonio informativo. In particolare, la ricerca condotta per la presente tesi di dottorato, muovendo dall’idea della conservazione digitale dei prodotti della ricerca mira a definire un framework di estrazione automatica di metadati in grado di ottimizzare l’accesso a tali importanti fonti informative e di conoscenza. Nel 2018 la Commissione europea ha pubblicato una serie di raccomandazioni sull’accesso all’informazione scientifica rendendo obbligatori progressivamente strumenti e metodi di governo della conoscenza sviluppata durante la gestione dei progetti di ricerca finanziati attraverso i programmi quadro e le altre iniziative UE. Si tratta di un primo importante passo che, tuttavia, richiede ancora un lungo e faticoso lavoro prima di giungere a traguardi davvero significativi. Nonostante l’impegno dei ricercatori i dati, le informazioni e i documenti della ricerca non entrano ancor oggi a far parte dei sistemi di conservazione se non in una misura parziale e spesso non significativa. Obiettivo del lavoro di tesi è allora anche quello di un’analisi e una riflessione sulla reale possibilità di conservazione di tali risorse e sull’occasione di ridisegnare i confini della scienza aperta in una logica di salvaguardia e di affidabilità dei prodotti. In tale prospettiva il dibattito si sposta sulla tematica dell’accesso agli oggetti conservati come risultato di un coerente processo di rappresentazione dei metadati. Come è noto una metadatazione di qualità richiede, generalmente, l’investimento di considerevoli somme di denaro e un importante dispendio di tempo. L’ attuale sviluppo di tecniche di Machine e Deep Learning consente di implementare sistemi di estrazione di conoscenza sempre più precisi e performanti. Il dominio della scienza del libro e del documento è senza dubbio un ottimo banco di prova per l’applicazione di tool e di estrazione automatica di metadati. Il framework teorizzato nel presente lavoro prova, quindi, ad automatizzare il processo di estrazione dei metadati anche in una logica di ecosistemi digitali in cui l’interoperabilità diventa uno dei principali asset. La comunità scientifica si riconfigura come uno dei possibili stakeholder di una rete in cui decisori, imprenditori e enti di ricerca operano sinergicamente alla costruzione di innovazione e sviluppo per il benessere dei cittadini. Al termine del lavoro di tesi una riflessione sui risultati ottenuti appare necessaria. In primis occorre evidenziare la complessità del dominio relativo ai progetti di ricerca. Un’ulteriore criticità è rappresentata dall’ambiente digitale in cui si trovano i prodotti della ricerca che se da un alto agevola i processi di comunicazione dall’altro richiama l’applicazione di modelli e metodologie per la rappresentazione delle risorse e per la garanzia di un loro recupero nel tempo senza comprometterne il valore probatorio. Vi è poi una difficoltà riconducibile alla scarsa cultura dei ricercatori verso i processi di gestione dei dati e delle informazioni in un contesto che, troppo spesso, deve fare i conti con tempi sempre più stretti e elevati parametri quali/quantitativi da rispettare. Altro fattore frenante è la continua pressione esercitata da editori e grandi player dell’informazione che contrastano con forza la possibilità di realizzazione della scienza aperta. Senza dubbio insufficiente risulta, anche, l’attenzione da parte delle governance degli enti di ricerca e infine, non meno importante è la ridotta domanda di accesso da parte dei decisori e degli attori del sistema produttivo. Le criticità elencate disegnano un quadro articolato e complesso in cui gli elementi individuati nella tesi possono solo rappresentare approcci e soluzioni parziali che possono diventare abilitanti in presenza di una logica di sinergia e di stakeholder engagement. Per tale ragione il modello di framework definito nella tesi prova ad ancorarsi saldamente al dominio, al contesto di produzione della ricerca per selezionare tecnologie, metodologie e processi operativi adeguati alle specifiche dell’ambiente. Nei prossimi mesi il modello sarà sperimentato su alcune community al fine di valutarne l’efficacia e/o la necessità di modifiche o integrazioni. Il lavoro di tesi è organizzato in 2 capitoli: - il capitolo 1 traccia lo stato dell’arte relativamente ai prodotti della ricerca, ai metadati e alla conservazione digitale. - il capitolo 2 partendo di modelli di conservazione e dalle metodologie e tecniche di estrazione automatica di metadati arriva a definire la struttura concettuale del framework di estrazione e l’architettura tecnologica dello stesso. Al termine del lavoro di tesi una riflessione sui risultati ottenuti appare necessaria. In primis occorre evidenziare la complessità del dominio relativo ai progetti di ricerca. Un’ulteriore criticità è rappresentata dall’ambiente digitale in cui si trovano i prodotti della ricerca che se da un alto agevola i processi di comunicazione dall’altro richiama l’applicazione di modelli e metodologie per la rappresentazione delle risorse e per la garanzia di un loro recupero nel tempo senza comprometterne il valore probatorio. Vi è poi una difficoltà riconducibile alla scarsa cultura dei ricercatori verso i processi di gestione dei dati e delle informazioni in un contesto che, troppo spesso, deve fare i conti con tempi sempre più stretti e elevati parametri quali/quantitativi da rispettare. Altro fattore frenante è la continua pressione esercitata da editori e grandi player dell’informazione che contrastano con forza la possibilità di realizzazione della scienza aperta. Senza dubbio insufficiente risulta, anche, l’attenzione da parte delle governance degli enti di ricerca e infine, non meno importante è la ridotta domanda di accesso da parte dei decisori e degli attori del sistema produttivo. Le criticità elencate disegnano un quadro articolato e complesso in cui gli elementi individuati nella tesi possono solo rappresentare approcci e soluzioni parziali che possono diventare abilitanti in presenza di una logica di sinergia e di stakeholder engagement. Per tale ragione il modello di framework definito nella tesi prova ad ancorarsi saldamente al dominio, al contesto di produzione della ricerca per selezionare tecnologie, metodologie e processi operativi adeguati alle specifiche dell’ambiente. Nei prossimi mesi il modello sarà sperimentato su alcune community al fine di valutarne l’efficacia e/o la necessità di modifiche o integrazioni.
File in questo prodotto:
File Dimensione Formato  
Tesi_Dottorato_UmanTec_XXXV_Bartucci_2023.pdf

accesso aperto

Descrizione: Lo sviluppo di un framework di estrazione automatica di metadati per la conservazione dei prodotti della ricerca.
Tipologia: Tesi di dottorato
Licenza: Creative commons
Dimensione 2.89 MB
Formato Adobe PDF
2.89 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11393/317110
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact