Educational inequality is a central theme in contemporary research, as schooling has a profound influence on employment, income, and health, shaping the main forms of social disparity. Among the factors that affect academic performance, socioeconomic status plays a crucial role, as highlighted from the earliest analyses on peer effects. The literature has shown that school environments and the social composition of classrooms influence learning outcomes through mechanisms such as shared norms, reciprocal expectations, and information exchange. However, rigorously identifying these effects remains methodologically challenging. In Italy, INVALSI data constitute a valuable resource for studying educational inequalities, thanks to the availability of standardized tests and detailed information on students’ family background. The INVALSI Economic, Social, and Cultural Status (ESCS) index enables researchers to describe the socioeconomic context at both the individual and school level. Ministerial Decree No. 90/2023 introduced an official threshold for school-level ESCS, designed to identify schools considered socioeconomically disadvantaged. This threshold is methodologically relevant because it provides a clear assignment rule that can be exploited to implement a Regression Discontinuity (RD) design. This thesis pursues a dual objective. First, it offers methodological contributions to the study of RD designs in the presence of a discrete running variable and to the use of RD techniques in multilevel contexts. Second, it provides empirical evidence on the effect of the school socioeconomic environment on Italian students’ Mathematics achievement, with particular attention to territorial differences among the North, Centre, and South. From a methodological perspective, the thesis addresses issues arising from the discrete nature of school-level ESCS, which generates mass points and reduces the variability needed for accurate local estimates. Conventional aggregation at mass points using the mean can be inadequate when groups contain outliers or exhibit skewed distributions. To overcome this limitation, more robust alternatives are introduced: the median and the medoid. Through a Monte Carlo study, different collapsing strategies—mean, median, and medoid—are compared in terms of performance, stability, and their ability to capture within-group heterogeneity, with the aim of providing practical guidance on the most appropriate approach. A second methodological component concerns the integration of RD with Multilevel Models, necessary to account for the hierarchical structure of educational data, in which students are nested within schools and territories. To combine the local logic of RD with hierarchical modeling, three innovative procedures are proposed: the General Bandwidth Method, the Average Bandwidth Method, and the Weighted Average Bandwidth Method. A second simulation study evaluates their properties, illustrating how each approach handles between-group variability and the selection of the optimal bandwidth. On the empirical side, the thesis exploits the ministerial ESCS cutoff to estimate the causal effect of attending a socioeconomically disadvantaged school on Mathematics achievement—one of the most reliable measures of basic cognitive skills. The RD design allows the effect of the school context to be isolated from individual characteristics, while the multilevel model assesses how this effect varies across territories, contributing to a deeper understanding of the persistent differences among Italy’s macro-regions. Overall, the study aims both to advance methodological discussion on RD designs with discrete running variables and hierarchical structures, and to provide new evidence on the role of the school socioeconomic environment in shaping educational inequalities in Italy, offering useful tools for researchers and policymakers.

Le disuguaglianze educative rappresentano un tema centrale nel dibattito scientifico, poiché l’istruzione incide in modo determinante su occupazione, reddito e salute, contribuendo alla formazione delle principali disparità sociali. Tra i fattori che influenzano i risultati scolastici, lo status socio-economico riveste un ruolo cruciale, come sottolineato fin dalle prime analisi sui peer effects. La letteratura ha mostrato che il contesto scolastico e la composizione sociale delle classi influenzano i livelli di apprendimento attraverso meccanismi di norme condivise, aspettative reciproche e scambio informativo. Tuttavia, identificare rigorosamente tali effetti è metodologicamente complesso. In Italia, i dati INVALSI offrono una risorsa privilegiata per analizzare le disuguaglianze educative, grazie alla disponibilità di test standardizzati e informazioni sul background familiare degli studenti. Il loro indicatore dello status economico, sociale e culturale (ESCS) consente di descrivere il contesto socio-economico sia a livello individuale sia a livello scolastico. Con il Decreto Ministeriale n. 90/2023 è stata introdotta una soglia ufficiale dell’ESCS scolastico, utile a individuare le scuole da considerare in condizione socio-economica svantaggiata. Tale soglia costituisce un’opportunità metodologicamente rilevante, in quanto fornisce un chiaro criterio di assegnazione per applicare un design di Regression Discontinuity (RD). Questa tesi mira a soddisfare un duplice obiettivo. Da un lato, propone contributi metodologici allo studio dei design RD in presenza di running variable discreta e all’utilizzo della tecnica in contesti multilivello. Dall’altro, fornisce evidenza empirica sull’effetto del contesto socio-economico scolastico sui risultati degli studenti italiani in Matematica, con particolare attenzione alle differenze territoriali tra Nord, Centro e Sud. Sul piano metodologico, la tesi affronta il problema derivante dalla natura discreta dell’ESCS scolastico, che genera mass points e riduce la variabilità necessaria per stime locali accurate. L’aggregazione convenzionale ai mass points tramite la media può risultare inadeguata quando i gruppi presentano outlier o distribuzioni asimmetriche. Per ovviare a questo limite si introducono alternative più robuste: la mediana e il medoide. Attraverso uno studio Monte Carlo vengono confrontate diverse strategie di collassamento — media, mediana e medoide — valutandone prestazioni, stabilità e capacità di rappresentare fedelmente l’eterogeneità interna ai gruppi, con l’obiettivo di fornire indicazioni operative sulla scelta dello strumento più appropriato. Un’ulteriore componente metodologica riguarda l’integrazione tra RD e Modelli Multilivello, necessaria per tenere conto della struttura gerarchica dei dati educativi, con studenti annidati in scuole e territori. Per combinare le logiche locali del RD con la modellizzazione gerarchica si propongono tre procedure innovative: il General Bandwidth Method, l’Average Bandwidth Method e il Weighted Average Bandwidth Method. Un secondo studio di simulazione permette di valutarne le proprietà, evidenziando come ciascun approccio gestisca la variabilità tra gruppi e la selezione del bandwidth ottimale. Sul piano empirico, la tesi utilizza il cutoff ministeriale dell’ESCS per stimare in modo causale l’effetto di frequentare una scuola socio-economicamente svantaggiata sui risultati in Matematica, considerata una delle misure più affidabili delle competenze cognitive di base. Il disegno RD consente di isolare l’effetto del contesto scolastico rispetto alle caratteristiche individuali, mentre il modello multilivello permette di analizzare come tale effetto vari tra territori, contribuendo a comprendere meglio le persistenti differenze fra le macro-aree italiane. Nel complesso, il lavoro intende sia avanzare il dibattito metodologico sui disegni RD in presenza di variabili discrete e strutture gerarchiche, sia offrire nuove evidenze sul ruolo del contesto socioeconomico scolastico nella produzione delle disuguaglianze educative in Italia, fornendo strumenti utili a ricercatori e decisori pubblici.

REGRESSION DISCONTINUITY DESIGN: THEORETICAL INSIGHTS AND EMPIRICAL APPLICATIONS TO EDUCATIONAL DATA / Sannino, P.. - (2026 May 25).

REGRESSION DISCONTINUITY DESIGN: THEORETICAL INSIGHTS AND EMPIRICAL APPLICATIONS TO EDUCATIONAL DATA

Sannino, P.
2026-05-25

Abstract

Educational inequality is a central theme in contemporary research, as schooling has a profound influence on employment, income, and health, shaping the main forms of social disparity. Among the factors that affect academic performance, socioeconomic status plays a crucial role, as highlighted from the earliest analyses on peer effects. The literature has shown that school environments and the social composition of classrooms influence learning outcomes through mechanisms such as shared norms, reciprocal expectations, and information exchange. However, rigorously identifying these effects remains methodologically challenging. In Italy, INVALSI data constitute a valuable resource for studying educational inequalities, thanks to the availability of standardized tests and detailed information on students’ family background. The INVALSI Economic, Social, and Cultural Status (ESCS) index enables researchers to describe the socioeconomic context at both the individual and school level. Ministerial Decree No. 90/2023 introduced an official threshold for school-level ESCS, designed to identify schools considered socioeconomically disadvantaged. This threshold is methodologically relevant because it provides a clear assignment rule that can be exploited to implement a Regression Discontinuity (RD) design. This thesis pursues a dual objective. First, it offers methodological contributions to the study of RD designs in the presence of a discrete running variable and to the use of RD techniques in multilevel contexts. Second, it provides empirical evidence on the effect of the school socioeconomic environment on Italian students’ Mathematics achievement, with particular attention to territorial differences among the North, Centre, and South. From a methodological perspective, the thesis addresses issues arising from the discrete nature of school-level ESCS, which generates mass points and reduces the variability needed for accurate local estimates. Conventional aggregation at mass points using the mean can be inadequate when groups contain outliers or exhibit skewed distributions. To overcome this limitation, more robust alternatives are introduced: the median and the medoid. Through a Monte Carlo study, different collapsing strategies—mean, median, and medoid—are compared in terms of performance, stability, and their ability to capture within-group heterogeneity, with the aim of providing practical guidance on the most appropriate approach. A second methodological component concerns the integration of RD with Multilevel Models, necessary to account for the hierarchical structure of educational data, in which students are nested within schools and territories. To combine the local logic of RD with hierarchical modeling, three innovative procedures are proposed: the General Bandwidth Method, the Average Bandwidth Method, and the Weighted Average Bandwidth Method. A second simulation study evaluates their properties, illustrating how each approach handles between-group variability and the selection of the optimal bandwidth. On the empirical side, the thesis exploits the ministerial ESCS cutoff to estimate the causal effect of attending a socioeconomically disadvantaged school on Mathematics achievement—one of the most reliable measures of basic cognitive skills. The RD design allows the effect of the school context to be isolated from individual characteristics, while the multilevel model assesses how this effect varies across territories, contributing to a deeper understanding of the persistent differences among Italy’s macro-regions. Overall, the study aims both to advance methodological discussion on RD designs with discrete running variables and hierarchical structures, and to provide new evidence on the role of the school socioeconomic environment in shaping educational inequalities in Italy, offering useful tools for researchers and policymakers.
25-mag-2026
38
QUANTITATIVE METHODS FOR POLICY EVALUATION
Le disuguaglianze educative rappresentano un tema centrale nel dibattito scientifico, poiché l’istruzione incide in modo determinante su occupazione, reddito e salute, contribuendo alla formazione delle principali disparità sociali. Tra i fattori che influenzano i risultati scolastici, lo status socio-economico riveste un ruolo cruciale, come sottolineato fin dalle prime analisi sui peer effects. La letteratura ha mostrato che il contesto scolastico e la composizione sociale delle classi influenzano i livelli di apprendimento attraverso meccanismi di norme condivise, aspettative reciproche e scambio informativo. Tuttavia, identificare rigorosamente tali effetti è metodologicamente complesso. In Italia, i dati INVALSI offrono una risorsa privilegiata per analizzare le disuguaglianze educative, grazie alla disponibilità di test standardizzati e informazioni sul background familiare degli studenti. Il loro indicatore dello status economico, sociale e culturale (ESCS) consente di descrivere il contesto socio-economico sia a livello individuale sia a livello scolastico. Con il Decreto Ministeriale n. 90/2023 è stata introdotta una soglia ufficiale dell’ESCS scolastico, utile a individuare le scuole da considerare in condizione socio-economica svantaggiata. Tale soglia costituisce un’opportunità metodologicamente rilevante, in quanto fornisce un chiaro criterio di assegnazione per applicare un design di Regression Discontinuity (RD). Questa tesi mira a soddisfare un duplice obiettivo. Da un lato, propone contributi metodologici allo studio dei design RD in presenza di running variable discreta e all’utilizzo della tecnica in contesti multilivello. Dall’altro, fornisce evidenza empirica sull’effetto del contesto socio-economico scolastico sui risultati degli studenti italiani in Matematica, con particolare attenzione alle differenze territoriali tra Nord, Centro e Sud. Sul piano metodologico, la tesi affronta il problema derivante dalla natura discreta dell’ESCS scolastico, che genera mass points e riduce la variabilità necessaria per stime locali accurate. L’aggregazione convenzionale ai mass points tramite la media può risultare inadeguata quando i gruppi presentano outlier o distribuzioni asimmetriche. Per ovviare a questo limite si introducono alternative più robuste: la mediana e il medoide. Attraverso uno studio Monte Carlo vengono confrontate diverse strategie di collassamento — media, mediana e medoide — valutandone prestazioni, stabilità e capacità di rappresentare fedelmente l’eterogeneità interna ai gruppi, con l’obiettivo di fornire indicazioni operative sulla scelta dello strumento più appropriato. Un’ulteriore componente metodologica riguarda l’integrazione tra RD e Modelli Multilivello, necessaria per tenere conto della struttura gerarchica dei dati educativi, con studenti annidati in scuole e territori. Per combinare le logiche locali del RD con la modellizzazione gerarchica si propongono tre procedure innovative: il General Bandwidth Method, l’Average Bandwidth Method e il Weighted Average Bandwidth Method. Un secondo studio di simulazione permette di valutarne le proprietà, evidenziando come ciascun approccio gestisca la variabilità tra gruppi e la selezione del bandwidth ottimale. Sul piano empirico, la tesi utilizza il cutoff ministeriale dell’ESCS per stimare in modo causale l’effetto di frequentare una scuola socio-economicamente svantaggiata sui risultati in Matematica, considerata una delle misure più affidabili delle competenze cognitive di base. Il disegno RD consente di isolare l’effetto del contesto scolastico rispetto alle caratteristiche individuali, mentre il modello multilivello permette di analizzare come tale effetto vari tra territori, contribuendo a comprendere meglio le persistenti differenze fra le macro-aree italiane. Nel complesso, il lavoro intende sia avanzare il dibattito metodologico sui disegni RD in presenza di variabili discrete e strutture gerarchiche, sia offrire nuove evidenze sul ruolo del contesto socioeconomico scolastico nella produzione delle disuguaglianze educative in Italia, fornendo strumenti utili a ricercatori e decisori pubblici.
Davino, Cristina Vistocco, Domenico
File in questo prodotto:
File Dimensione Formato  
SANNINO_Tesi.pdf

accesso aperto

Descrizione: REGRESSION DISCONTINUITY DESIGN: THEORETICAL INSIGHTS AND EMPIRICAL APPLICATIONS TO EDUCATIONAL DATA
Tipologia: Tesi di dottorato
Licenza: Creative commons
Dimensione 8.68 MB
Formato Adobe PDF
8.68 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11393/377753
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact