Sviluppo di modelli predittivi basati su machine learning per l’analisi di outcome neonatali e complicanze gestazionali

Thesis Proposal Details

Supervisor: Giacomo Cappon

Co-supervisor: Marco Catanuso

Co-supervisor Department/Company: DEI

Creation Date: 30/06/2025 14:33

Description

Il lavoro si baserà sull’analisi di un ampio dataset relativo a oltre 20.000 pazienti, con l’obiettivo di sviluppare modelli predittivi per diverse condizioni cliniche, tra cui il diabete gestazionale e l’ammissione in terapia intensiva.

In una fase preliminare verranno identificate ed escluse le variabili non utilizzabili a causa dell’eccessiva incidenza di dati mancanti o di ambiguità nella modalità di raccolta. Le restanti variabili saranno analizzate attraverso i principali indici statistici (media, mediana, moda, deviazione standard) e testate in relazione ai target clinici. 

L’intero flusso seguirà una pipeline standard di machine learning: suddivisione del dataset in training e test, imputazione delle variabili mancanti ed encoding, e costruzione dei modelli predittivi (e.g., Logistic Regression, XGBoost, Random Forest, Decision Tree, AdaBoost, MLP).

Per ciascun modello saranno analizzate le feature più importanti, generate le curve ROC e PR-AUC e valutate le performance in base ai diversi target clinici.

Dataset and methods

Dataset type: Already acquired data

Dataset description: Il dataset in esame comprende oltre 20.000 pazienti e contiene informazioni dettagliate di tipo demografico (ad esempio età, etnia, BMI), dati provenienti da esami clinici effettuati durante la gravidanza (come glicemia, pressione arteriosa, valori ematochimici) e outcome neonatali (tra cui peso alla nascita, indice di Apgar, eventuale ricovero in terapia intensiva).

List of Methods: Logistic Regression, XGBoost, Random Forest, Decision Tree, AdaBoost, MLP

Preparatory Courses

Machine Learning for Bioengineering, Analisi di Dati Biologici

Tags
gestationaldiabetes machinelearning neonataloutcomes opendata python
Back to proposals list