Supervisor: Giacomo Cappon
Co-supervisor: Marco Catanuso
Co-supervisor Department/Company: DEI
Creation Date: 30/06/2025 14:33
Il lavoro si baserà sull’analisi di un ampio dataset relativo a oltre 20.000 pazienti, con l’obiettivo di sviluppare modelli predittivi per diverse condizioni cliniche, tra cui il diabete gestazionale e l’ammissione in terapia intensiva.
In una fase preliminare verranno identificate ed escluse le variabili non utilizzabili a causa dell’eccessiva incidenza di dati mancanti o di ambiguità nella modalità di raccolta. Le restanti variabili saranno analizzate attraverso i principali indici statistici (media, mediana, moda, deviazione standard) e testate in relazione ai target clinici.
L’intero flusso seguirà una pipeline standard di machine learning: suddivisione del dataset in training e test, imputazione delle variabili mancanti ed encoding, e costruzione dei modelli predittivi (e.g., Logistic Regression, XGBoost, Random Forest, Decision Tree, AdaBoost, MLP).
Per ciascun modello saranno analizzate le feature più importanti, generate le curve ROC e PR-AUC e valutate le performance in base ai diversi target clinici.
Dataset type: Already acquired data
Dataset description: Il dataset in esame comprende oltre 20.000 pazienti e contiene informazioni dettagliate di tipo demografico (ad esempio età , etnia, BMI), dati provenienti da esami clinici effettuati durante la gravidanza (come glicemia, pressione arteriosa, valori ematochimici) e outcome neonatali (tra cui peso alla nascita, indice di Apgar, eventuale ricovero in terapia intensiva).
List of Methods: Logistic Regression, XGBoost, Random Forest, Decision Tree, AdaBoost, MLP
Machine Learning for Bioengineering, Analisi di Dati Biologici