PROPOSTE DI TESI e/o STAGE

Tesi magistrali su Data Citation (Ingegneria Informatica)

 
 
Immagine Silvello Gianmaria
Tesi magistrali su Data Citation (Ingegneria Informatica)
di Silvello Gianmaria - venerdì, 28 aprile 2017, 15:14
 

La tematica di ricerca denominata "data citation" è in grande crescita e presenta diversi problemi computazionali che richiedono soluzioni informatiche innovative [CACM2016]. Recentemente, sono state proposte diverse soluzioni per la creazione automatica di citazioni dei dati basate principalmente su metodi di "query rewriting" per le basi di dati [CIDR2017] e su tecniche di apprendimento automatico (machine learning) per dati gerarchici (XML) [JASIST2016]. 

Questi metodi sono ancora iniziali e diverse problematiche, ad esempio legate alla citazione di grafi (dati in formato RDF) e all'utilizzo di tecniche di apprendimento automatico per la creazione di citazioni per database relazionali, sono ancora aperte. 

Sono disponibili tesi di ricerca per studenti magistrali di ingegneria informatica che riguardano  aspetti realizzativi di soluzioni per la citazione dei dati, aspetti metodologici e di modello e l'applicazione di soluzioni di data citation a dataset scientifici in campo farmacologico, medico, biologico, fisico e del mondo dei dati culturali. 

Le tesi proposte riguardano aspetti di ricerca collegati al "versioning" di dataset in formato RDF, all'identificazione e all'accesso di porzioni di grafi RDF e alla generazione automatica di "citation snippets" (i.e., descrizioni testuali che contengono elementi contestuali di rilievo per costruire la citazione di un dato) a partire da un singolo nodo di un grafo RDF.

Inoltre, altre proposte di tesi riguardano tecniche di apprendimento automatico per la citazione di database relazionali con granularità variabile. In questo contesto, si potrà lavorare sull'applicazione di tecniche di machine learning ai database relazionali, sulla realizzazione di algoritmi efficienti per la citazione dei dati basati su viste di dati relazionali e sulle connessioni esistenti tra le metodologie di "data provenance" e di "data citation". 

Requisiti: È necessario aver seguito e superato il corso basi di dati (triennale o magistrale). È preferibile aver seguito e superato anche il corso di reperimento dell'informazione. Si richiede la  conoscenza di almeno un linguaggio di programmazione (e.g., Java e/o Python).

Per maggiori informazioni scrivere a Gianmaria Silvello: silvello@dei.unipd.it

Riferimenti utili:

Introduzione al problema: [CACM2016] Buneman, P., Davidson, S. B., and Frew, J. (2016). Why Data Citation is a Computational Problem. Comm. of the ACM (CACM), 59(9):50–57. http://cacm.acm.org/magazines/2016/9/206243-why-data-citation-is-a-computational-problem/fulltext

Approccio DB relazionale: [CIDR2017] S. Davidson, D. Deutch, T. Milo and G. Silvello (2017). A Model for Fine-Grained Data Citation.  Proc. of the biennial Conference on Innovative Data Systems Research (CIDR 2017), accepted for publication, 2017. http://www.dei.unipd.it/~silvello/papers/2017-CIDR_DDMS.pdf

Approccio Machine Learning: [JASIST2017]  G. Silvello (2017). Learning to Cite Framework: How to Automatically Construct Citations for Hierarchical Data,  Journal of the Association for Information Science and Technology (JASIST), early view, 2017. http://www.dei.unipd.it/~silvello/papers/2016-DataCitation-JASIST-Silvello.pdf http://onlinelibrary.wiley.com/doi/10.1002/asi.23774/full