Luca Postiglione

Sono uno studente della Triennale di Informatica che ha deciso di seguire il Tirocinio/Tesi in questo laboratorio.
Docente di riferimento: Alberto Negro
Dottorando di riferimento: Maria Angela Pellegrino


Lavoro di tesi: Syntactical Errors Detection

Il lavoro si basa sulla creazione di una libreria Python/Javascript in grado di individuare (ed eventualmente proporre una correzione) per errori sintattici in collezioni di stringhe omogenee (es: regioni, province, comuni).

Per la realizzazione della libreria si è deciso di sfruttare tecniche di clustering, quindi la prima fase di studio si è basata sulla ricerca di:

  • Individuare algoritmi di clustering in grado di lavorare su stringhe
  • Individuare le metriche per il calcolo della distanza sulle stringhe
  • individuare metriche di valutazione di algoritmi di clustering

Lo studio e l’analisi delle tecniche individuate ha portato alla seguenti scelte per strutturare la libreria:
  • L’implementazione di un algoritmo ibrido per la pre-computazione della matrice delle distanze utilizzando due tecniche (Levenshtein e Fuzzy String Searching), più l’utilizzo di un dizionario relativo al dataset da analizzare;
  • L’utilizzo di AgglomerativeClustering (fornito dalla libreria ScikitLearn) come tecnica di clustering, grazie alla sua alta scalabilità, sia come numero di campioni che di cluster;
  • L’implementazione di 2 algoritmi per individuare il numero giusto di cluster per quel dataset e per correggere gli errori presenti nel dataset;

    Link Github del progetto: https://github.com/isislab-unisa/syntactical-errors-detection