intelligenza artificiale

Dati sintetici: che cosa sono e perché sono importanti

Dati sintetici

Tra le tecnologie più promettenti per il futuro, i dati sintetici sono informazioni prodotte artificialmente da algoritmi per imitare dati reali, operativi o di produzione o per riprodurre eventi reali il più fedelmente possibile sotto il profilo matematico e statistico. Si possono rivelare utili per sopperire alla scarsità, frammentazione o cattiva qualità di dati tradizionali disponibili.

Si prevede che il mercato dei synthetic data continui a crescere fino a quando, intorno al 2025, oltre il 60% dei dati utilizzati nei sistemi di intelligenza artificiale sarà generato sinteticamente. Al momento, i dati sintetici rappresentano solo l’1% dei dati digitali.

Vediamo quali sono gli ambiti di applicazione e i vantaggi offerti da questa promettente tecnologia.

Quali vantaggi offrono i dati sintetici?

I dati sintetici offrono una lunga serie di vantaggi, che illustriamo dettagliatamente di seguito.

Semplificazione del lavoro dei data scientist

Si stima che i data scientist impieghino almeno l’80% del loro tempo a selezionare, ordinare e pulire dati manualmente. Ricorrendo all’uso di dati sintetici sarebbe possibile invertire questa tendenza e dedicare più tempo all’analisi vera e propria, che sta alla base della creazione degli algoritmi.

Tutela della privacy degli utenti

L’utilizzo di dati sintetici permette di evitare problemi legati alla violazione della privacy degli utenti. Facciamo un esempio pratico per spiegare questo concetto. Immaginiamo che una struttura ospedaliera o una clinica privata debbano fornire dati medici a un’azienda informatica per la formulazione di un sistema di diagnosi oncologica basato sull’intelligenza artificiale. Con i synthetic data, in tutto e per tutto simili a dati autentici, gli sviluppatori disporrebbero di un set di informazioni qualitativamente valide da utilizzare nell’elaborazione del sistema, senza dover attingere ai dati clinici e biologici di pazienti reali. Così facendo, gli enti sanitari non rischierebbero di violare la privacy dei pazienti. L’uso di dataset di sintesi che replicano le caratteristiche di quelli reali riduce, pertanto, i vincoli associati all’uso di dati sensibili o regolamentati.

Potenziamento dello sviluppo di modelli di IA

Un altro vantaggio offerto dai synthetic data è quello di poter accelerare e rafforzare lo sviluppo dei modelli di intelligenza artificiale e machine learning. Gli sviluppatori necessitano di dataset di grandi dimensioni e accuratamente etichettati per addestrare tali modelli. Si parla di set di dati con migliaia o addirittura milioni di contenuti.

La raccolta dei dati dal mondo reale può rivelarsi estremamente dispendiosa in termini di tempo, poiché le informazioni devono essere sottoposte a selezione, classificazione, elaborazione e controlli di conformità. Il training delle macchine intelligenti rischia di essere frenato proprio dalla difficoltà di reperire dati facilmente processabili dalle stesse. Con i dati sintetici l’intero processo si semplifica e si accorcia, potendo creare fin da subito informazioni ordinate, pulite e conformi.

Previsione e simulazione di scenari futuri

Con i synthetic data si possono simulare scenari futuri. Con i dati reali, invece, si possono valutare solo eventi già accaduti e che, in quanto tali, potrebbero diventare obsoleti o inattendibili. Facciamo un esempio pratico. L’utilizzo estensivo del remote working favorito dalla pandemia di Covid-19 ha cambiato rapidamente le abitudini degli italiani, determinando una sensibile riduzione degli spostamenti in auto per recarsi sul posto di lavoro. Ne è conseguito un cambiamento dei flussi di veicoli sulle strade e una riduzione delle code nei centri urbani e ai caselli. Ne consegue che i dati storici relativi agli spostamenti in auto degli italiani abbiano perso una parte significativa del loro valore predittivo.

Neutralizzazione dei bias delle intelligenze artificiali

I sistemi di intelligenza artificiale apprendono e migliorano costantemente immagazzinando grandi quantità di informazioni. I synthetic data possono rivelarsi utili per testare se le intelligenze artificiali abbiano pregiudizi o bias. I dati storici possono essere viziati da pregiudizi sociali relativi al contesto e al tempo a cui si riferiscono. Testare le intelligenze artificiali con i synthetic data può aiutare a identificare e correggere eventuali imperfezioni o carenze nei dataset di partenza e scongiurare il rischio che, nel processo di apprendimento, l’IA sviluppi pregiudizi.

Quando usare i dati sintetici?

I synthetic data generati dall’intelligenza artificiale possono essere utilizzati in tutti gli ambiti che necessitano di molti dati per migliorare i propri processi, come per esempio il settore finanziario, assicurativo, energetico, delle telecomunicazioni, del retail e della mobilità urbana.

Sono già parecchie le grandi aziende che utilizzano i dati sintetici, tra cui in primis Amazon per il training dei sistemi di riconoscimento del linguaggio di Alexa. American Express si affida ai synthetic data per individuare transazioni fraudolente. Molte aziende del settore automotive, inoltre, stanno iniziando a utilizzarli per addestrare i sistemi di guida autonoma.