Purtroppo, però, gli indirizzi sono dati che normalmente non è facile associare ad altri record. Di norma non esistono criteri univoci per farlo. Gli indirizzi, infatti, non solo sono composti da diversi elementi, ma spesso vengono anche registrati in modo diverso. Gli errori di ortografia sono solo uno dei problemi. A questi si aggiungono parole invertite, abbreviazioni, omissioni e aggiunte e, in casi estremi, persino sinonimi come nomignoli. Per poter eseguire un arricchimento degli indirizzi, è tuttavia necessaria una relazione il più possibile univoca tra i due set di dati da utilizzare a tale scopo. Ciò limita notevolmente la scelta degli strumenti adatti a questo scopo.
Infine, c'è anche il problema che i dati da utilizzare per l'arricchimento degli indirizzi potrebbero essere disponibili in formati diversi. La fonte di dati di destinazione per l'arricchimento potrebbe essere, ad esempio, un elenco di indirizzi memorizzato in un file Excel. E la fonte dei dati potrebbe essere un file di testo. Oppure si tratta di dati provenienti da un database gestito da un server di database come MySQL o SQL Server. Naturalmente, prima dell'arricchimento vero e proprio, in una prima fase di lavoro si potrebbe fare in modo che entrambi i set di dati siano disponibili nello stesso formato, esportandoli e/o convertendoli in modo appropriato. È però molto più semplice rinunciare a questo passaggio e poter elaborare i dati direttamente nel formato in cui sono disponibili.
Tutto questo e molto altro ancora è possibile con DataQualityTools. Per arricchire i dati degli indirizzi, procedere come segue:
- Se non si è già provveduto, da qui è possibile scaricare il DataQualityTools gratuitamente. Installare il programma e richiedere un'attivazione test. In questo modo può lavorare con il programma per una settimana senza alcuna limitazione.
- La funzione di cui abbiamo bisogno per arricchire l'elenco degli indirizzi si trova nel menu nel blocco "Confronto tra due tabelle". Selezioniamo la funzione "Confronto tramite indirizzo postale" per l'arricchimento degli indirizzi:

- Dopo aver chiamato questa funzione, viene innanzitutto visualizzata la gestione progetti. Inserire qui un nuovo progetto con un nome di progetto a piacere e quindi fare clic sul pulsante di comando 'Avanti'.
- Nel passaggio successivo, apriamo prima il file con l'elenco degli indirizzi da elaborare utilizzando il pulsante "Apri file":

Sono possibili file Excel, Access, dBase, CSV e di testo.
Nel caso di server di database (MS SQL Server, MySQL, MariaDB, Oracle, Azure SQL o PostgreSQL), selezionare invece prima il server di database corrispondente dall'elenco di selezione in "Formato / Accesso a". Quindi inserire il nome del server di database. Dopo aver cliccato sul pulsante "Connetti al server", inserire i dati di accesso. Infine, selezionare il database desiderato e la tabella corrispondente dagli elenchi di selezione. - Successivamente, è necessario indicare al programma in quale colonna della tabella si trovano le informazioni, ad esempio in quale colonna è riportato il nome della via o della località. A tal fine, è necessario selezionare dall'elenco di selezione con i nomi delle colonne della tabella il campo dati che meglio corrisponde alla denominazione riportata a sinistra:

Il programma esegue automaticamente una preassegnazione di questa mappatura dei campi in base ai nomi delle colonne. Poiché vogliamo cercare i duplicati tramite l'indirizzo postale, è necessario specificare anche per tutti i componenti dell'indirizzo postale le colonne della tabella da elaborare in cui sono memorizzate queste informazioni. Il risultato della mappatura dei campi può essere controllato utilizzando il "Controllo della mappatura dei campi", che si trova nella metà destra dello schermo. - Per specificare la seconda tabella, fare clic sul pulsante "Avanti". La finestra di dialogo che appare è identica alla precedente e si utilizza allo stesso modo. Specificare qui la seconda tabella ed eseguire l'assegnazione dei campi in modo analogo alla prima tabella.
- Cliccando sul pulsante "Avanti" si accede alla finestra di dialogo in cui viene configurata la funzione vera e propria. Qui occorre innanzitutto specificare il valore soglia per la deviazione massima consentita tra due indirizzi.

Inoltre, è possibile escludere dalla comparazione singoli elementi dell'indirizzo postale. Naturalmente, per ogni elemento dell'indirizzo postale da confrontare, è necessario specificare una colonna delle due tabelle nell'assegnazione dei campi effettuata nei due passaggi precedenti.
Nota: le due tabelle tra cui deve essere eseguita la ricerca dei duplicati possono avere una struttura completamente diversa. Ad esempio, in una tabella il numero civico potrebbe trovarsi nella stessa colonna della via, mentre nell'altra tabella queste informazioni potrebbero trovarsi in due colonne separate. L'importante è che nell'assegnazione dei campi per queste due tabelle siano specificate tutte e tre le colonne. - La tabella che abbiamo specificato per prima nel programma è normalmente quella in cui vengono cercati gli indirizzi della seconda tabella.

Per impostazione predefinita, in questo caso, durante l'arricchimento i dati di questa tabella vengono trasferiti nella seconda tabella. Tuttavia, è possibile modificare questa impostazione. Da un lato, è possibile modificare la direzione di allineamento nel programma. Se si modifica la direzione, i record della seconda tabella non vengono più cercati nella prima tabella, ma quelli della prima tabella vengono cercati nella seconda. Inoltre, è possibile specificare in un secondo momento, durante la configurazione dell'arricchimento degli indirizzi, da quale tabella devono essere trasferiti i dati all'altra tabella. - Cliccando sul pulsante "Avanti" si avvia la ricerca dei duplicati. Non ci vorrà molto e verrà visualizzato un riepilogo dei risultati.

Se il programma ha trovato duplicati tra le tabelle da elaborare, cliccando sul pulsante "OK" si aprirà la finestra di dialogo con le funzioni che consentono di elaborare ulteriormente il risultato. In caso contrario, è necessario selezionare un valore soglia più basso per il grado di corrispondenza e avviare nuovamente la sincronizzazione. - Nella finestra di dialogo con le funzioni che consentono di elaborare ulteriormente il risultato, nella parte superiore è presente un pulsante con la dicitura "Post-elaborazione manuale". Qui il risultato della comparazione viene visualizzato sotto forma di tabella. I record da eliminare sono contrassegnati da una croce rossa, che può essere cancellata se necessario.

- Infine, il risultato deve essere ulteriormente elaborato. Come già accennato in precedenza, vogliamo arricchire i dati degli indirizzi, ovvero trasferire determinate informazioni da un database all'altro sulla base del risultato del confronto. A tal fine, selezioniamo la funzione corrispondente cliccando prima su "Funzioni di arricchimento":

E poi su "Arricchire nella tabella di origine":
- La tabella in cui vengono scritti i dati (= tabella di destinazione) è, nel nostro caso, la tabella "sample1.xls":

I dati vengono trasferiti dal record senza contrassegno di cancellazione al record con contrassegno di cancellazione (vedere la tabella con il risultato come descritto al punto 10):
Per arricchire gli indirizzi, ora dobbiamo solo indicare al programma quali informazioni deve scrivere e dove. A tal fine, aggiungiamo una o più coppie di colonne:
Ad esempio, le informazioni della colonna "Tel" della tabella di origine potrebbero essere scritte nel campo dati "Result_A" della tabella di destinazione e le informazioni della colonna"Email" nel campo dati "Result_B".
In entrambi i casi, il contenuto del campo dati di destinazione deve essere sovrascritto, se necessario, con le informazioni della tabella di origine (= "Azione"):
- Opzionalmente, nei record arricchiti con informazioni aggiuntive è possibile inserire un'indicazione che fornisca informazioni sulla provenienza di tali dati. Questa indicazione è necessaria per poter soddisfare pienamente il diritto di accesso ai dati personali e quindi per ottemperare ai requisiti di varie leggi sulla protezione dei dati, come ad esempio il GDPR (Regolamento generale sulla protezione dei dati).

A questo punto sono disponibili tutte le informazioni necessarie per l'arricchimento degli indirizzi. Cliccando sul pulsante "Elabora dati" si avvia il processo.
Nota: per il DataQualityTools esiste un video didattico che nei comandi del programma introduce la ricerca di duplicati in una tabella.

