Ricerca di duplicati tra due tabelle in Excel

Le liste di opposizione sono una componente importante del marketing. Tenerle aggiornate ora non è più difficile e con DedupeWizard diventa possibile anche elaborarle senza difficoltà.

Le liste di opposizione sono il sistema ideale sia per soddisfare il desiderio dei singoli destinatari di non ricevere pubblicità sia per risparmiare. Le liste di opposizione personalizzate consentono inoltre di escludere da specifiche campagne di marketing anche i concorrenti, i propri dipendenti o addirittura i propri clienti consolidati, ad esempio per una campagna promozionale mirata ad acquisire clienti nuovi.

Per elaborare liste di opposizione occorre un programma in grado di eseguire una ricerca fuzzy di duplicati tra due tabelle, come ad esempio DedupeWizard. Con la ricerca di duplicati tra due tabelle è anche possibile sincronizzare liste di indirizzi, ad esempio, per evitare di inviare pubblicità a indirizzi che sono già stati oggetto di una precedente campagna di marketing oppure per trasferire informazioni da una lista di indirizzi a un'altra, come il numero di telefono o il codice cliente, sulla base del risultato della deduplica. La ricerca di duplicati tra due tabelle ha molteplici possibilità di impiego e con DataQualityTools è anche veloce.

Procedere nel seguente modo:

  1. Se non si è già provveduto, da qui è possibile scaricare il DedupeWizard gratuitamente. Installare il programma e richiedere un'attivazione test. In questo modo può lavorare con il programma per una settimana senza alcuna limitazione.
  2. La funzione necessaria è 'Deduplica tra due file'.

    Deduplica tra due file

  3. Dopo aver chiamato questa funzione, selezionare subito il criterio di deduplica. La ricerca di duplicati può essere effettuata per indirizzo postale, numero telefonico o indirizzo e-mail. Selezioniamo l’indirizzo postale.

    Criterio per la ricerca

  4. Dopo aver fatto clic sul pulsante 'Avanti' aprire i due file Excel da modificare.

    Selezionare il file

    Se del file Excel interessato si deve utilizzare un foglio di lavoro diverso dal primo, è possibile selezionarlo successivamente, dalla finestra di dialogo in cui viene effettuata anche l’attribuzione campo.
  5. Dopo aver aperto il file Excel, il programma ci porta automaticamente al passaggio successivo, l'attribuzione campo. Si dovrà indicare al programma quali informazioni trova in quale colonna della tabella, ad esempio qual è la colonna contenente la via o il nome della località. A tal fine, dalle liste di selezione con i nomi delle colonne della tabella si deve selezionare il campo dati che meglio si adatta alla definizione a sinistra.

    Attribuzione campo

    Il programma predefinisce automaticamente questa attribuzione campo sulla base dei nomi delle colonne. Poiché vogliamo cercare duplicati con l'indirizzo postale, anche per tutti i componenti dell'indirizzo postale si dovranno indicare le colonne della tabella da elaborare in cui sono memorizzate tali informazioni. Il risultato dell’attribuzione campo può essere controllato mediante il 'Controllo dell’attribuzione campo', a destra sulla videata.
  6. Per poter eseguire l'attribuzione campo del secondo file Excel, fare clic sul pulsante 'Avanti'. La finestra di dialogo visualizzata è identica alla finestra di dialogo precedente e ha gli stessi comandi. Eseguire l'attribuzione campo in maniera del tutto analoga alla prima tabella.
  7. Con il pulsante di comando 'Avanti', si apre la finestra di dialogo in cui è configurata la funzione effettiva. Qui si deve indicare soprattutto il valore soglia per il massimo scostamento ammesso tra due indirizzi.

    Fattore di corrispondenza

    Dalla deduplica è inoltre possibile escludere singoli componenti dell'indirizzo postale; in questo caso, ovviamente, per ogni componente dell'indirizzo postale da confrontare nell'attribuzione campo eseguita con il passaggio precedente, si deve indicare anche una colonna della tabella da elaborare. Nota: le due tabelle tra le quali si intende eseguire la ricerca di duplicati possono essere strutturate in modo completamente diverso. In una tabella, ad esempio, il numero civico può essere riportato nella stessa colonna della via, mentre nell'altra tabella questa informazione può trovarsi in due colonne separate. L'importante è che nell'attribuzione del campo per queste due tabelle siano specificate tutte e tre le colonne.
  8. Facendo clic sul pulsante 'Avanti' ha quindi inizio la ricerca di duplicati che in breve visualizzerà un riepilogo del risultato.

    Risultato della deduplica

    Se nella tabella da elaborare il programma ha trovato dei duplicati, per iniziare la rielaborazione manuale basta fare clic sul pulsante di comando 'OK'. Altrimenti è opportuno selezionare un valore soglia del grado di corrispondenza più basso e riavviare la deduplica.
  9. Con la 'Rielaborazione manuale' il risultato della deduplica appare in forma di tabella. I record di dati da cancellare sono contrassegnati con una croce rossa, che se necessario può essere eliminata o spostata in un altro record di dati del gruppo di duplicati.

    Deletion flag it

  10. Con un altro clic sul pulsante di comando 'Avanti' si apre la finestra di dialogo con le funzioni che permettono di elaborare ulteriormente il risultato. I record di dati marcati per la cancellazione si potrebbero ad esempio eliminare direttamente dal file di origine con un semplice clic sul pulsante di comando 'Cancellare nel file di origine'.

    Cancellare nel file di origine

La ricerca di duplicati tra due tabelle può essere effettuata anche con DataQualityTools, che offre maggiori possibilità rispetto al DedupeWizard, non solo nella ricerca di duplicati.

Nota: per il DedupeWizard esiste un video didattico che nei comandi del programma introduce la ricerca di duplicati in una tabella.

Per sapere in che modo sia possibile utilizzare il DedupeWizard per effettuare la ricerca di duplicati all'interno di una lista di indirizzi, invitiamo a leggere l'articolo 'Ricerca di duplicati in Excel'.