Ripulitura pianificata di duplicati con BatchDeduplicator

Durante le campagne di marketing, in genere è sufficiente eseguire una ripulitura dei duplicati solo dopo che la lista di indirizzi per la campagna è già stata compilata. Talvolta tuttavia è opportuno procedere all'eliminazione di duplicati a intervalli regolari. Con BatchDeduplicator si può.

Procedere nel seguente modo:

  1. Se non si è già provveduto, da qui è possibile scaricare il BatchDeduplicator gratuitamente. Installare il programma e richiedere un'attivazione test. In questo modo può lavorare con il programma per una settimana senza alcuna limitazione.
  2. In primo luogo, si deve creare un nuovo progetto provvisto di tutte le informazioni necessarie per la ripulitura dei duplicati; chiamiamo pertanto la gestione progetti.
  3. Fare clic sul pulsante di comando 'Nuovo progetto' per visualizzare una finestra di dialogo in cui innanzitutto va inserito un nome per il nuovo progetto. Fare clic sul pulsante di comando 'Avanti', quindi selezionare il tipo di progetto. Le opzioni di selezione disponibili sono 'Deduplica in una tabella', 'Deduplica tra due tabelle', 'Deduplica multipla' e 'Lista degli indirizzi errati'. Selezionare 'Deduplica in una tabella'. Dopo aver fatto di nuovo clic su 'Avanti', selezionare, nelle funzioni di deduplica, il criterio da adottare per la ricerca dei duplicati, ossia, ad esempio, l’indirizzo postale o il numero telefonico. Come criterio di deduplica, selezionare qui l'indirizzo postale. Dopo un ultimo clic su 'Avanti’ e infine su 'Terminare', il programma chiama automaticamente 'Elaborare progetto'.
  4. Apriamo qui il file con i dati da elaborare con il pulsante 'Aprire file'. Nel caso di server database (MS SQL Server, MySQL, Oracle, IBM DB2 o PostgreSQL), invece, selezioniamo il server di database appropriato dalla lista di selezione, in 'Formato/Accesso a'. Inserire infine il nome del server database. Dopo aver fatto clic sul pulsante di comando 'Connessione al server', inserire i dati di accesso. Il database e la tabella desiderati infine si selezionano dalle relative liste.
  5. Indicare infine al programma in quale colonna della tabella si trova quale informazione, ad esempio qual è la colonna contenente la via o il nome della località. A tal fine, dalle liste di selezione con i nomi delle colonne della tabella si deve selezionare il campo dati che meglio si adatta alla definizione a sinistra. Il programma predefinisce automaticamente questa attribuzione campo sulla base dei nomi delle colonne. Poiché vogliamo cercare duplicati con l'indirizzo postale, anche per tutti i componenti dell'indirizzo postale si dovranno indicare le colonne della tabella da elaborare in cui sono memorizzate tali informazioni. Il risultato dell’attribuzione campo può essere controllato mediante il 'Controllo dell’attribuzione campo', a destra sulla videata.
  6. Con il pulsante di comando 'Avanti', si apre la finestra di dialogo in cui è configurata la funzione effettiva. Qui si deve indicare soprattutto il valore soglia per il massimo scostamento ammesso tra due indirizzi. Dalla deduplica è inoltre possibile escludere singoli componenti dell'indirizzo postale; in questo caso, ovviamente, per ogni componente dell'indirizzo postale da confrontare nell'attribuzione campo eseguita con il passaggio precedente, si deve indicare anche una colonna della tabella da elaborare.
  7. Si dovrà infine indicare al programma in che modo deve ulteriormente elaborare il risultato della deduplica, sia che si tratti semplicemente di marcare oppure di eliminare direttamente dal file di origine i record di dati riconosciuti come doppi. Un clic sul pulsante 'Avanti' porta al riepilogo delle funzioni di elaborazione disponibili. Qui selezioniamo 'Registro di cancellazione standard' e 'File dei risultati'. Per entrambi dobbiamo specificare un nome di file. I dati ripuliti appariranno poi nel file dei risultati.
  8. Bene, nel riepilogo dei progetti disponibili, davanti al nostro progetto ora è visibile un segno di spunta verde: il progetto è completo e può essere eseguito. Per iniziare il progetto, premiamo il pulsante di comando 'Elaborare progetto' che dà immediatamente avvio all'esecuzione.

    Nel nostro caso, tuttavia, il progetto non deve partire subito bensì, automaticamente, ogni lunedì alle 20:00. Per configurare il progetto di conseguenza, facciamo clic sul pulsante 'Chiudere' per chiudere la gestione progetti, dopo di che selezioniamo la funzione 'Pianificazione delle attività'. Nella riga che riporta il nostro progetto, facciamo clic sul pulsante su cui al momento appare ancora 'non eseguire'. Si aprirà una finestra di dialogo in cui selezioneremo 'eseguire settimanalmente' e quindi 'eseguire il lunedì alle 20:00'. Prima di chiudere la funzione 'Pianificazione delle attività', il programma chiede se il BatchDeduplicator deve essere avviato insieme al sistema operativo perché i progetti pianificati possono essere avviati ed elaborati automaticamente solo in quel caso.

    Quando i progetti vengono elaborati automaticamente da BatchDeduplicator, si genera un registro di esecuzione in cui è indicato con precisione cosa è stato fatto con il progetto e quando e che comprende un registro di cancellazione e un backup creato automaticamente con la cancellazione o la modifica dei record. Il registro di esecuzione può essere chiamato nella finestra principale con il pulsante corrispondente.

    Il BatchDeduplicator offre infine la possibilità di avvisare l'utente via e-mail quando un progetto è stato elaborato automaticamente. Questa funzione può essere configurata mediante il relativo pulsante di comando, nella finestra principale.

Per sapere in che modo sia possibile utilizzare il DeduplicationWizard per effettuare la ricerca di duplicati all'interno di una lista di indirizzi, invitiamo a leggere l'articolo 'Ricerca di duplicati in Excel'. Il nostro articolo 'Ricerca di duplicati tra due tabelle in Access' spiega invece come cercare duplicati in due tabelle utilizzando DataQualityTools.