Per farlo, occorre innanzitutto disporre del progetto che verrà avviato successivamente dalla riga di comando. Per crearlo, procedere come segue:

  1. Se non si è già provveduto, da qui è possibile scaricare il BatchDeduplicator gratuitamente. Installare il programma e richiedere un'attivazione test. In questo modo può lavorare con il programma per una settimana senza alcuna limitazione.
  2. In primo luogo, si deve creare un nuovo progetto provvisto di tutte le informazioni necessarie per la ripulitura dei duplicati; chiamiamo pertanto la gestione progetti.



  3. Fare clic sul pulsante di comando 'Nuovo progetto' ...

    Creare un nuovo progetto

    ... per visualizzare una finestra di dialogo in cui innanzitutto va inserito un nome per il nuovo progetto.

    Creare un nuovo progetto - nome per il progetto

    Fare clic sul pulsante di comando 'Avanti', quindi selezionare il tipo di progetto. Le opzioni di selezione disponibili sono 'Deduplica in una tabella', 'Deduplica tra due tabelle', 'Deduplica multipla' e 'Lista degli indirizzi errati'. Selezionare 'Deduplica in una tabella'.

    Creare un nuovo progetto - tipo di progetto

    Dopo aver fatto di nuovo clic su 'Avanti', selezionare, nelle funzioni di deduplica, il criterio da adottare per la ricerca dei duplicati, ossia, ad esempio, l’indirizzo postale o il numero telefonico. Come criterio di deduplica, selezionare qui l'indirizzo postale.

    Creare un nuovo progetto - criterio da adottare per la ricerca dei duplicati

    Dopo un ultimo clic su 'Avanti’ e infine su 'Terminare', il programma chiama automaticamente 'Elaborare progetto'.
  4. Apriamo qui il file con i dati da elaborare con il pulsante 'Aprire file'.

    Origine dati Access

    Nel caso di server database (MS SQL Server, MySQL, Oracle o PostgreSQL), invece, selezioniamo il server di database appropriato dalla lista di selezione, in 'Formato/Accesso a'. Inserire infine il nome del server database. Dopo aver fatto clic sul pulsante di comando 'Connessione al server', inserire i dati di accesso. Il database e la tabella desiderati infine si selezionano dalle relative liste.
  5. Indicare infine al programma in quale colonna della tabella si trova quale informazione, ad esempio qual è la colonna contenente la via o il nome della località. A tal fine, dalle liste di selezione con i nomi delle colonne della tabella si deve selezionare il campo dati che meglio si adatta alla definizione a sinistra.

    Attribuzione campo

    Il programma predefinisce automaticamente questa attribuzione campo sulla base dei nomi delle colonne. Poiché vogliamo cercare duplicati con l'indirizzo postale, anche per tutti i componenti dell'indirizzo postale si dovranno indicare le colonne della tabella da elaborare in cui sono memorizzate tali informazioni. Il risultato dell’attribuzione campo può essere controllato mediante il 'Controllo dell’attribuzione campo', a destra sulla videata.
  6. Con il pulsante di comando 'Avanti', si apre la finestra di dialogo in cui è configurata la funzione effettiva. Qui si deve indicare soprattutto il valore soglia per il massimo scostamento ammesso tra due indirizzi.

    Fattore di corrispondenza

    Dalla deduplica è inoltre possibile escludere singoli componenti dell'indirizzo postale; in questo caso, ovviamente, per ogni componente dell'indirizzo postale da confrontare nell'attribuzione campo eseguita con il passaggio precedente, si deve indicare anche una colonna della tabella da elaborare.
  7. Si dovrà infine indicare al programma in che modo deve ulteriormente elaborare il risultato della deduplica, sia che si tratti semplicemente di marcare oppure di eliminare direttamente dal file di origine i record di dati riconosciuti come doppi. Un clic sul pulsante 'Avanti' porta al riepilogo delle funzioni di elaborazione disponibili. Qui selezioniamo 'Registro di cancellazione standard' e 'File dei risultati'.

    Elaborazione dei risultati

    Per entrambi dobbiamo specificare un nome di file. I dati ripuliti appariranno poi nel file dei risultati.
  8. Bene, nel riepilogo dei progetti disponibili, davanti al nostro progetto ora è visibile un segno di spunta verde: il progetto è completo e può essere eseguito. Per iniziare il progetto, premiamo il pulsante di comando 'Elaborare progetto' che dà immediatamente avvio all'esecuzione.

    Elaborare progetto

Bene, ora abbiamo il progetto che deve essere avviato dalla riga di comando. Ora ci serve solo il comando da inserire nella riga di comando per avviare il progetto:

  1. Chiudete innanzitutto la gestione dei progetti. Quindi richiamate la funzione 'Parametri della riga di comando' dal menu principale:

    Parametri della riga di comando

  2. Selezionate il progetto che deve essere avviato dalla riga di comando. Quindi cliccare sul pulsante 'Generare comando per avviare BatchDeduplicator con la figa di comando':

    Generare parametri della riga di comando

  3. Il comando generato dovrebbe essere simile a questo:

    "C:\Program Files (x86)\DataQualityApps\BatchDeduplicator8\BatchDeduplicator.exe" -exec 100


Se necessario, è possibile aggiungere i seguenti parametri a questo comando:

  • -file1=“<nome file>”: il nome file specificato con questo parametro sostituisce il nome file della prima tabella del progetto da elaborare. Il nuovo file/tabella deve contenere almeno tutti i campi dati utilizzati nel progetto in questione.
  • -nobackup: se viene specificato questo parametro, quando si richiama il programma non viene creato alcun backup del file prima che questo venga modificato.
  • -nolog: se viene specificato questo parametro, durante l'esecuzione del programma non verrà creato alcun protocollo.
  • -noemail: se viene specificato questo parametro, quando si richiama il programma non viene inviata alcuna e-mail di notifica.

È ovviamente comodo poter elaborare un progetto senza supervisione. Tuttavia, se dovesse verificarsi un problema, è naturale voler essere informati. Per sapere come impostare un'email di notifica in BatchDeduplicator, consultare l'articolo 'Configurare un'email di notifica'.