venerdì 16 ottobre 2009

FUNZIONE DELL’ ETL E I PRINCIPALI TOOL SOFTWARE DI ETL

L’ETL è la sigla di “Extract Transform Load” e come si può capire fa riferimento ai processi di estrazione, trasformazione e caricamento dei dati in un sistema di sintesi (data warehouse, data mart).

Il primo processo consiste nell’estrazione di dati dalle sorgenti quali database transazionali (OLTP), comuni file di testo o da altri sistemi informatici(tipo sistemi di Erp o Crm).

Una volta estratti i dati si passa al processo di trasformazione di questi, lo scopo di questo processo è quello di consolidare i dati, in modo tale che siano aderenti alla logica di business del sistema di analisi per cui viene sviluppato.

In poche parole questo secondo processo consiste in una serie di passaggi. Si inizia selezionando solo i dati che interessano al sistema, poi si passa alla normalizzazione dei dati, nel tradurre dati codificati, derivare nuovi dati calcolati, eseguire degli accoppiamenti tra dati recuperati da differenti tabelle e infine raggruppare i dati.

Occorre prestare particolare attenzione alla granularità delle informazioni da memorizzare nella stuttura a valle. Queste infatti, non solo devono essere aggregate in modo da non avere un dettaglio eccessivo, cosa che potrebbe portare ad un decadimento delle prestazioni delle interrogazioni effettuate sul sistema, ma devono anche mantenere una granularità etlche consenta di effettuare le necessarie analisi sui dati.

Il processo di estrazione, trasformazione e caricamento è importante perchè permette alle aziende di ottenere informazioni strategiche che ne permettono il suo sviluppo, infatti offre un supporto tecnico e analitico che permette la giusta flessibilità per andare oltre le mere trasformazioni “pre-pacchettizzate” e costruire delle routine di trasformazione ad hoc secondo le specifiche esigenze aziendali.

I principali benefici che si ottengono dal processo di ETL sono:

* riduzione del tempo per condurre attività di Business Intelligence grazie alla rapida generazione di Data Warehouse, Data Mart e flussi di dati
* controlli sui costi per l’integrazione dei dati, sviluppo dei processi ETL (Extract, Transform and Load) e manutenzione grazie a software solidi e affidabili che favoriscono la collaborazione e la gestione dei metadati comuni dall’inizio alla fine del flusso dei dati
* creazione di processi ETL riutilizzabili, facilmente modificabili e contenenti già al proprio interno robuste funzionalità per la qualità e correttezza dei dati
* incremento del ritorno sugli investimenti IT già effettuati grazie alla scalabilità multipiattaforma e alla interoperabilità standard fra applicazioni ed ambienti operativi.

Il mercato propone oggi alle aziende diversi tool software di ETL, tra i principali devono essere menzionati quelli sviluppati da Microsoft (SQL Server 2005) ed Oracle. Per quel che riguarda Microsoft SQL Server 2005 fornisce una piattaforma di estrazione, trasformazione e caricamento denominata SQL Server Integration Services (SSIS) che si propone di offrire alle organizzazioni la possibilità di ottenere un vantaggio competitivo attraverso applicazioni di ETL che consentono di sfruttare le potenzialità offerte dalla suite di prodotti Microsoft. NET. Invece Oracle ha da poco sviluppato una piattaforma ,Oracle Data Integration Suite, con lo scopo di garantire alle aziende l’integrazione dei dati attraverso strumenti volti ad ottimizzare il data management, tra i quali ad es. ELT e DQ (Data Quality).

Nessun commento:

Posta un commento