Gudang Data dalam Data Mining (Data Warehouse)

Gudang Data dalam Data Mining (Data Warehouse)

Gudang Data / Data Warehouse

Data Warehouse

Data mining berpotensi tinggi jika data yang tepat dikumpulkan dan disimpan dalam sebuah gudang data (data warehouse). Sebuah gudang data merupakan suatu sistem manajemen basisdata relasional (RDMS) yang didesain khusus untuk memenuhi kebutuhan akan sistem pengolahan transaksi. Data warehouse, secara bebas dapat didefinisikan sebagai tempat penyimpanan data terpusat yang dapat di-queri untuk manfaat bisnis. 

Data warehousing merupakan teknik baru yang powerful yang membuatnya mungkin untuk mengekstrak data operasional yang diarsipkan dan mengatasi ketidakkonsistensian dari format format data warisan yang berbeda. Data warehouse baik untuk mengintregrasikan keseluruhan data sebuah perusahaan, tanpa memperhatikan lokasi, format atau kebutuhan komunikasi yang memungkinkan untuk memasukkan informasi tambahan atau ahli. Ini berarti menghubungkan secara logis antara apa yang dilihat oleh manajer dalam aplikasi sistem informasi pendukung keputusan dan aktifitas operasional perusahaan. 

Dengan kata lain, data warehouse menyediakan data yang siap ditransformasikan dan disimpulkan sedemikian hingga membuatya sesuai untuk aplikasi DSS dan SIM yang lebih efisien. Gudang data biasanya berisi data sejarah, terkumpul dari sumber yang berbeda-beda seperti sistem proses transaksi online-Online Data Transaction Processing (OLTP), sistem warisan, file-file teks dan spreadsheets. Pada data tersebut kemudian dilakukan proses pembersihan untuk akurasi dan konsistensi dan mengelolanya untuk memudahkan dan efisiensi pada query.


Karakteristik Data Warehouse

Menurut bill Inmon, pemilik Building The Data Warehouse dan ahli yang mendalami konsep data warehouse, ada empat karakteristik data warehouse, yaitu :

·         Subject-oriented : Data diorganisasikan menurut subjek dari aplikasi, misalnya sebuah perusahaan asuransi menggunakan data warehouse yang mengorganisasi data mereka sebagai kastemer, premi dan klaim, daripada dengan produk-produk berbeda (otomatif, jiwa, dsb). Data diatur oleh subjek yang hanya mengandung informasi yang diperlukan untuk oengolahan pendukung keputusan.

·         Integrated : Ketika data menempati aplikasi-aplikasi yang terpisah dalam lingkungan operasional, pengkodean data seringkali idak konsisten. Sebagai contoh, dalam satu aplikasi, jender mungkin dikodekan sebagai “m” dan “f”, ada juga dengan 0 dan 1. Saat data dipindahkan dari lingkungan operasionalnya ke dalam data warehouse, mereka akan mengasumsikan suatu konvensi pengkodean dengan konsisten. Misalnya data jender ditransformasikan enjadi “m” dan “f”.

·         Time-variant : Data warehouse terdiri dari suatu tempat untuk menyimpan data yang berusia 5 sampai 10 tahun atau lebih lama, untuk digunakan sebagai komparasi, trend dan peramalan. Data-data ini tidak di-update.


·         Non-volatile: Data yang tidak di-update sesudah mereka memasukkan data warehouse, tetapi hanya dimuat dan diakses.


Proses Dalam Data Warehouse

Tahap pertama dalam data warehousing adalah menyekat informasi operasional sekarang. Misalnya menjaga keamanan dan integrasi aplikasi OLTP mission-crtical saat kita mengakses basis data yan lebih luas. Hasil basisdata atau data warehouse mungkin menghabiskan ratusan gigabyte atau bahkan terabytes dari ruang disk. Apa yang diperlukan kemudian adalah teknik efisien untuk menyimpan dan mengambil kembali sejumlah informasi secara besar-besaran. Organisasi-organisasi yang besar menemukan bahwa hanya sistem pengolahan pararel memberikan bandwidth yang cukup.

Data warehouse mengambil kembali data dari bermacam basisdata operasional yang beraneka ragam. Data kemudian ditransformasikan dan dikirimkan ke data warehouse berdasarkan model yang dipilih (atau definisi pemetaan). Proses transformasi dan perpidahan data yang dijalankan pada saat update data ke warehouse diperlukan sehingga seharusnya ada beberapa bentuk automatisasi untuk mengatur dan menjalankan fungsi-fungsi ini. Informasi yang menggambarkan model dan definisi dari elemen data sumber disebut dengan “metadata”.

 Metadata diartikan sebagai bagaimana end-user menemukan dan memahami data dalam warehouse dan merupakan bagian penting dari warehouse tersebut. Paling tidak, metadata harus terdiri dari :

  • Struktur data
  • Algoritma yang digunakan untuk meringkas (summary)
  •  Dan pemetaan dari lingkungan operasional ke data warehouse-          

Pembersihan data merupakan aspek penting dari pembuatan sebuah data warehouse yang efisien dalam hal menghilangkan aspek-aspek tertentu dari data operasional seperti informasi transaksi leve rendah yang memperlambat waktu query. Tahap pembersihan harus dibuat sedinamis mungkin untuk mengakomodasikan semua tipe query bahkan mungkin saat membutuhkan informasi level rendah. Data harus diekstrak dari sumber produksi pada interval yang tetap dan disatukan secara terpusat kecuali proses pembersihan untuk menghilangkan duplikasi dan beda rekonsil antara bermacam bentuk kumpulan data.

Setelah data dibersihkan kemudian di transfer ke dalam data warehouse yang secara khusus merupakan sebuah basisdata yang besar pada sebuah kotak yang punya performasi tinggi seperti SMP (Symmetric Multi-Processing) atau MPP (Massively Parallel Processing). Jumlah kekuatan perekahan merupakan aspek penting lainnya dari data warehouse karena kompleksitas menjadi bagian dalam pengolahan query ad hoc dan kuantitas data yang luas yang ingin digunakan organisasi dalam warehouse.

 Suatu data warehouse dapat digunakan dalam berbagai cara misalkan digunakan sebagai pusat penyimpanan yang menghadapi pertanyaan-pertanyaan yang dijalankan atau digunakan seperti sebuah pasar data. Pasar data yang merupakan warehouse kecil dapat dibentuk untuk menyediakan himpunan bagian dari toko utama dan meringkas informasi sesuai dengan kebutuhan dari kelompok atau departemen tertentu.

 Secara umum, pendekatan toko pusat menggunakan struktur data yang sangat sederhana dengan asumsi-asumsi yang sangat kecil mengenai hubungan antardata, padahal pasar sering menggunakan basisdata multidimensi yang dapat mempercepat proses query sebagaimana mereka dapat mempunyai struktur data yang mencerminkan sebagia besar pertanyaan-pertanyaan yang serupa.
Banyak vendor mempunyai produk yang menyediakan satu atau lebih fungsi-fungsi data warehouse diatas.

 Meski begitu, dapat juga menggunakan sejumlah kerja-yang-penting dan pemrograman khusus untuk melengkapi kebutuhan operasional antar prduk dari banyak vendor untuk memungkinkan mereka melakukan proses-proses data warehouse yang diperlukan. Implementasi khusus teridiri dari campuran produ-produk dari bermacam suplier.



kata kunci : Gudang Data, Data Warehouse, data mining, skripsi teknik informatika, contoh skripsi, skripsi, contoh skripsi teknik informatika, ilmu skripsi