Penulis: Setia Pramana, Ph.D (Associate Professor Politeknik Statistika STIS, Jakarta)
“Data is the new oil”.
Data saat ini memang menjadi salah satu komoditas yang lebih berharga dari pada minyak. Produksi data yang sangat masif, baik yang terstruktur maupun yang tidak terstruktur, dan dari berbagai sumber yang sangat bervariasi, melahirkan tantangan dalam tata kelola maupun infrastruktur data.
Jumlah dan jenis data yang masif tersebut tidak dapat serta merta dianalisis. Data mentah (raw data) masih berisi campuran informasi berharga dan juga sampah. Hasil analisis data yang belum dibersihkan akan menghasilkan analisis yang salah dan cenderung menyesatkan (garbage in, garbage out).
Seperti halnya pengolahan minyak, data juga memerlukan proses kompleks yang disebut data refinery. Tahapan ini bertujuan menghasilkan data yang siap digunakan sebagai bahan baku analisis data dan sesuai dengan kebutuhan bisnis dan pengguna.
Data Refinery
Secara definisi, Data Refining atau Pengilangan Data adalah sebuah proses panjang dan terintegrasi yang dimulai dengan (1) pengumpulan data dari berbagai sumber dan berbagai format, (2) preprocessing dan pengayaan data dengan menggabungkan data dan informasi dari berbagai himpunan data, (3) pengintegrasian data dalam sebuah tempat penyimpanan (repository) yang akan dapat diakses untuk (4) analisa dan (5) pengambilan keputusan dan tindakan yang diperlukan.
Berikut adalah tahapan dari data refinery.
1. Pengumpulan Data (Data Collection)
Proses pengumpulan data secara konvensional didapat dari kuesioner/form yang kemudian di-input ke dalam sebuah basis data (atau saat ini dapat melalui aplikasi kuesioner, Computer Aided Personal Interviewer).
Selain pengumpulan data dari basis data, saat ini data dapat diperoleh dengan API (Application Programming Interface) yang memungkinkan developer mengintegrasikan dua bagian dari aplikasi atau dengan aplikasi yang berbeda secara bersamaan.
Tantangan berikutnya adalah banyaknya ragam tipe data (baik terstruktur dan tidak terstruktur) yang dapat dikumpulkan seperti gambar, teks, suara, maupun video yang dihasilkan secara streaming, real-time, semi real-time, maupun secara batch. Dengan sangat masifnya data saat ini, diperlukan storage yang mampu mengakomodasi volume extra besar dengan berbagai tipe storage seperti NoSQL, Hadoop, RDBMS, dan MPP.
Penulis | : | Administrator |
Editor | : | Wisnu Nugroho |
KOMENTAR