Ketika perusahaan dituntut mengolah data dan menghasilkan insight bagi bisnis secara cepat, data lifecycle bisa menjadi tantangan berikutnya dalam pengelolaan data. Jika ini tidak ditangani dengan baik, aspek keamanan data bisa menjadi taruhannya.
Seperti prediksi yang sudah sering kita dengar, volume data yang tercipta di seluruh dunia akan terus meningkat. Sampai hari ini, ada sekitar 20 zetabyte data dihasilkan di dunia. Di Indonesia, aktivitas ekonomi digital yang kian marak diperkirakan akan menyumbang peningkatan volume data yang signifikan.
“Contohnya ada perusahaan ride sharing yang mempunyai 3.600 data per kuartal. Perusahaan telekomunikasi menghasilkan hampir dua juta terabyte data traffic hanya di tiga bulan pertama 2020. Dan data-data terus tumbuh di sektor strategis seperti telekomunikasi, perbankan, migas, pemerintahan, kesehatan, dan lain-lain,” papar Fanly Tanto, Country Manager, Cloudera Indonesia dalam sesi wawancara dengan InfoKomputer. Kabar baiknya, menurut Fanly, adalah semakin banyak perusahaan yang telah memahami pentingnya peran data bagi bisnis.
Baca juga: Manfaatkan Big Data, Bank Mandiri Bantu Nasabah & Karyawan Hadapi Krisis COVID-19
Setelah memiliki infrastruktur dan kapabilitas pengelolaan data, salah satu tantangan berikutnya yang perlu diperhatikan oleh organisasi adalah data lifecycle, yang berisi beberapa siklus, seperti data collection, data engineering, data visualization, dan data reporting.
“Pada umumnya, kita mudah tergoda untuk memecahkan masalah data lifecycle di domain masing-masing dengan solusi yang terpisah-pisah,” Fajar Muharandy, System Engineer, Cloudera Indonesi memaparkan tantangan dengan data lifecycle. Godaan ini datang karena kompetisi semakin ketat sehingga perusahaan pun dituntut untuk bisa lebih cepat menghasilkan insight dari data yang ada.
Tim TI atau tim data analytics tergoda untuk memecahkan masalah dengan solusi yang sifatnya “yang penting cepat”. “Jadi misalnya, bagaimana kita harus bisa collect data cepat, lantas kita pakai solusi yang bisa menyelesaikan masalah data collection saja. Ketika kemudian muncul masalah baru, kita cari solusi lagi,” jelas Fajar. Godaan-godaan seperti ini akan berujung pada terbangunnya platform data yang bersifat silo atau terpisah-pisah. Konsekuensi lainnya adalah data bisa terfragmentasi, terduplikasi, dan pada akhirnya dapat mengancam keamanan data itu sendiri.
“Karena kita me-maintain platform yang berbeda-beda dalam runutan data lifecycle tadi, yang jelas time to value kita jadi lebih lamban. Mengapa? Karena tidak semua data berada dalam satu tempat,” Fajar menambahkan.
Terkait pengambilan keputusan berdasarkan data, maka tantangan data lifecycle adalah bagaimana mengalirkan data yang terus bertambah volumenya itu sampai bisa menjadi keputusan, dengan cara yang lebih cepat dan efisien. Platform yang berbeda-beda untuk tiap siklus data berpotensi menghambat kelancaran aliran data untuk sampai pada insight dan keputusan.
Oleh karena itu Cloudera menyarankan agar seluruh daur hidup data dilakukan di satu platform. “Jadi kita load datanya cukup sekali saja. Lalu kita enrich data tersebut, kita define security-nya, semua user mengakses langsung di platform yang sama,” ujar Fajar. User bisa langsung mengolah data di platform komputasi yang memang dirancang untuk berjalan secara parallel dan mengolah data dalam volume besar.
Untuk kebutuhan tersebut, Cloudera menyediakan Cloudera Shared Data Experience (SDX) yang memungkinkan organisasi menyimpan data dengan segala konteksnya, baik aspek metadata, security, governance, dan audit. “Sesuai dengan namanya, Shared Data Experience, daripada kita punya data repository yang berbeda untuk tiap stage di data lifecycle tadi, kenapa kita tidak buat data repository di satu tempat. Dan ketika datanya sudah kita ‘bungkus’ di satu tempat, kita tinggal memanfaatkan data itu untuk berbagai macam kebiutuhan yang ada di data lifecycle tadi,” Fajar menjelaskan.
Baca juga: Sudah Tersedia, Cloudera CDP Private Cloud Percepat Analytics
Bertugas mem-bundling dan mengabstraksikan data dan metadata-nya, SDX merupakan salah satu komponen dalam Cloudera Data Platform (CDP). CDP sendiri terdiri atas komponen-komponen yang dapat menangani masalah di data lifecyle. Misalnya untuk kebutuhan data collection, CDP menyediakan Cloudera Data Flow, atau untuk kebutuhan reporting, tersedia Cloudera Data Warehouse. Cloudera menyediakan tiga opsi deployment CDP: CDP Private Base, CDP Private Cloud, dan CDP Public Cloud.
Menurut Fanly, solusi Cloudera memungkinan penyimpanan data dalam jangka waktu yang lebih lama karena penyimpanan yang lebih fleksibel. “Dulu mungkin bisa simpan data transaksi selama satu sampai tiga bulan karena keterbatasan dari sisi ukuran penyimpana storage. Sekarang bisa sampai tahunan. Dengan ada banyaknya data yang bisa disimpan, memungkinkan instisusi mendapat analisis data yang lebih banyak,” imbuhnya.
Saksikan video tentang tantangan data lifecycle di kanal YouTube InfoKomputer.
Penulis | : | Liana Threestayanti |
Editor | : | Liana Threestayanti |
KOMENTAR