Data adalah fondasi utama bagi sistem atau aplikasi artificial intelligence (AI). Namun memiliki data saja ternyata tidak cukup, terutama dalam memastikan AI dapat merespons dengan cepat dan tepat di tengah lingkungan bisnis yang terus berubah.
Di lingkungan bisnis modern, teknologi data streaming kini menjadi semakin penting untuk memastikan AI berfungsi secara optimal. Data streaming sendiri merupakan proses mengirimkan dan memproses data secara kontinu dan real-time dari berbagai sumber ke sistem atau aplikasi yang membutuhkannya.
Dari definisi tersebut tergambar persoalan pada data yang ingin dijawab oleh teknologi data streaming. Ketika aplikasi yang digunakan oleh perusahaan semakin banyak dan beragam, muncul persoalan penyebaran (sprawl) database, di setiap aplikasi memiliki database yang berbeda dan terpisah.
Kondisi ini berpotensi menimbulkan tantangan dalam integrasi data antara berbagai sistem. Di sektor perbankan, misalnya, diperlukan integrasi data antara sistem core banking, kartu kredit, pinjaman, dan layanan perbankan lainnya. Ketika sistem-sistem ini tidak dapat berkomunikasi satu sama lain, data yang diakses dapat menjadi tidak terupdate atau tidak sinkron, sehingga menimbulkan masalah bagi pengguna. Di sektor perbankan, hal ini dapat berdampak pada kepercayaan nasabah dan reputasi bank.
Cara Kafka Atasi Penyebaran Database
Masalah fundamental inilah yang kemudian coba dipecahkan oleh Confluent, sebuah perusahaan pengembang platform data streaming berbasis teknologi Apache Kafka. Awalnya teknologi ini dikembangkan di LinkedIn oleh Jay Kreps, Neha Narkhede, dan Jun Rao pada tahun 2010 untuk menangani kebutuhan pipeline data real-time dan event streaming yang semakin meningkat di LinkedIn. Tujuan utamanya adalah membangun platform yang mampu memroses aliran data terdistribusi dengan throughput tinggi secara efisien.
Pada tahun 2011, LinkedIn merilis Kafka sebagai software open source di bawah naungan Apache Software Foundation, sehingga dapat digunakan oleh komunitas teknologi yang lebih luas. Para penciptanya, yaitu Jay Kreps, Neha Narkhede, dan Jun Rao kemudian meninggalkan LinkedIn dan mendirikan Confluent pada tahun 2014 untuk menyediakan dukungan dan pengembangan lebih lanjut bagi Kafka, memperluas fiturnya, dan membuatnya lebih mudah diimplementasikan dalam skala besar di berbagai industri.
Nah, bagaimana Apache Kafka memecahkan tantangan penyebaran database dan berbagai implikasinya? "Cara Kafka atau data streaming memecahkan masalah itu adalah dengan satu cara yang menurut kami sangat sangat elegan” jelas Rully Moulany, Area Vice President Asia, Confluent dalam sesi wawancara khusus dengan InfoKomputer beberapa waktu lalu.
Rully memaparkan ada dua aspek utama dalam teknologi Kafka. Pertama adalah Kafka memiliki kemampuan real-time processing sehingga Kafka memungkinkan semua komunikasi dan pertukaran data antara aplikasi terjadi secara real-time. Hal ini memastikan bahwa data dapat diakses dan diproses secepat mungkin tanpa penundaan.
Aspek kedua adalah asynchronous communication. Kafka memungkinkan komunikasi asinkron antara aplikasi. Artinya, ketika satu aplikasi meminta data, aplikasi tersebut tidak perlu menunggu respons dari aplikasi tujuan untuk melanjutkan proses lainnya. Menurut Rully, kemampuan ini sangat bermanfaat ketika ada banyak aplikasi yang saling bergantung. Bayangkan ketika digunakan sistem sinkron, komunikasi bisa menjadi "blocking" atau terhambat jika harus menunggu aplikasi lain selesai memroses.
“Jadi hal itu sebenarnya yang secara fundamental coba dipecahkan oleh Kafka, bagaimana cara semua data repository, semua sistem, bisa ngobrol satu sama lain secara real time dengan cara yang non blocking, atau bahasa kerennya asynchronous,” jelasnya.
Peran Data Streaming dalam Pemanfaatan AI
Lantas, bagaimana peran data streaming dan Kafka dalam implementasi artificial intelligence (AI) yang kian marak di lingkungan perusahaan dewasa ini?
Rully Moulany memaparkan bahwa secara umum beberapa laporan terbaru menyebutkan, sekitar 40-50% perusahaan di seluruh dunia telah menjalankan proyek AI, dan sisanya masih mempertimbangkan untuk mengadopsinya.
“Dan itu juga selaras dengan temuan kami yang diungkap dalam Data Streaming Report 2023 dari Confluent,” imbuhnya. Laporan tersebut menunjukkan bahwa di Indonesia, sekitar 90% eksekutif menyatakan memiliki inisiatif AI untuk masa depan. Namun masalahnya adalah sekitar 80% perusahaan mengalami kesulitan dalam mengadopsi AI atau data streaming akibat masalah data silo, yaitu kondisi di mana data tersebar dan terkunci di berbagai sumber dan aplikasi.
Oleh karena itu, peran data streaming atau Kafka dalam implementasi AI boleh dibilang sangat krusial terutama untuk mengatasi tantangan terkait data silo atau data yang tersebar di berbagai sumber dan aplikasi. Data streaming memungkinkan perusahaan untuk mengintegrasikan data internal yang proprietary dengan model AI, khususnya generative AI atau AI generatif, seperti GPT-4 dari OpenAI, Llama dari Meta, atau model LLM lainnya.
Secara ringkas ada tiga hal yang dapat dilakukan Kafka atau data streaming dalam mendukung implementasi AI, khususnya AI generatif:
Integrasi real-time: Data streaming memungkinkan kombinasi antara large language models (LLM) yang sudah ada dengan data internal perusahaan secara real-time. Hal ini penting untuk memastikan AI, seperti generative AI, bisa memberikan output yang relevan berdasarkan data terkini.
Akses ke data-data proprietary dan kontekstual: Banyak data internal yang tidak dimiliki oleh LLM open-source, misalnya data pelanggan atau seat map maskapai penerbangan. Dengan data streaming, AI bisa mengakses data yang spesifik dan penting secara kontekstual, sehingga output yang dihasilkan lebih tepat dan sesuai dengan kebutuhan bisnis atau pelanggan.
Solusi untuk data silo: Data streaming mengatasi masalah data yang tersebar di berbagai tempat (data silo) dengan memungkinkan akses yang cepat dan non-blocking ke data dari berbagai aplikasi, sehingga AI dapat bekerja secara efisien dalam ekosistem yang kompleks.
Rully juga menjelaskan salah satu pendekatan yang semakin penting dalam konteks ini, yaitu Retrieval-Augmented Generation (RAG). RAG bertugas menggabungkan kekuatan model generatif dengan kemampuan pengambilan data. Dengan RAG, AI dapat menarik informasi terbaru dari aliran data streaming, memastikan bahwa output yang dihasilkan tidak hanya akurat tetapi juga relevan dengan konteks saat ini.
Data Streaming Tidak Hanya untuk AI
Selanjutnya, dalam konteks penggunaan Apache Kafka, Rully melihat tantangan utama yang dihadapi oleh perusahaan adalah pemanfaatan Kafka lebih banyak untuk memenuhi kebutuhan spesifik aplikasi tertentu (app-driven) atau one-to-one. Menurutnya, masih jarang perusahaan yang menggunakan Kafka sebagai ‘central nervous system’ atau pusat syaraf perusahaan.
“Padahal hal itu sangat mungkin dilakukan karena teknologinya sudah sangat mature, sudah sangat mumpuni. Kemungkinan-kemungkinan yang dibuka apabila perusahaan mengadopsi Kafka sebagai pusat syaraf data mereka itu menjadi sangat terbuka luas. Salah satunya adalah AI,” tandasnya.
Rully menambahkan bahwa ada banyak use case selain AI yang bisa memberikan nilai tambah jika perusahaan mengadopsi data streaming secara holistik dan integratif. Ia mengambil contoh super app perbankan yang kini makin marak di Indonesia. Data streaming menjadi sangat penting bagi super app karena memastikan bahwa semua transaksi, informasi, dan layanan dari ekosistem super app tersebut dapat terintegrasi secara real-time, sehingga memenuhi ekspektasi nasabah yang semakin tinggi.
Meski begitu, AI dinilai Rully bisa berperan sebagai “lokomotif” dalam inisiatif pembenahan infrastruktur data di satu perusahaan yang pada umumnya tidak mudah dilakukan.
“Tapi seperti saya sampaikan tadi, sebelum kita bicara AI pun, kalau misalnya satu perusahaan seperti bank meluncurkan super app, itu bisa jadi lokomotif, dan fondasi terhadap data streaming-nya ikut terbentuk yang kemudian bisa di-leverage oleh unit bisnis lain di luar super app,” katanya.
Empat Aspek Pertimbangan
Ada beberapa aspek yang perlu dipertimbangkan perusahaan saat mengadopsi dan mengimplementasikan solusi data streaming dalam ekosistem teknologinya. Aspek pertama terkait kompleksitas dan sumber daya yang dapat berujung pada pemikiran bahwa data streaming itu “mahal.” Namun Rully mengingatkan bahwa konteks mahal di sini tidak hanya dalam hal finansial, tetapi juga dalam hal sumber daya manusia, waktu, dan fokus.
“Yang kedua adalah skillset. Kafka memang adopsinya di Indonesia sudah sangat tinggi. Namun berdasarkan yang kami lihat, skill Kafka specialist di Indonesia masih perlu ditingkatkan, baik dari sisi jumlah maupun kualitas,” jelas Rully Moulany.
Ia juga menggarisbawahi kekhawatiran terkait keamanan dan risiko yang datang dengan adopsi teknologi baru. Meskipun banyak perusahaan di Indonesia telah melakukan verifikasi dan pengujian keamanan informasi, masih ada kebutuhan untuk meyakinkan pengguna bahwa data mereka aman di atas platform data streaming.
Tantangan utama lainnya, menurut Rully, adalah keterbatasan sistem lama (legacy systems). Meskipun data streaming dapat menambah nilai dengan menghubungkan berbagai data, sistem lama sering kali sulit untuk diintegrasikan, yang memerlukan teknik khusus dan dapat memakan biaya.
“Tapi sekarang ini sudah banyak vendor yang membuat connector, semacam converter, jembatan, middleware yang bisa menjembatani sistem lama itu ke dunia yang lebih baru yang bisa dimanage oleh Confluent dan Kafka,” imbuhnya.
Untuk mendukung perusahaan dalam mengadopsi dan mengimplementasikan data streaming, Confluent menawarkan dua tipe produk. Pertama, ada Confluent Platform, yang merupakan model lisensi tradisional. Pelanggan membeli perangkat lunak dan mengelolanya sendiri, termasuk instalasi, penyebaran, dan operasional. Model ini memerlukan keterampilan dan sumber daya yang lebih besar, serta perusahaan harus menyediakan infrastruktur dan perangkat keras yang diperlukan.
Opsi kedua adalah Confluent Cloud, yang merupakan layanan Software as a Service (SaaS) sehingga pelanggan dapat langsung menggunakan layanan tanpa perlu mengelola infrastruktur, pemeliharaan, atau operasi, karena semua aspek tersebut ditangani oleh Confluent.
"Dalam model ini, customer hanya perlu tahu endpoint-nya saja, apa yang mereka mesti connect dan meng-create aplikasinya di atas Confluent," Rully menjelaskan kemudahan yang ditawarkan Confluent Cloud.
Di samping itu, Rully Moulany juga menjelaskan keunggulan solusi Confluent Cloud jika dibandingkan dengan solusi komunikasi dan pertukaran data antaraplikasi terdistribusi yang lebih dulu ada: message oriented middleware (MOM).
Salah satu kelebihan utama Confluent adalah kemampuannya untuk menyimpan data. Berbeda dengan message-oriented middleware (MOM), di mana data hilang setelah dikonsumsi. "Kalau di Confluent tidak seperti itu, sistemnya adalah data yang dipublish ke dalam data streamingnya Confluent itu akan tetap ada sampai customernya memutuskan untuk menghilangkan data itu meskipun data itu sudah diambil oleh sistem yang lain," jelas Rully.
Solusi Confluent juga menawarkan kemampuan stream processing: Confluent tidak hanya memindahkan data dari satu titik ke titik lain, tetapi juga mendukung data stream processing) yang memungkinkan pemrosesan data secara real time, seperti penghilangan atau penambahan header, serta penggabungan atau agregasi data. Selain itu, solusi Confluent dan Kafka yang hadir di era cloud dirancang dengan arsitektur terdistribusi yang membuatnya lebih robust dan mampu melakukan scaling secara horizontal.
Dalam dunia bisnis yang terus berubah, kemampuan untuk mengintegrasikan dan memanfaatkan data secara optimal menjadi sangat krusial, terutama dalam mendukung inisiatif artificial intelligence. Oleh karena itu, adopsi teknologi data streaming seperti Confluent akan menjadi kunci dalam membangun fondasi yang kuat untuk inovasi dan pertumbuhan perusahaan di masa depan.
Baca juga: Tingkatkan Keamanan, Confluent Cloud Tawarkan Jaringan Privat Flink
Baca juga: Solusi Data Streaming Confluent Percepat Adopsi AI di Indonesia