Peran Data Streaming dalam Pemanfaatan AI
Lantas, bagaimana peran data streaming dan Kafka dalam implementasi artificial intelligence (AI) yang kian marak di lingkungan perusahaan dewasa ini?
Rully Moulany memaparkan bahwa secara umum beberapa laporan terbaru menyebutkan, sekitar 40-50% perusahaan di seluruh dunia telah menjalankan proyek AI, dan sisanya masih mempertimbangkan untuk mengadopsinya.
“Dan itu juga selaras dengan temuan kami yang diungkap dalam Data Streaming Report 2023 dari Confluent,” imbuhnya. Laporan tersebut menunjukkan bahwa di Indonesia, sekitar 90% eksekutif menyatakan memiliki inisiatif AI untuk masa depan. Namun masalahnya adalah sekitar 80% perusahaan mengalami kesulitan dalam mengadopsi AI atau data streaming akibat masalah data silo, yaitu kondisi di mana data tersebar dan terkunci di berbagai sumber dan aplikasi.
Oleh karena itu, peran data streaming atau Kafka dalam implementasi AI boleh dibilang sangat krusial terutama untuk mengatasi tantangan terkait data silo atau data yang tersebar di berbagai sumber dan aplikasi. Data streaming memungkinkan perusahaan untuk mengintegrasikan data internal yang proprietary dengan model AI, khususnya generative AI atau AI generatif, seperti GPT-4 dari OpenAI, Llama dari Meta, atau model LLM lainnya.
Secara ringkas ada tiga hal yang dapat dilakukan Kafka atau data streaming dalam mendukung implementasi AI, khususnya AI generatif:
Integrasi real-time: Data streaming memungkinkan kombinasi antara large language models (LLM) yang sudah ada dengan data internal perusahaan secara real-time. Hal ini penting untuk memastikan AI, seperti generative AI, bisa memberikan output yang relevan berdasarkan data terkini.
Akses ke data-data proprietary dan kontekstual: Banyak data internal yang tidak dimiliki oleh LLM open-source, misalnya data pelanggan atau seat map maskapai penerbangan. Dengan data streaming, AI bisa mengakses data yang spesifik dan penting secara kontekstual, sehingga output yang dihasilkan lebih tepat dan sesuai dengan kebutuhan bisnis atau pelanggan.
Solusi untuk data silo: Data streaming mengatasi masalah data yang tersebar di berbagai tempat (data silo) dengan memungkinkan akses yang cepat dan non-blocking ke data dari berbagai aplikasi, sehingga AI dapat bekerja secara efisien dalam ekosistem yang kompleks.
Rully juga menjelaskan salah satu pendekatan yang semakin penting dalam konteks ini, yaitu Retrieval-Augmented Generation (RAG). RAG bertugas menggabungkan kekuatan model generatif dengan kemampuan pengambilan data. Dengan RAG, AI dapat menarik informasi terbaru dari aliran data streaming, memastikan bahwa output yang dihasilkan tidak hanya akurat tetapi juga relevan dengan konteks saat ini.
Data Streaming Tidak Hanya untuk AI
Selanjutnya, dalam konteks penggunaan Apache Kafka, Rully melihat tantangan utama yang dihadapi oleh perusahaan adalah pemanfaatan Kafka lebih banyak untuk memenuhi kebutuhan spesifik aplikasi tertentu (app-driven) atau one-to-one. Menurutnya, masih jarang perusahaan yang menggunakan Kafka sebagai ‘central nervous system’ atau pusat syaraf perusahaan.