Penulis: Sean Duca, Regional Vice President and Chief Security Officer, JAPAC, Palo Alto Networks
[Redaksi] Penggunaan artificial intelligence (AI) semakin luas. Namun kekhawatiran bahwa AI justru berbalik “menyerang” penggunanya juga mulai disuarakan. Di sini penulis memaparkan tentang menjaga transparansi dan akuntabilitas terkait alogritma AI.
Belakangan ini, kita banyak menjumpai sejumlah keunikan yang berasal dari ‘kelompok’ yang dapat diprogram, atau yang biasa kita sebut sebagai kecerdasan buatan atau artificial intelligence (AI). Meskipun kehadiran mereka sering kali nampak nyata dalam kehidupan sehari-hari dengan turut berperan membantu kita di ranah layanan pelanggan, terlibat dalam video game, serta turut meramaikan media sosial kita, kenyataaannya pemahaman akan penggunaannya seringkali masih diabaikan.
Saat ini, AI bahkan telah menyusup ke dalam aktivitas finansial kita, dengan memanfaatkan teknologi AI seperti ChatGPT untuk melakukan transaksi jual beli saham hingga membuat keputusan investasi.
Di sisi lain, konsensus dan ketidakjelasan yang menyelimuti tool AI ini menandakan bahwa keandalan output-nya tergantung pada variabel yang mengaturnya. Dalam situasi yang sangat kompleks dan beragam ini, transparansi dan kualitas data, serta algoritma yang mengendalikan tool AI sangatlah penting.
Minimnya perhatian terhadap faktor-faktor kritis, seperti kepercayaan dan kualitas, dapat menyebabkan bias, misinformasi, dan potensi terjadinya kerentanan terhadap manipulasi yang dilakukan oleh aktor-aktor jahat. Oleh karena itu, kita perlu meningkatkan kemampuan kita untuk memahami cara kerja alat-alat ini dan juga alasan di balik tindakan-tindakannya.
Large language model (model bahasa besar), atau LLM, merupakan sistem AI yang dilatih menggunakan dataset berupa teks yang komprehensif. Tujuan rancangan atau desain LLM ini adalah memunculkan teks yang mirip seperti tulisan manusia sebagai respons terhadap input. Penggunaan istilah "besar" ini merefleksikan besarnya model dalam hal jumlah parameter dan volume data pembelajaran. Misalnya GPT-3 dari OpenAI, proses pembelajarannya menggunakan model kolosal yang menggabungkan 175 miliar parameter dari teks dalam jumlah yang sangat besar.
Model-model ini tentunya memerlukan pemahaman mendalam terhadap teks yang mereka hasilkan, dan model-model tersebut bergantung pada kemampuan mengenali pola-pola dari data pembelajaran yang ada untuk menghasilkan output yang dapat diprediksi. Prinsip yang mengaturnya tetap konsisten, yaitu data pembelajaran yang komprehensif dan berkualitas tinggi memberdayakan model AI untuk menghasilkan prediksi yang akurat.
Sebaliknya, model-model AI yang proprietary, atau berhak paten, biasanya dibuat oleh suatu lembaga atau perusahaan tertentu dan mencakup model yang desain, struktur, dan algortimanya melindungi kekayaan intelektual pembuatnya. Penggunaan istilah ini sering kali dipadankan dengan model sumber terbuka (open-source), yang cetak birunya (blueprint) dapat diakses oleh publik untuk digunakan, diubah, dan disebarluaskan.
Gambaran pentingnya adalah bahwa model yang dipatenkan pada dasarnya tidak jauh berbeda dengan model bahasa besar atau LLM. Istilah-istilah tersebut hanya memberi penekanan pada karakteristik model lainnya.
Menuai yang Ditanam
Suatu model seperti GPT-3 OpenAI dapat menjadi model bahasa yang besar sekaligus memiliki hak kepemilikan. Seperti yang telah disampaikan sebelumnya, model-model ini diprogram menggunakan dataset yang luas dan kompleks, sehingga menimbulkan risiko ketidaksesuaian dalam kualitas output yang dihasilkan karena adanya gangguan pada dataset yang diprogram—sebuah istilah yang kami sebut sebagai “keracunan” data (data poisoning).
Keamanan siber memberikan analogi yang tepat untuk hal tersebut: “garbage in, garbage out.” Seperti halnya praktik kebersihan siber, kualitas dan seleksi data yang digunakan untuk membuat model sangatlah berpengaruh terhadap hasil, sehingga mampu mendeteksi anomali secara akurat sekaligus membantu mengembangkan inovasi.
Pertanyaannya adalah bagaimana kita bisa mencegah keracunan data? Kuncinya terletak pada proses pengambilan dan pemilihan data yang dilakukan dengan cermat, sehingga dapat menghindari akumulasi data yang sembrono. Perhatian khusus terhadap pengumpulan data yang berkualitas tinggi akan menjaga keakuratan output dari suatu model, terlepas dari apakah model tersebut merupakan model eksklusif atau open source. Kuantitas data tidak menjadi penentu utama dalam menentukan efektivitas suatu model, melainkan kualitas dan relevansi dari data yang dihasilkan.
Data untuk Internet yang Tidak Bias dan Aman
Transparansi algoritma memerlukan kejelasan mengenai cara kerja algoritma secara umum. Sebagai contoh, sebuah algoritma pengambil keputusan pinjaman (loan decision-making algorithm) sebaiknya memberikan penjelasan mengenai faktor-faktor yang perlu dipertimbangkan (pendapatan, skor kredit) beserta bobot dari masing-masing faktor tersebut. Akuntabilitas algoritm sebagai padanan dari transparansi, mengharuskan entitas pengguna bertanggung jawab atas pengambilan keputusan algoritmanya, terutama apabila hasilnya menunjukkan indikasi terjadinya bias atau diskriminasi.
Pertimbangkan penggunaan machine learning pada Intrusion Detection Systems (IDS), yang memantau jaringan dari potensi ancaman atau pelanggaran kebijakan. Machine learning meningkatkan kemampuan IDS dengan mengaktifkan kemampuan mengenali ancaman berdasarkan data yang sudah ada sebelumnya. Namun, terlepas dari kemajuan ini, transparansi, dan akuntabilitas yang sudah diterapkan, tantangan akan tetap ada.
Dalam konteks ini, transparansi algoritma menjelaskan bahwa pengguna IDS harus memahami dasar pengambilan keputusan. Apa karakteristik yang mengisyaratkan adanya ancaman? Bagaimana cara membedakan aktivitas normal dan berbahaya? Meskipun mengungkapkan mekanisme sistem yang tepat malah justru dapat membantu calon penyerang, dan tentunya harus dihindari, pengguna harus memiliki informasi yang cukup untuk memercayai dan menjalankan sistem secara efektif.
Akuntabilitas algoritma menimbulkan pertanyaan tentang tanggung jawab jika terjadi kesalahan respon positif atau negatif. Provider IDS harus bisa bertanggung jawab terhadap kesalahan ini, terutama jika timbul dari kelemahan-kelemahan yang terkait algoritma.
Di sini, tantangannya terletak pada cara menjaga keseimbangan antara transparansi dan akuntabilitas, melindungi kepentingan kepemilikan, dan mencegah penyerang memperoleh keuntungan yang tidak semestinya. Ini adalah tugas yang meliputi banyak aspek, memerlukan pertimbangan yang berbeda-beda dan pendekatan yang seimbang. Tak kalah pentingnya adalah memahami kompleksitas teknis dalam memahami proses pengambilan keputusan oleh beberapa algoritma, seperti neural network, dan melindungi informasi kepemilikan. Terlepas dari hambatan-hambatan ini, konsensus di antara para ahli sudah jelas: kita harus berupaya meningkatkan transparansi dan akuntabilitas yang terkait dengan algoritma.