Penulis: Sean Duca, Regional Vice President and Chief Security Officer, JAPAC, Palo Alto Networks
[Redaksi] Penggunaan artificial intelligence (AI) semakin luas. Namun kekhawatiran bahwa AI justru berbalik “menyerang” penggunanya juga mulai disuarakan. Di sini penulis memaparkan tentang menjaga transparansi dan akuntabilitas terkait alogritma AI.
Belakangan ini, kita banyak menjumpai sejumlah keunikan yang berasal dari ‘kelompok’ yang dapat diprogram, atau yang biasa kita sebut sebagai kecerdasan buatan atau artificial intelligence (AI). Meskipun kehadiran mereka sering kali nampak nyata dalam kehidupan sehari-hari dengan turut berperan membantu kita di ranah layanan pelanggan, terlibat dalam video game, serta turut meramaikan media sosial kita, kenyataaannya pemahaman akan penggunaannya seringkali masih diabaikan.
Saat ini, AI bahkan telah menyusup ke dalam aktivitas finansial kita, dengan memanfaatkan teknologi AI seperti ChatGPT untuk melakukan transaksi jual beli saham hingga membuat keputusan investasi.
Di sisi lain, konsensus dan ketidakjelasan yang menyelimuti tool AI ini menandakan bahwa keandalan output-nya tergantung pada variabel yang mengaturnya. Dalam situasi yang sangat kompleks dan beragam ini, transparansi dan kualitas data, serta algoritma yang mengendalikan tool AI sangatlah penting.
Minimnya perhatian terhadap faktor-faktor kritis, seperti kepercayaan dan kualitas, dapat menyebabkan bias, misinformasi, dan potensi terjadinya kerentanan terhadap manipulasi yang dilakukan oleh aktor-aktor jahat. Oleh karena itu, kita perlu meningkatkan kemampuan kita untuk memahami cara kerja alat-alat ini dan juga alasan di balik tindakan-tindakannya.
Large language model (model bahasa besar), atau LLM, merupakan sistem AI yang dilatih menggunakan dataset berupa teks yang komprehensif. Tujuan rancangan atau desain LLM ini adalah memunculkan teks yang mirip seperti tulisan manusia sebagai respons terhadap input. Penggunaan istilah "besar" ini merefleksikan besarnya model dalam hal jumlah parameter dan volume data pembelajaran. Misalnya GPT-3 dari OpenAI, proses pembelajarannya menggunakan model kolosal yang menggabungkan 175 miliar parameter dari teks dalam jumlah yang sangat besar.
Model-model ini tentunya memerlukan pemahaman mendalam terhadap teks yang mereka hasilkan, dan model-model tersebut bergantung pada kemampuan mengenali pola-pola dari data pembelajaran yang ada untuk menghasilkan output yang dapat diprediksi. Prinsip yang mengaturnya tetap konsisten, yaitu data pembelajaran yang komprehensif dan berkualitas tinggi memberdayakan model AI untuk menghasilkan prediksi yang akurat.
Sebaliknya, model-model AI yang proprietary, atau berhak paten, biasanya dibuat oleh suatu lembaga atau perusahaan tertentu dan mencakup model yang desain, struktur, dan algortimanya melindungi kekayaan intelektual pembuatnya. Penggunaan istilah ini sering kali dipadankan dengan model sumber terbuka (open-source), yang cetak birunya (blueprint) dapat diakses oleh publik untuk digunakan, diubah, dan disebarluaskan.
Gambaran pentingnya adalah bahwa model yang dipatenkan pada dasarnya tidak jauh berbeda dengan model bahasa besar atau LLM. Istilah-istilah tersebut hanya memberi penekanan pada karakteristik model lainnya.
Menuai yang Ditanam
Suatu model seperti GPT-3 OpenAI dapat menjadi model bahasa yang besar sekaligus memiliki hak kepemilikan. Seperti yang telah disampaikan sebelumnya, model-model ini diprogram menggunakan dataset yang luas dan kompleks, sehingga menimbulkan risiko ketidaksesuaian dalam kualitas output yang dihasilkan karena adanya gangguan pada dataset yang diprogram—sebuah istilah yang kami sebut sebagai “keracunan” data (data poisoning).