Sejak malam dua hari lalu sampai kemarin pagi; layanan Facebook, Instagram, dan WhatsApp sempat tumbang. Facebook, Instagram, dan WhatsApp down itu pun tidak hanya di Indonesia melainkan secara global. Tak lama setelah layanan Facebook, Instagram, dan WhatsApp kembali pulih; laman Facebook Engineering pun membeberkan yang menjadi alasannya. Lalu apa yang menjadi penyebabnya? Secara garis besar, penyebabnya adalah suatu perintah yang diberikan tatkala Facebook melakukan pemeliharaan rutin terhadap jaringan backbone-nya. Seharusnya perintah bersangkutan akan dihentikan oleh perkakas audit Facebook, tetapi terdapat bug pada perkakas tersebut yang mencegahnya menghentikan perintah yang dimaksud.
Jaringan backbone Facebook adalah jaringan yang menghubungkan seluruh fasilitas komputasi Facebook satu sama lain. Jaringan backbone Facebook ini mengandung bermil-mil kabel serat optik yang menghubungkan seluruh pusat data Facebook di berbagai belahan dunia. Terdapat pula tentunya router pada fasilitas komputasi Facebook untuk me-route data.
Pusat data yang dimaksud pun tidak mesti serupa satu sama lain. Ada yang besar dan mengandung berbagai perangkat komputasi untuk menjalankan platform Facebook, Instagram, dan WhatsApp. Di sinilah komputasi utama sehubungan Facebook, Instagram, dan WhatsApp dilakukan; begitu juga penyimpanan data. Ada pula yang lebih kecil yang berfungsi untuk menghubungkan jaringan backbone Facebook ke internet yang pada akhirnya ke para pengguna yang menggunakan Facebook, Instagram, dan WhatsApp.
Petugas-petugas Facebook secara berkala melakukan pemeliharaan terhadap jaringan backbone Facebook beserta router-nya. Facebook menyebutkan tak jarang petugasnya harus mematikan bagian tertentu dari jaringan backbone, misalnya untuk memperbaikan kabel serat optik yang kurang bagus maupun meng-upgrade peranti lunak router.
Sebelum terhentinya layanan Facebook, Instagram, dan WhatsApp dua hari lalu; Facebook pun melakukan pemeliharaan. Saat pemeliharaan tersebut, suatu perintah untuk menilai ketersediaan kapasitas dari jaringan backbone Facebook diterbitkan. Tanpa sengaja, perintah bersangkutan memutuskan seluruh koneksi pada jaringan backbone Facebook. Alhasil memutuskan koneksi terhadap pusat data Facebook secara global, termasuk dari internet. Seharusnya perkakas audit yang digunakan Facebook bisa mencegah perintah seperti itu dijalankan. Namun, seperti telah disebutkan, terdapat bug pada perkakas audit tersebut yang mencegahnya menghentikan perintah yang dimaksud.
Tak hanya sampai di situ, DNS server Facebook pun menghentikan BGP advertisements berhubung DNS server bersangkutan tidak bisa menghubungi pusat data Facebook. Hal itu dilakukan untuk memastikan keandalan operasi. Karena BGP advertisements dihentikan, DNS server Facebook juga menjadi tidak bisa ditemukan melalui internet meskipun DNS server itu sebenarnya masih beroperasi.
Karena tidak bisa diakses dari jarak jauh plus permasalahan DNS, para petugas Facebook tidak bisa menggunakan cara dan perkakas yang biasa digunakan untuk mencari tahu masalah yang terjadi. Oleh kerena itu mereka harus mendatangi secara fisik fasiltias-fasilitas komputasi Facebook dan melakukan pencarian masalah dan me-restart aneka sistem dari sana. Namun, Facebook merancang berbagai fasilitas itu untuk memiliki tingkat kemanan yang tinggi, baik keamanan secara fisik maupun kemanan siber alias cyber security.
Dengan kata lain, sulit untuk memasuki aneka fasiliatas tersebut secara fisik dan setelah di dalam pun tidak mudah memodifikasi berbagai peranti keras termasuk aneka router yang terdapat di sana. Alhasil Facebook membutuhkan waktu lebih lama untuk akhirnya bisa menemukan masalah dan mengembalikan jaringan backbone-nya. Dalam kasus ini lamanya berjam-jam, sekitar 6 jam menurut Downdetector.
KOMENTAR