Sebagai platform marketplace dengan total pengguna aktif sebanyak lebih dari 100 juta setiap bulannya dan menjadi ekosistem yang membantu lebih dari 9,9 juta penjual, Tokopedia merasa perlu menanamkan budaya yang dapat diimplementasikan pada setiap divisi dan tim di dalamnya agar selalu memberikan pengalaman dan pelayanan yang terbaik.
Budaya melayani pelanggan merupakan salah satunya, di mana sebagai perusahaan yang menanamkan nilai customer-centric, memastikan pengalaman pengguna merupakan prioritas utama. Seluruh tim, termasuk tim teknologi Tokopedia, juga tak luput dalam menanamkan budaya tersebut.
Melalui acara START Summit Extension yang digelar pada pertengahan Desember 2020 lalu, para tim Engineer Tokopedia kembali membagikan wawasan mereka terkait membangun dan meningkatkan budaya kewaspadaan terhadap sistem platform di Tokopedia.
Dengan tema “High Severity! Behind Tokopedia’s Reliable Incident Management”, acara START Summit Extension yang digelar secara virtual tersebut terbagi ke dalam beberapa sesi yang berisi pemaparan langsung dari tiga narasumber yang merupakan Engineer Tokopedia.
Ketiga engineer tersebut di antaranya Timothy Agustian (Software Engineer Lead – Purchase Platform), Danish Jatmiko (Engineering Manager – Order & Campaign), dan Viriya Saddha Pannindriya (Software Engineer Lead – Order).
Dalam acara tersebut, ketiganya membagikan tips terbaik mereka dalam mengelola insiden, dilanjutkan dengan sesi panel diskusi serta sesi tanya jawab.
Sebagai pembuka, Timothy Agustian (Software Engineer Lead – Purchase Platform) memberikan penjelasan tentang bagaimana budaya kerja yang diterapkan oleh setiap karyawan dapat membentuk keseharian tim engineer.
Budaya yang mereka terapkan bukanlah tuntutan atau hal yang dipaksakan oleh pihak manajemen maupun pemimpin mereka.
Timothy menjelaskan bahwa suatu budaya dapat dibentuk dari diri kita sendiri sehingga budaya tersebutlah yang nantinya akan menentukan bagaimana perusahaan tersebut dapat berhasil memenangkan hati pengguna.
“Sebagai perusahaan yang dipercaya oleh jutaan penjual dan pembeli, seluruh tim teknologi Tokopedia memiliki tanggung jawab yang besar untuk mengelola setiap insiden yang terjadi. Menyelesaikan suatu insiden tanpa ada pihak yang dirugikan merupakan prioritas utama, sehingga menanamkan budaya kewaspadaan yang tinggi dan keandalan dalam mengelola serta mengidentifikasi masalah teknis sangatlah penting,” ujar Timothy.
Baca Juga: Engineer Manager Ini Beberkan Skill Utama untuk Jadi Engineer Andal
Tahap I: Preparation & Monitoring
Dijelaskan lebih lanjut, Tokopedia memiliki beberapa tahapan dalam mengelola insiden. Tahapan yang pertama adalah Preparation & Monitoring, di mana tahap ini merupakan fase pertama untuk mempersiapkan sistem ketika insiden belum terjadi.
Fase ini adalah fase awal yang akan mempengaruhi fase-fase berikutnya. Timothy menjelaskan bahwa fase ini terbagi ke dalam beberapa poin penting, yakni:
Hal utama yang perlu disiapkan adalah melatih anggota tim. Bagi setiap developer, mereka harus memiliki pengetahuan dasar tentang use case yang perlu ditangani, serta infrastruktur dan bagaimana alur dari setiap bisnis secara umum untuk membantu mereka dalam mengidentifikasi masalah apa yang nantinya dapat terjadi, dan bagaimana mereka dapat menangani masalah tersebut.
Sebagai seorang developer yang sudah berpengalaman dan terbiasa menangani insiden, mengumpulkan dan membuat dokumentasi merupakan hal yang sangat penting sehingga segala informasi yang berkaitan dengan insiden manajemen dapat dengan mudah diakses oleh tim-tim member lainnya untuk dapat dijadikan acuan.
Poin ini juga tak kalah penting, di mana tahap ini berguna untuk membantu kita mengetahui keadaan server atau bisnis secara real time, sehingga kita dapat memantau secara berkala dan mempersiapkan berbagai kemungkinan yang dapat terjadi.
Tahap II: Alerting
Masih dijelaskan oleh Timothy, ia melanjutkan tentang tahap kedua dalam proses mengelola insiden Tokopedia, yakni Alerting, di mana ini merupakan fase pertama yang dilakukan ketika terjadi insiden.
“Saat alarm sudah berbunyi, maka ini merupakan tanda bahwa terdapat suatu insiden. Insiden yang baik adalah jika alertingnya juga baik, sehingga kita dapat langsung mengetahui saat insiden terjadi dan tidak mengetahuinya dari pihak eksternal atau pengguna, melainkan dapat mengetahuinya terlebih dulu,” papar Timothy.
Selain itu, alarm yang baik memiliki tiga kriteria, yaitu:
Baca Juga: Indonesia Butuh Lebih Banyak Software Engineer dan Kreator Konten
Tahap III: Triage & Notify
Tahapan ketiga adalah Triage & Notify yang dijelaskan oleh Danish Jatmiko (Engineering Manager – Order & Campaign Tokopedia).
Tahapan ini menjelaskan tentang apa yang perlu dilakukan saat insiden datang. Jika sebelumnya Alerting & Monitoring sudah disiapkan dengan baik, maka kita akan memiliki sistem yang bagus.
Melalui Alerting & Monitoring, kita dapat mengetahui keadaan atau kesehatan sistem kita. Lalu, apa yang harus dilakukan jika ternyata terjadi suatu insiden terhadap sistem?
Danish menjelaskan bahwa hal pertama yang perlu dilakukan adalah menjaga agar kita tidak panik. Terlebih, sebagai pemimpin kita perlu mengendalikan dan mengatur situasi yang terjadi.
“Kita perlu menenangkan pikiran agar dapat mengambil keputusan dan membaca kondisi dengan maksimal. Selanjutnya, kita juga perlu mengetahui kondisi sistem kita seperti apa agar dapat mengenali dan mengidentifikasi musuh kita. Hal ini dapat membantu kita untuk mengetahui kelemahan dan kelebihan yang kita miliki,” kata Danish.
Sebagai contoh, ketika traffic sedang mengalami down, kita perlu tahu apa penyebabnya, apakah karena koneksi, PPN, atau servis lainnya. Dengan Alerting & Monitoring, kita dapat langsung mengetahui penyebabnya serta bagaimana kita dapat mengatasi hal tersebut.
Lebih lanjut, ia menyatakan bahwa kita juga perlu tahu mengenai dampak yang terjadi setelahnya, baik itu dampak pada halaman penjualan, transaksi penjualan, dan sebagainya.
Setelah kita mengetahui semua dampak yang akan terjadi, kita bisa melakukan over communicate kepada stakeholder yang memiliki andil terhadap produk/platform tersebut, seperti tim produk dan tim operasional yang akan membantu menyampaikan informasi terkait kendala sistem ini kepada pengguna.
“Dengan over communicate, kita dapat mencegah terjadinya hal-hal yang tidak diinginkan oleh pengguna maupun penjual Tokopedia,” cetus Danish.
Tahap IV: Post-Mortem Investigation and Resolution
Tahapan terakhir pada manajemen insiden adalah Post-Mortem Investigation and Resolution yang dijelaskan oleh Viriya Saddha Pannindriya (Software Engineer Lead – Order Tokopedia).
Pada tahap ini, kita perlu mencari tahu lebih dalam dan mendetail mengenai penyebab dari insiden yang terjadi. Viriya menjelaskan bahwa ketika mengalami insiden, kita menjadi panik dan mencari solusi dengan cara yang cepat.
“Namun, solusi tersebut bisa jadi bukanlah solusi yang tepat dan benar-benar merupakan akar dari permasalahan tersebut. Kita harus terus menggali lebih dalam tentang root cause sehingga dapat menentukan solusi jangka panjang,” ujar Viriya.
Setelah itu, kita dapat masuk ke tahap collateral damage, di mana kita juga perlu mencari tahu apakah root cause ini akan berdampak ke hal yang lainnya atau tidak karena insiden yang terjadi bisa saja berdampak pada sistem atau bisnis unit lainnya.
Oleh karena itu, penting untuk melihat masalah sampai ke akar agar dapat mengetahui seberapa luas isu yang dihadapi.
Setelah kita mengetahui core problems dan akar permasalahannya, kita dapat melanjutkan ke tahap berikutnya yakni memastikan agar insiden tersebut tidak terjadi lagi.
Melalui Alerting dan Monitoring, kita dapat memperbaiki setiap temuan yang ada dan disesuaikan dengan prosedur dari Alerting dan Monitoring tersebut.
Viriya menjelaskan langkah terakhir yang ada pada tahapan Post-Mortem Investigation and Resolution yakni Documentation.
“Pada fase ini, penting untuk menjaga bagaimana suatu insiden yang pernah terjadi tidak terjadi kembali di kemudian hari. Oleh karena itu, kita perlu membuat sebuah dokumentasi dari pengalaman atau insiden tersebut sebagai track record,” tutur Viriya.
Dokumentasi ini berisikan tentang bagaimana kita mengatasi suatu insiden, beserta cara-cara yang dilakukan untuk memperbaiki insiden tersebut. Hal ini bertujuan agar seluruh tim, baik yang sudah bekerja dalam kurun waktu yang lama, maupun tim yang baru bergabung dapat belajar dan melihat kembali tentang berbagai cara untuk menangani suatu insiden.
Sebagai informasi, START Summit Extension yang digelar Desember ini menutup akhir tahun 2020 dengan lebih dari 30 ribu penonton yang menyaksikan acara ini melalui Tokopedia Play.
Di tahun 2021 mendatang, Tokopedia melalui Tokopedia Academy akan kembali menghadirkan rangkaian acara teknologi yang membagikan dan membawakan tema serta praktik terbaik untuk mendorong perkembangan talenta digital masa depan di Indonesia.
Baca Juga: START Women in Tech: Mendorong Inklusivitas dan Kesetaraan Gender di Industri Teknologi
Penulis | : | Rafki Fachrizal |
Editor | : | Rafki Fachrizal |
KOMENTAR