Janardhan mengatakan, Facebook sering kali melakukan pemeliharaan rutin pada infrastruktur miliknya.
Ketika melakukan pemeliharaan, teknisi Facebook kadang perlu memutus akses ke sebagian jaringan backbone agar bisa melakukan maintencance. Entah untuk memperbaiki jaringan kabel, menambah kapasitas, memperbarui perangkat lunak, atau hal lainnya.
Baca juga: Layanan Down, Facebook, Instagram, dan WhatsApp Minta Maaf lewat Twitter
Nah, saat melakukan maintenance pada Senin lalu, ada perintah (command) yang diberikan ke sistem untuk memantau kapasitas jaringan backbone secara global.
Namun, alih-alih memberikan informasi yang diminta, command tersebut malah memutus semua koneksi di backbone Facebook. Pusat-pusat data Facebook di seluruh dunia pun jadi offline karena tak saling terhubung.
Menurut Janardhan, sistem Facebook sebenarnya memiliki kemampuan audit untuk mencegah kesalahan perintah seperti ini. Namun, ternyata ada bug yang menyebabkan sistem gagal mendeteksi dan mencegat command tersebut.
"Ini menyebabkan koneksi server antara pusat-pusat data kami dan jaringan internet menjadi terputus seluruhnya. Kehilangan koneksi secara total menimbulkan masalah kedua yang memperparah keadaan," ujarnya.
Masalah kedua yang dimaksud Janardhan adalah server Domain Name System (DNS) Facebook yang tidak bisa diakses karena backbone di belakangnya bertumbangan.
Janardhan menjelaskan, salah satu hal yang dilakukan oleh fasilitas data center Facebook yang lebih kecil adalah merespons DNS ketika diakses oleh pengguna.
DNS sendiri berperan untuk menerjemahkan nama host atau situs (seperti Facebook.com), menjadi alamat IP yang dapat dibaca komputer. Nantinya, server DNS mengirimkan alamat IP yang dimaksud melalui protokol bernama Border Gateway Protocol (BGP).
Baca juga: Pakar Ungkap Penyebab Facebook, Instagram, WhatsApp Error Hari Ini
Selain berisi alamat IP dari nama DNS-nya, BGP juga bertugas untuk menentukan rute data yang diambil saat melewati lalu lintas informasi, sehingga alamat IP bisa diakses pengguna.
Masalahnya, server DNS Facebook dirancang untuk menonaktifkan protokol BGP ketika server terputus atau terdeteksi tidak bisa berkomunikasi dengan data center Facebook.
Nah, saat gangguan kemarin, kesalahan pada jaringan backbone membuat koneksi server Facebook terputus total dari data center. Secara otomatis, protokol BGP ini juga berhenti bekerja.
"Hasil akhirnya adalah server DNS kami menjadi tidak dapat dijangkau meskipun masih beroperasi. Ini membuat seluruh internet tidak mungkin menemukan server kami," kata Janardhan.
Dengan kata lain, efek domino dari kesalahan perintah tadi mengisolasi server Facebook dkk. dari jaringan internet selebihnya. Pengguna pun tidak bisa mengakses situs serta layanan Facebook, Instagram, WhatsApp, dan Messenger.
Janardhan mengatakan, gangguan layanan Facebook Inc. terjadi begitu cepat, tapi tidak demikian dengan upaya perbaikannya yang ternyata membutuhkan waktu lama dan rumit sehingga layanan Facebook dkk. offline berjam-jam.