Baca berita tanpa iklan. Gabung Kompas.com+
Salin Artikel

Penjelasan Resmi Penyebab Tumbangnya Facebook, Instagram, dan WhatsApp

Gangguan layanan Facebook Inc. ini memang kerap terjadi, namun gangguan kemarin menjadi salah satu yang terparah. Terkait hal ini, Facebook selaku perusahaan induk menjelaskan masalah di balik tumbangnya layanan Facebook, Instagram, dan WhatApp.

Dalam sebuah posting di blog resmi, VP Infrastructure di Facebook, Santosh Janardhan mengatakan bahwa gangguan kemarin disebabkan oleh kesalahan internal yang tidak disengaja.

Ia mengatakan, masalah berakar di jaringan backbone saat melakukan pemeliharaan rutin pada infrastruktur Facebook. Problem tersebut menghasilkan efek domino yang membuat upaya perbaikan menjadi rumit dan butuh waktu lama.

Berikut penjelasan Janardhan, sebagaimana dihimpun KompasTekno dari laman Facebook Engineering, Rabu (6/10/2021).

Penyakit di tulang punggung Facebook

Janardhan menjelaskan, sebelum mengetahui titik masalah gangguan Facebook, WhatsApp, dan Instagram secara massal kemarin, perlu diketahui terlebih dahulu bahwa tiga layanan tersebut berjalan di atas jaringan tulang punggung (backbone) yang sama.

Backbone ini dibangun untuk menghubungkan semua fasilitas komputasi dari layanan Facebook Inc. Bentuknya berupa kabel serat optik sepanjang puluhan ribu kilometer yang terbentang di seluruh dunia dan menghubungkan semua pusat data (data center) Facebook.

Beberapa pusat data berupa gedung fisik. Di dalamnya terdapat komputer-komputer yang menyimpan data dan memproses beragam tugas untuk menjalankan semua layanan Facebook.

Pusat data lainnya berupa fasilitas yang lebih kecil yang menghubungkan jaringan backbone Facebook ke internet dan para pengguna platform Facebook Inc.

Di jaringan backbone dan pusat data Facebook inilah terjadi pertukaran data yang diminta oleh pengguna Facebook, WhatsApp, dan Instagram di seluruh dunia.

Lalu lintas data antara semua fasilitas komputasi Facebook ini dikelola oleh router backbone, yang mencari tahu ke mana harus mengirim semua data yang masuk dan keluar.

"Di situlah informasi atau perintah yang diinginkan pengguna diambil dan diproses. Setelah itu, data akan dikirimkan kembali melalui jaringan backbone ke ponsel pengguna," kata Janardhan.

Saat pertukaran data berhasil, maka perintah pengguna tadi akan terealisasi. Misalnya refresh feed Instagram tadi sehingga menampilkan posting terbaru dari teman-teman.

Sederhananya, backbone dan pusat data merupakan bagian terpenting agar layanan Facebook, Instagram, serta WhatsApp bisa diakses dengan normal oleh pengguna. Ketika ada gangguan, dampaknya bisa terasa ke seluruh pengguna tiga layanan tersebut.

Gabungan salah perintah dan bug

Janardhan mengatakan, Facebook sering kali melakukan pemeliharaan rutin pada infrastruktur miliknya.

Ketika melakukan pemeliharaan, teknisi Facebook kadang perlu memutus akses ke sebagian jaringan backbone agar bisa melakukan maintencance. Entah untuk memperbaiki jaringan kabel,  menambah kapasitas, memperbarui perangkat lunak, atau hal lainnya.

Nah, saat melakukan maintenance pada Senin lalu, ada perintah (command) yang diberikan ke sistem untuk memantau kapasitas jaringan backbone secara global.

Menurut Janardhan, sistem Facebook sebenarnya memiliki kemampuan audit untuk mencegah kesalahan perintah seperti ini. Namun, ternyata ada bug yang menyebabkan sistem gagal mendeteksi dan mencegat command tersebut.

"Ini menyebabkan koneksi server antara pusat-pusat data kami dan jaringan internet menjadi terputus seluruhnya. Kehilangan koneksi secara total menimbulkan masalah kedua yang memperparah keadaan," ujarnya.

DNS tak dapat diakses, server Facebook terisolasi

Masalah kedua yang dimaksud Janardhan adalah server Domain Name System (DNS) Facebook yang tidak bisa diakses karena backbone di belakangnya bertumbangan.

Janardhan menjelaskan, salah satu hal yang dilakukan oleh fasilitas data center Facebook yang lebih kecil adalah merespons DNS ketika diakses oleh pengguna.

DNS sendiri berperan untuk menerjemahkan nama host atau situs (seperti Facebook.com), menjadi alamat IP yang dapat dibaca komputer. Nantinya, server DNS mengirimkan alamat IP yang dimaksud melalui protokol bernama Border Gateway Protocol (BGP).

Selain berisi alamat IP dari nama DNS-nya, BGP juga bertugas untuk menentukan rute data yang diambil saat melewati lalu lintas informasi, sehingga alamat IP bisa diakses pengguna.

Masalahnya, server DNS Facebook dirancang untuk menonaktifkan protokol BGP ketika server terputus atau terdeteksi tidak bisa berkomunikasi dengan data center Facebook.

Nah, saat gangguan kemarin, kesalahan pada jaringan backbone membuat koneksi server Facebook terputus total dari data center. Secara otomatis, protokol BGP ini juga berhenti bekerja.

"Hasil akhirnya adalah server DNS kami menjadi tidak dapat dijangkau meskipun masih beroperasi. Ini membuat seluruh internet tidak mungkin menemukan server kami," kata Janardhan.

Dengan kata lain, efek domino dari kesalahan perintah tadi mengisolasi server Facebook dkk. dari jaringan internet selebihnya. Pengguna pun tidak bisa mengakses situs serta layanan Facebook, Instagram, WhatsApp, dan Messenger.

Perbaikan rumit dan makan waktu lama

Janardhan mengatakan, gangguan layanan Facebook Inc. terjadi begitu cepat, tapi tidak demikian dengan upaya perbaikannya yang ternyata membutuhkan waktu lama dan rumit sehingga layanan Facebook dkk. offline berjam-jam.

Janardhan mengatakan ada dua kendala besar yang dihadapi tim teknisi Facebook. Pertama, data center tidak bisa diakses seperti biasa karena jaringan terputus alias offline. Kendala kedua adalah hilangnya DNS Facebook Inc.

"Hilangnya DNS secara keseluruhan ikut menumbangkan banyak tools internal yang biasanya kami gunakan untuk menyelidiki dan menyelesaikan pemadaman layanan seperti ini," kata Janardhan.

Mau tak mau, Facebook pun harus mengirim teknisinya langsung ke pusat-pusat data di lapangan karena perbaikan tidak bisa dilakukan dari jauh. Mereka harus melakukan debug dan restart sistem supaya kembali beroperasi.

Namun, masalahnya masih belum selesai sampai di situ. Tim lapangan sulit mengakses server secara fisik karena pusat-pusat data memang dirancang dengan keamanan tinggi untuk mencegah campur tangan dari orang tak bertanggung jawab.

"Butuh waktu ekstra untuk melewati semua protokol keamanan, supaya teknisi bisa ke lapangan dan mulai memperbaiki server," ujar Janardhan.

Begitu server online dan koneksi backbone kembali tersambung, layanan-layanan Facebook dkk kembali dinyalakan secara bertahap untuk mencegah lonjakan daya listrik dan banjir trafik yang bisa menyebabkan masalah lain.

Janardhan mengatakan pihak Facebook ikut memetik pelajaran dari tumbangnya layanan selama 8 jam. Menurut dia, selama ini belum pernah ada simulasi dari perusahaan untuk mengantisipasi kejadian seperti Senin lalu, saat backbone Facebook tumbang secara global.

"Ke depan, kami akan mencari cara untuk menyimulasikan event macam demikian. Setiap kegagalan adalah kesempatan untuk belajar dan menjadi lebih baik. Ada banyak pelajaran yang kami ambil dari kejadian terakhir itu," ujar Janardhan.

https://tekno.kompas.com/read/2021/10/06/17010097/penjelasan-resmi-penyebab-tumbangnya-facebook-instagram-dan-whatsapp

Baca berita tanpa iklan. Gabung Kompas.com+
Baca berita tanpa iklan. Gabung Kompas.com+
Baca berita tanpa iklan. Gabung Kompas.com+
Baca berita tanpa iklan. Gabung Kompas.com+
Close Ads
Bagikan artikel ini melalui
Oke