Baca berita tanpa iklan. Gabung Kompas.com+

Penjelasan Resmi Penyebab Tumbangnya Facebook, Instagram, dan WhatsApp

Kompas.com - 06/10/2021, 17:01 WIB
Galuh Putri Riyanto,
Oik Yusuf

Tim Redaksi

KOMPAS.com - Layanan Facebook Inc. yang mencakup Facebook, WhatsApp, Instagram, dan Messenger tumbang pada Senin (4/10/2021) malam. Ketiganya lumpuh selama lebih kurang 8 jam dan baru mulai pulih pada Selasa (5/10/2021) pagi.

Gangguan layanan Facebook Inc. ini memang kerap terjadi, namun gangguan kemarin menjadi salah satu yang terparah. Terkait hal ini, Facebook selaku perusahaan induk menjelaskan masalah di balik tumbangnya layanan Facebook, Instagram, dan WhatApp.

Dalam sebuah posting di blog resmi, VP Infrastructure di Facebook, Santosh Janardhan mengatakan bahwa gangguan kemarin disebabkan oleh kesalahan internal yang tidak disengaja.

Baca juga: Facebook, Instagram, WhatsApp Down di Berbagai Negara Malam Ini

Ia mengatakan, masalah berakar di jaringan backbone saat melakukan pemeliharaan rutin pada infrastruktur Facebook. Problem tersebut menghasilkan efek domino yang membuat upaya perbaikan menjadi rumit dan butuh waktu lama.

Berikut penjelasan Janardhan, sebagaimana dihimpun KompasTekno dari laman Facebook Engineering, Rabu (6/10/2021).

Penyakit di tulang punggung Facebook

Janardhan menjelaskan, sebelum mengetahui titik masalah gangguan Facebook, WhatsApp, dan Instagram secara massal kemarin, perlu diketahui terlebih dahulu bahwa tiga layanan tersebut berjalan di atas jaringan tulang punggung (backbone) yang sama.

Backbone ini dibangun untuk menghubungkan semua fasilitas komputasi dari layanan Facebook Inc. Bentuknya berupa kabel serat optik sepanjang puluhan ribu kilometer yang terbentang di seluruh dunia dan menghubungkan semua pusat data (data center) Facebook.

Baca juga: Facebook, WA, IG Sudah Down 8 Jam, Error dari Jam 10 Malam

Beberapa pusat data berupa gedung fisik. Di dalamnya terdapat komputer-komputer yang menyimpan data dan memproses beragam tugas untuk menjalankan semua layanan Facebook.

Pusat data lainnya berupa fasilitas yang lebih kecil yang menghubungkan jaringan backbone Facebook ke internet dan para pengguna platform Facebook Inc.

Di jaringan backbone dan pusat data Facebook inilah terjadi pertukaran data yang diminta oleh pengguna Facebook, WhatsApp, dan Instagram di seluruh dunia.

Pusat data (data center) Facebook di Lingkar Arktik.Ist Pusat data (data center) Facebook di Lingkar Arktik.
Saat, pengguna ingin me-refresh feed Instagram, misalnya, perintah ini akan ditransfer dari ponsel pengguna ke data center Facebook terdekat. Transfer ini berjalan di atas backbone tadi menuju pusat data yang lebih besar.

Lalu lintas data antara semua fasilitas komputasi Facebook ini dikelola oleh router backbone, yang mencari tahu ke mana harus mengirim semua data yang masuk dan keluar.

"Di situlah informasi atau perintah yang diinginkan pengguna diambil dan diproses. Setelah itu, data akan dikirimkan kembali melalui jaringan backbone ke ponsel pengguna," kata Janardhan.

Saat pertukaran data berhasil, maka perintah pengguna tadi akan terealisasi. Misalnya refresh feed Instagram tadi sehingga menampilkan posting terbaru dari teman-teman.

Sederhananya, backbone dan pusat data merupakan bagian terpenting agar layanan Facebook, Instagram, serta WhatsApp bisa diakses dengan normal oleh pengguna. Ketika ada gangguan, dampaknya bisa terasa ke seluruh pengguna tiga layanan tersebut.

Gabungan salah perintah dan bug

Janardhan mengatakan, Facebook sering kali melakukan pemeliharaan rutin pada infrastruktur miliknya.

Ketika melakukan pemeliharaan, teknisi Facebook kadang perlu memutus akses ke sebagian jaringan backbone agar bisa melakukan maintencance. Entah untuk memperbaiki jaringan kabel,  menambah kapasitas, memperbarui perangkat lunak, atau hal lainnya.

Baca juga: Layanan Down, Facebook, Instagram, dan WhatsApp Minta Maaf lewat Twitter

Nah, saat melakukan maintenance pada Senin lalu, ada perintah (command) yang diberikan ke sistem untuk memantau kapasitas jaringan backbone secara global.

Namun, alih-alih memberikan informasi yang diminta, command tersebut malah memutus semua koneksi di backbone Facebook. Pusat-pusat data Facebook di seluruh dunia pun jadi offline karena tak saling terhubung.

Data center FacebookReadWrite Data center Facebook

Menurut Janardhan, sistem Facebook sebenarnya memiliki kemampuan audit untuk mencegah kesalahan perintah seperti ini. Namun, ternyata ada bug yang menyebabkan sistem gagal mendeteksi dan mencegat command tersebut.

"Ini menyebabkan koneksi server antara pusat-pusat data kami dan jaringan internet menjadi terputus seluruhnya. Kehilangan koneksi secara total menimbulkan masalah kedua yang memperparah keadaan," ujarnya.

DNS tak dapat diakses, server Facebook terisolasi

Masalah kedua yang dimaksud Janardhan adalah server Domain Name System (DNS) Facebook yang tidak bisa diakses karena backbone di belakangnya bertumbangan.

Janardhan menjelaskan, salah satu hal yang dilakukan oleh fasilitas data center Facebook yang lebih kecil adalah merespons DNS ketika diakses oleh pengguna.

DNS sendiri berperan untuk menerjemahkan nama host atau situs (seperti Facebook.com), menjadi alamat IP yang dapat dibaca komputer. Nantinya, server DNS mengirimkan alamat IP yang dimaksud melalui protokol bernama Border Gateway Protocol (BGP).

Baca juga: Pakar Ungkap Penyebab Facebook, Instagram, WhatsApp Error Hari Ini

Selain berisi alamat IP dari nama DNS-nya, BGP juga bertugas untuk menentukan rute data yang diambil saat melewati lalu lintas informasi, sehingga alamat IP bisa diakses pengguna.

Masalahnya, server DNS Facebook dirancang untuk menonaktifkan protokol BGP ketika server terputus atau terdeteksi tidak bisa berkomunikasi dengan data center Facebook.

Nah, saat gangguan kemarin, kesalahan pada jaringan backbone membuat koneksi server Facebook terputus total dari data center. Secara otomatis, protokol BGP ini juga berhenti bekerja.

"Hasil akhirnya adalah server DNS kami menjadi tidak dapat dijangkau meskipun masih beroperasi. Ini membuat seluruh internet tidak mungkin menemukan server kami," kata Janardhan.

Dengan kata lain, efek domino dari kesalahan perintah tadi mengisolasi server Facebook dkk. dari jaringan internet selebihnya. Pengguna pun tidak bisa mengakses situs serta layanan Facebook, Instagram, WhatsApp, dan Messenger.

Perbaikan rumit dan makan waktu lama

Janardhan mengatakan, gangguan layanan Facebook Inc. terjadi begitu cepat, tapi tidak demikian dengan upaya perbaikannya yang ternyata membutuhkan waktu lama dan rumit sehingga layanan Facebook dkk. offline berjam-jam.

Janardhan mengatakan ada dua kendala besar yang dihadapi tim teknisi Facebook. Pertama, data center tidak bisa diakses seperti biasa karena jaringan terputus alias offline. Kendala kedua adalah hilangnya DNS Facebook Inc.

"Hilangnya DNS secara keseluruhan ikut menumbangkan banyak tools internal yang biasanya kami gunakan untuk menyelidiki dan menyelesaikan pemadaman layanan seperti ini," kata Janardhan.

Mau tak mau, Facebook pun harus mengirim teknisinya langsung ke pusat-pusat data di lapangan karena perbaikan tidak bisa dilakukan dari jauh. Mereka harus melakukan debug dan restart sistem supaya kembali beroperasi.

Baca juga: Ketika Sistem Internal Facebook Juga Bermasalah Saat FB, IG, dan WA Down

Namun, masalahnya masih belum selesai sampai di situ. Tim lapangan sulit mengakses server secara fisik karena pusat-pusat data memang dirancang dengan keamanan tinggi untuk mencegah campur tangan dari orang tak bertanggung jawab.

"Butuh waktu ekstra untuk melewati semua protokol keamanan, supaya teknisi bisa ke lapangan dan mulai memperbaiki server," ujar Janardhan.

Begitu server online dan koneksi backbone kembali tersambung, layanan-layanan Facebook dkk kembali dinyalakan secara bertahap untuk mencegah lonjakan daya listrik dan banjir trafik yang bisa menyebabkan masalah lain.

Janardhan mengatakan pihak Facebook ikut memetik pelajaran dari tumbangnya layanan selama 8 jam. Menurut dia, selama ini belum pernah ada simulasi dari perusahaan untuk mengantisipasi kejadian seperti Senin lalu, saat backbone Facebook tumbang secara global.

"Ke depan, kami akan mencari cara untuk menyimulasikan event macam demikian. Setiap kegagalan adalah kesempatan untuk belajar dan menjadi lebih baik. Ada banyak pelajaran yang kami ambil dari kejadian terakhir itu," ujar Janardhan.

Simak breaking news dan berita pilihan kami langsung di ponselmu. Pilih saluran andalanmu akses berita Kompas.com WhatsApp Channel : https://www.whatsapp.com/channel/0029VaFPbedBPzjZrk13HO3D. Pastikan kamu sudah install aplikasi WhatsApp ya.

Video rekomendasi
Video lainnya


Baca berita tanpa iklan. Gabung Kompas.com+
Baca berita tanpa iklan. Gabung Kompas.com+
Baca berita tanpa iklan. Gabung Kompas.com+
komentar di artikel lainnya
Baca berita tanpa iklan. Gabung Kompas.com+
Close Ads
Bagikan artikel ini melalui
Oke
Login untuk memaksimalkan pengalaman mengakses Kompas.com