Vì sao Facebook mất hơn 6 tiếng để khắc phục sự cố?
Các nhân viên của Facebook không thể xử lý sự cố từ xa, dẫn tới việc sửa chữa kéo dài hơn dự tính trong vụ sập hệ thống kỷ lục hơn 6 tiếng đồng hồ.
Từ khoảng 22h34 ngày 4/10 theo giờ Việt Nam, đồng loạt các dịch vụ của Facebook bao gồm Instagram và WhatsApp đều không thể truy cập được gây ảnh hưởng tới hàng tỷ người dùng, hàng triệu nhà quảng cáo.
Cho đến sáng hôm sau (5/10), sự cố mới được Facebook khắc phục và mọi dịch vụ của mạng xã hội lớn nhất hành tinh mới hoạt động trở lại bình thường.
Sự cố kéo dài hơn 6 tiếng của Facebook liên quan đến một giao thức đã bị chỉnh (config) sai.
Facebook không đưa ra lời giải thích nào về nguyên nhân sự cố. Nhưng theo Phó chủ tịch Cloudflare Dane Knecht, một giao thức định tuyến có tên gọi BGP của Facebook đã bị rút khỏi Internet. Đây là giao thức giúp xác định tuyến đường đi trên Internet nhanh nhất có thể và nó có ảnh hưởng tới DNS và những dịch vụ khác.
Hệ quả là truy cập vào các dịch vụ của Facebook không thể thực hiện được khi mọi thiết bị đều chọn con đường xa nhất, khiến cho kết nối kéo dài và tự động bị ngắt. Để sửa chữa, Facebook phải cấu hình lại giao thức BGP ở máy chủ đặt tại trung tâm dữ liệu (data center) của riêng mình.
Vấn đề phát sinh ở chỗ các nhân viên trực tại trung tâm dữ liệu được cấp email riêng dùng cho công việc và có thể gửi mail cho nhau, nhưng không thể nhận mail từ bên ngoài.
Họ không thể dùng email này xác thực truy cập vào các công cụ như Google Docs hoặc Zoom mà phải dùng FaceTime hoặc Discord. Tuy nhiên, việc kết nối giữa người bên trong trung tâm dữ liệu và người có khả năng sửa chữa ở bên ngoài lại gặp trục trặc.
Facebook không thể xử lý sự cố từ xa và buộc phải đưa kỹ sư vào tận trung tâm dữ liệu để sửa chữa. |
Hệ quả là nhân viên của Facebook không thể tiến hành sửa chữa từ xa mà phải giành quyền truy cập vật lý tại chỗ. Ít nhất hai kỹ sư đã phải trực tiếp đến trung tâm dữ liệu đặt ở California để xử lý sự cố. |
Cộng thêm ảnh hưởng của Covid-19, lực lượng túc trực ở trung tâm dữ liệu mỏng hơn bình thường và việc tiếp cận để sửa chữa cũng tốn nhiều thời gian hơn.
Trong một email gửi nhân viên sau sự cố, Giám đốc công nghệ của Facebook Mike Schroepfer thừa nhận sự cố đã ảnh hưởng tới mạng lưới xương sống kết nối tất cả trung tâm dữ liệu với nhau.
Mike Schroepfer nhắc các nhân viên bình tĩnh và không vội vàng tải lại mọi thứ, tránh làm chậm quá trình sửa chữa. Vì vậy, sau hơn 6 tiếng đồng hồ gián đoạn, mọi dịch vụ của Facebook mới hoạt động trở lại bình thường.