CTO Cloudflare ขออภัย หลังบั๊กในระบบทำเว็บดังล่มหลายแห่ง ชี้ "เราทำให้ลูกค้าผิดหวัง"

Cloudflare ยืนยันว่าบั๊กในบริการหลักตัวหนึ่งของบริษัทเป็นสาเหตุให้เกิดการล่มครั้งใหญ่เมื่อวันอังคาร ซึ่งทำให้อินเทอร์เน็ตส่วนใหญ่ใช้งานไม่ได้และส่งผลกระทบต่อทราฟฟิกของบริการต่าง ๆ รวมถึง X, ChatGPT และที่น่าขันคือ Downdetector ด้วย

Dane Knecht ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยี (CTO) ของบริษัท ได้โพสต์ขออภัยต่อสาธารณะทันทีหลังจากที่บริการกลับมาใช้งานได้ โดยเรียกเหตุการณ์นี้ว่า “ยอมรับไม่ได้” และระบุว่าความขัดข้องเกิดจากการเปลี่ยนแปลงการตั้งค่าตามปกติ (routine configuration change) ซึ่งกระตุ้นให้ชั้นการบรรเทาผลกระทบจากบอต (bot mitigation layer) เกิดการขัดข้อง

เหตุการณ์เริ่มต้นขึ้นประมาณ 11:48 UTC (เวลาสากลเชิงพิกัด) ของวันที่ 18 พฤศจิกายน โดยเว็บไซต์สถานะอย่างเป็นทางการของ Cloudflare ยอมรับว่าเกิด “ความเสื่อมโทรมของบริการภายใน” เมื่อปัญหาแพร่กระจาย ผู้ใช้ในหลายภูมิภาครายงานว่าไม่สามารถเข้าถึงได้ไม่เพียงแต่เว็บไซต์ที่อยู่ภายใต้การสนับสนุนของ Cloudflare เท่านั้น แต่ยังรวมถึงบริการ Access และ WARP ของบริษัทด้วย บริษัทได้ระบุในภายหลังว่าสาเหตุของปัญหาคือการพึ่งพา (dependency) เฉพาะอย่างในเครื่องมือป้องกันบอต

“เราทำให้ลูกค้าและอินเทอร์เน็ตโดยรวมผิดหวัง” Knecht เขียน “บั๊กแฝงในบริการที่รองรับความสามารถในการบรรเทาผลกระทบจากบอตของเรา เริ่มเกิดการขัดข้องหลังจากมีการเปลี่ยนแปลงการตั้งค่าตามปกติ และนั่นส่งผลกระทบต่อเครือข่ายและบริการอื่น ๆ ของเราอย่างกว้างขวาง นี่ไม่ใช่การโจมตี”

ภายใน 14:42 UTC Cloudflare ได้นำการแก้ไขไปใช้งานและเริ่มกู้คืนส่วนประกอบที่ได้รับผลกระทบ การทำงานของแดชบอร์ด รวมถึงการวิเคราะห์และบันทึกข้อผิดพลาด ยังคงใช้งานได้บางส่วนในช่วงบ่าย เนื่องจากวิศวกรได้เฝ้าระวังข้อบกพร่องที่ยังคงหลงเหลืออยู่ นอกจากนี้ ยังมีการระงับการเข้าถึง WARP ในลอนดอนเป็นการชั่วคราวซึ่งเป็นส่วนหนึ่งของกระบวนการบรรเทาผลกระทบ

ชุดเทคโนโลยีการบรรเทาผลกระทบจากบอตของ Cloudflare ซึ่งรวมถึงขั้นตอนการท้าทาย (challenge flows) เช่น Turnstile และชั้นการตรวจสอบ JavaScript จะทำงานพร้อมกับทราฟฟิกของเว็บไซต์และ API ที่มีชื่อเสียงหลายแห่ง เนื่องจากระบบเหล่านี้ไม่เพียงแต่ใช้เพื่อบล็อกผู้ไม่ประสงค์ดีเท่านั้น แต่ยังใช้เพื่อจำกัดการเข้าถึงสำหรับผู้ใช้ที่ถูกต้องตามกฎหมายด้วย ดังนั้น ข้อผิดพลาดในชั้นนี้อาจส่งผลให้เกิดการหยุดชะงักของบริการอย่างกว้างขวาง แม้ว่าโครงสร้างพื้นฐานหลักของ CDN หรือ DNS ยังคงทำงานอยู่ก็ตาม

นี่เป็นการหยุดชะงักครั้งใหญ่ครั้งที่สามที่ส่งผลกระทบต่อเว็บไซต์หลัก ๆ ภายในเวลาไม่ถึงหนึ่งเดือน ในเดือนตุลาคม ส่วนใหญ่ของ AWS US-East-1 ใช้งานไม่ได้เป็นเวลานานกว่าสองชั่วโมง ซึ่ง Amazon ระบุในภายหลังว่าเป็นผลมาจากการตั้งค่า DNS ที่ผิดพลาด หลังจากนั้นไม่กี่วัน การหยุดชะงักครั้งใหญ่ของ Azure ก็กระทบต่อ Microsoft

เหตุการณ์เหล่านี้ได้ก่อให้เกิดคำถามที่กว้างขึ้นเกี่ยวกับวิธีที่บริการและแพลตฟอร์มที่ใช้กันอย่างแพร่หลายจัดการกับข้อผิดพลาดของบริการภายในและการแยกส่วนการพึ่งพา (dependency isolation) ในระดับขนาดใหญ่ เนื่องจากอินเทอร์เน็ตประมาณ 19% พึ่งพา Cloudflare ในขณะที่ Azure และ AWS คิดเป็นประมาณ 24% และ 30% ของตลาดคลาวด์คอมพิวติ้งตามลำดับ

แหล่งข้อมูล https://www.tomshardware.com/service-providers/cloudflare-apologizes-after-outage-takes-major-websites-offline