割接时路由配置错误,导致全网瘫痪

共 1772字,需浏览 4分钟

 ·

2021-10-30 23:30

来源:网优雇佣军

物联网智库 转载

二次转载请联系原作者

导  读

10月25日,韩国运营商KT的整个有线和无线互联网服务在全国范围内发生中断,导致其所有客户在大约一个小时内无法连接互联网和使用电话服务。



当地时间2021年10月25日11点20分开始,韩国运营商KT的整个有线和无线互联网服务在全国范围内发生中断,导致其所有客户在大约一个小时内无法连接互联网和使用电话服务。


同时,因KT整网服务中断,还并发导致了韩国另外两家运营商SKT和LG U+的网络拥塞。


可以说,在这一个小时内,韩国通信界遭遇了“至暗时刻”。


10月26日,KT官网以CEO的名义发布了公开致歉信,并对事故原因进行了确认。


信中表示,对于引起这起重大网络事故的原因,最初估计是因外部DDoS攻击导致,但最终确认原因为:在更换路由器以升级网络的时候,因网络路由设置错误导致。


路由设置错误,可能会导致数据流量流向不正确而引起局部节点负荷过载,从而引发全网瘫痪。


看起来,与前几天日本软银遭遇的网络重大故障相似,本次事故也是因割接导致。


尽管KT已公布故障原因,但并未进行详细解释,仍然给业界留下了不少谜团...



1.为何没有自愈保护?


电信网络一直以高稳定性、高可靠性著称,早在PSTN电话网络时代,网络线路就设置了1+1保护或自愈保护,主用线路在发生中断后,通常可在50ms内自动切换到备用线路,或从相反方向迂回连通。


2018年11月,因KT位于首尔Ahyeon区中心的电信大楼发生火灾,导致该地区网络瘫痪,通信服务中断了数天。事后,有韩国业内人士质疑,这可能是因为KT的网络拓扑设计不够先进,设备和线路的冗余配置和自愈保护不够完善导致。他认为,尽管KT的骨干汇聚网络拥有充分的冗余配置和自愈保护机制,但在昂贵而庞大的接入网部分,冗余配置不够充足,环状自愈保护设计不够完善,从而导致了此次火灾后网络长时间中断。


但本次事故比2018年的火灾事故要严重得多,火灾事故影响范围为一个区域,而本次事故影响范围为全国。既然影响范围这么广,可以估计,本次事故的故障点并非在网络接入层,而是在网络骨干核心部分,这就好比“主动脉”阻塞,导致全网的“血液”输送不畅。



那问题是,难道KT的核心网络也缺乏完善的自愈保护机制?这显然是不太可能的。那是不是还有其他原因?


2.是否因为BGP路由配置错误导致?


BGP路由错误会阻止数据包到达其预期的IP 地址和服务器而导致服务中断。联想到最近 Facebook、Instagram和WhatsApp服务中断均由BGP路由问题导致,一些业内人士推测可能是由于BGP配置错误导致。


3.为什么割接操作在白天进行?


为避免影响网络业务,割接操作一般都在凌晨进行,这是电信业的常识。但本次事故因“更换路由器以升级网络”引起,且事故发生时间为白天。难道有什么不得已的原因非要在白天11点进行割接操作?还是因为凌晨割接操作后,白天才发生了故障?


4.是设备问题还是人工操作失误?


路由配置可能是自动化的,也可能是人工操作,那到底是设备的问题,还是人工操作失误?


不管是设备问题,还是人为操作失误,还是缺乏备份系统,一些韩国业内人士表示,这都反映了KT在网络和流程管理上存在疏忽。


“2021 中国AIoT产业年年会”重磅来袭!

12月9日 深圳机场凯悦酒店

版权声明:“物联网智库”除发布原创干货以外,致力于优秀科技/研究/投资类文章精选、精读。部分文章推送时未能与原作者取得联系。若涉及版权问题,或由于二次转载标错了转载来源,敬请原作者联系我们。联系方式:微信wangsujing1314

往期精选

又三家!遭国安法调查,与滴滴

同为6月赴美上市公司……

史无前例?滴滴遭国安法调查,

新用户停止注册!官方回应……

上汽不接受华为自动驾驶,OPPO

曾冷嘲鸿蒙,为什么华为……

“吊打鸿蒙”or“黯然失色”?一款硬件

都没有的苹果开发者大会……

我在“别人家的学校”,看到了

智慧食堂的未来……

598亿总规划的济南泉芯也烂尾了,

“烂芯”操盘者曹山的回应能安人心吗?



浏览 21
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报