网易云音乐崩了!

共 2363字,需浏览 5分钟

 ·

2024-08-20 13:00

19日下午3点左右,许多网友在各大社交平台上反映网易云音乐的App和网页版都出现了“瘫痪”现象,不仅歌曲加载失败、无法播放,甚至页面也打不开,播客和直播功能也无法使用。“听着听着歌突然停了,再也放不了了”“播放不出来,卸载重装后直接登不上”“以为手机坏了、网络断了,怎么也没想到是App的问题”……不少正在听音乐的网友被迫中断了他们的午后时光。
故障发生期间,有传言称网易云音乐的“瘫痪”是因为开发者删除了数据库并逃跑,个人觉得不太可能。
  • 删库、删表这种操作不是普通的开发人员能随便执行的,即使是开发团队的领导也没有这样的权限。至少需要DBA的权限才能操作,而在管控严格的公司,甚至还需要总架构师的审批。
  • 外行可能觉得删库、删表是个大问题,但其实恢复的速度并不慢。像网易这样的公司,主从集群、多活和灾备机制都比较健全。按理说,20分钟内就应该有部分用户恢复正常使用了。但这次事故情况严重,已经快两个小时了还没恢复,所以“删库跑路”的说法基本可以排除。
官方的解释是基础设施故障。
可能是网易云音乐杭州机房迁移到贵州机房导致的。
他们的迁移计划看起来挺复杂的。
文章链接如下:
https://finance.eastmoney.com/a/202408193159666519.html
项目难点:
  • 迁移规模大:需要把云音乐及其独立应用的所有服务迁移到贵州。这次涉及到2000多个应用、每秒百万级的请求,并且还要迁移中间件、存储、机房及第三方依赖服务,规模庞大。

  • 业务复杂:业务场景多样,不同场景对数据一致性和延迟有不同要求,迁移方案必须考虑这些因素,提供标准化解决方案。此外,2000多个应用间的调用和依赖也非常复杂,分批迁移时要协调好跨机房的延迟问题。

  • 历史问题多:贵州迁移前已经有很多历史技术问题,这些问题影响整体的稳定性。
  • 风险大:迁移过程中会有很多新风险,且难以解决。部分场景难以在真实环境下完全模拟,基础设施建设也有不足之处,影响迁移的效率和准确性。
  • 限制条件严苛:云音乐用户多,这次迁移要求不停机、不出重大故障。还需要考虑机器、带宽、网络稳定性等多种因素。
  • 协调难度大:迁移规模大,参与人员多,协调难度也随之增加。另外,任何一个小细节没做好,都可能导致全局性事故。
如果迁移的团队中再有人被降本增效了,那出现此类事故也就在情理之中了。
网易云音乐突然来这么一出,可能会把QQ音乐的员工年终奖往上抬一抬。QQ音乐员工应该感谢网易云音乐员工刷的这波火箭(手动狗头)。

此外,我建立了各大城市的产品交流群,想进群小伙伴加微信:chanpin626  我拉你进群。(加过微信:chanpin628或yw5201a1的别加,分享内容一样,有一个号就行)

视频号推荐

关注微信公众号:产品刘 可领取大礼包一份。

··················END··················
今日报告:中物联 发布2023年货车司机从业状况调查报告下载报告去公众号:硬核刘大  后台回复“货车司机”,即可下载完整PDF文件。
申明:报告版权归 中物联 所有,此处仅限分享学习使用,如有侵权,请联系小编做删除处理。

RECOMMEND

推荐阅读
广州值得加入的互联网公司
手把手教你做AI产品经理
手把手教你画「用户旅程图」
线下实战2.0

点击“阅读原文”

查看更多干货

浏览 192
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐