618数据洪峰来了 一键下单背后都有哪些技术支撑?
共 2433字,需浏览 5分钟
·
2021-06-19 22:23
618大促来临,在零点的时候,你打开购物车、点点点、清空,整个过程一气呵成。但背后,成千上万的数据在马不停蹄、加速流转,以保障消费体验流畅有序。
腾讯云和数据库服务是背后默默守护的“无名英雄”。电商订单、支付、物流等核心链路,都是以数据库为基础。一旦数据库成为瓶颈、或任何细微的疏忽,整个618大促将会变成一个大型“灾难现场”。
一场电商大促,涉及到的数据量有多大?
以一个消费者的购买过程为例,一次下单行为,对于后端数据库就有多次读写调用;如果是秒杀场景就会产生“热点更新”的问题,更是对数据库内核优化能力的一种“洗礼”;跨店铺结算、资金金额,涉及到存储核心交易数据的数据库,每一个字符都代表着真金白银,下单失败要进行回滚,更是对后端系统多个组件的考验;还有物流数据库等都在支撑着整个电商交易环节…
这还只是一个用户的行为,618当天,有上亿人都在重复这个动作,想象一下这个数据量级:一个下单动作会涉及几十条、甚至上百条的数据库读写操作,如果保守估计按1亿人参与大促来计算,618数据库涉及上百亿次的查询或读写要求。
腾讯云服务了京东、唯品会、蘑菇街、每日优鲜、贝店、什么值得买等主流电商客户,是国内服务电商客户数量最多、范围最广的云厂商。一到大促节点,数据量级就会几何级增长。
据不完全统计,今年腾讯云数据库为电商客户承载了十亿级别的QPS(每秒查询数)、PB级别的数据存储量,整个大促期间数据库平稳有序运行。
一、预先评估、读写分离、一键扩容等系统能力为618保驾护航
每次大促前至少一个月,腾讯云数据库团队都要和电商客户一起评估资源:业务量会增长多少,同比、环比是否有增长预期。如果预计流量会翻3-5倍,团队就会和客户一起去考量现有数据库整体性能是否能满足资源,以及需要做多少扩容准备。
这个时间周期有可能会拉长到提前2个月,扩容这一关键步骤确定后,准备工作即告一段落。
腾讯云数据库可支持秒级弹性扩容。以腾讯云数据库Redis为例,Redis通过提供大规模的集群产品,为电商客户提供稳定的高并发低延迟的缓存服务,操作起来也极为简便,运维人员仅需在控制台点击一个按钮,即可操作完成数倍业务规格增长的弹性扩展。
在本轮618之前,Redis数据库曾支持过腾讯会议高并发的考验:在八天时间内腾讯会议完成了100万核云服务器扩展的同时,Redis集群仅在半小时以内就高效完成了数十倍规模的扩容,单集群的扩容流程后台处理时间不超过30分钟,同时保持了100%的系统可用性,在整个资源扩展过程中,腾讯会议服务始终保持着大规模的在线运行,海量用户无感知,依然能够高清流畅无卡顿的进行会议。
腾讯云Redis是国内唯一一款具备无损扩容能力的Redis数据库产品。堪称一键“加油”。
618当天,最紧张的时刻就要来临了。
现场调度、后端运维、研发团队等都会全力保驾护航。数据库团队也会专人去客户现场,责任到人、排好班,后端研发运维团队也会做到万无一失,24小时前所有人员就位,预检开始。
零点时分峰值飙升,凌晨2点、早上8点、10点……数据峰值呈现出波形趋势。腾讯云数据库团队会实时观测数据和大盘。
一些细节很能说明问题,比如大盘CPU,实时CPU会缓慢爬升,10%、20%… 随着抢购进入高潮,实时CPU上升接近50%时,运维人员就需要发出预警。超过50%,团队就要和客户一起想办法,采取扩容等策略,争取把问题消除在萌芽状态。
另外一个核心指标是线程数,这是衡量一个数据库运转是否健康的重要指标,即有多少个线程在同步运转。一旦发现超出正常运行的线程数,立即排查处理。
在高峰期,云原生数据库TDSQL-C(原CynosDB)的“日志即数据库”的计算与存储分离架构将系统可能出现的问题消弭于无形,计算层和存储层可以分别独立弹性扩展,支持秒级升降配和故障恢复。
TDSQL-C完全兼容MySQL以及PostgreSQL等开源协议的产品特性,使得企业业务“零”改造就可以平滑地迁移到TDSQL-C,帮助用户业务快速上云:TDSQL-C拥有130万QPS的高性能和128TB海量存储能够充分满足企业长期的业务需求。
另外TDSQL-C 支持Serverless形态,是国内首款计算和存储全Serverless架构的云原生MySQL数据库,让用户像使用水、电、煤一样使用数据库。
二、自动化运维已成为电商大促常态
历经数十年发展,数据库运维已经度过石器时代、工具时代、专家时代,随着工具的日趋成熟,低价值的工作量得以解放,DBA价值不断提升,数据库运维进入了智能时代。
为了最大程度降低618大促期间的成本及消耗,腾讯云数据库智能运维管家DBbrain能够帮客户做巡检、运维和优化的工作。
DBbrain是腾讯云结合前沿人工智能技术推出的一款数据库智能诊断和优化产品。DBbrain支持多款 SQL、NoSQL、NewSQL 数据库类型,可以为用户提供7*24小时数据库异常发现、诊断分析等数据库自治能力,并通过智能化告警服务及时触达用户;同时提供专家建议和一键优化功能,利用AI技术为用户提供在线自动优化数据库性能的服务,针对业务访问特性定制化生成最优配置,大幅提高数据库运维效率。
除了7*24小时的实时诊断优化,DBbrain还具有安全威胁识别、混合云管理数据库和掌上数据库运维等功能。依托腾讯云专业的深度学习算法模型和海量样本训练环境,它可以应对变化多端的攻击场景,对各类变体攻击以及非常见威胁操作实现监控和告警。比如,访问量超标,或者系统出现故障。
同时DBbrain能够适用于云上、云下数据库场景,不仅为腾讯云数据库实例提供诊断优化服务,也支持用户自建的数据库和其他云部署的数据库实例,为用户打造数据库混合云管理的场景提供助力。另外,腾讯云还联合微信团队将DBbrain的监控、异常诊断、优化建议以及数据库管理功能集中在了移动端,运维通过手机便可直接完成。极大地降低了电商客户的运维成本。
↓↓更多惊喜优惠请点这儿~