ChengYing一站式全自动化全生命周期运维管家
ChengYing(承影)作为一站式全自动化全生命周期运维管家,提供大数据产品的一站式部署、运维、监控服务,其可实现产品部署、产品升级、版本回滚、扩缩节点、日志诊断、集群监控、实时告警等功能,致力于最大化节省运维成本,降低线上故障率与运维难度,为客户提供安全稳定的产品部署与监控。
ChengYing 作为一站式全自动化全生命周期的运维管家,具备以下六大特性:
1►自动化部署
ChengYing 通过规范化的步骤和参数约定制作出产品安装包,发布包中的 Schema 文件中配置了安装包中所有的服务,包含各服务的配置参数、健康检查参数,服务之间的依赖关系等。产品部署时可根据 Schema 中的相关配置实现一键全自动化部署。
2►界面化集群运维
Hadoop 集群、大数据平台在日常运维中涉及到的节点扩容缩容、组件停止启动、服务滚动重启、服务参数修改、版本升级与回滚等多种运维操作,通过逻辑化、流程化的产品界面展现,方便运维人员操作和监控,提高运维效率。
3►仪表盘集群监控
通过集成开源的 prometheus 和 grafana,实现对集群、服务、节点的核心参数监控,并通过灵活形象的仪表盘进行数据展现。包含 CPU 占用率,RAM 使用率、磁盘空间、I/O 读写速率等核心参数进行监控,实时掌握集群、服务、节点的运行状态,降低运维故障率。同时,支持用户自建仪表盘及监控项,实现自定义监控项。
4►实时告警
支持实时监控集群中各组件服务的运行指标,如 CPU、内存、磁盘、读写 IO 等,并支持短信、钉钉、邮件告警通道配置,集成多种第三方消息插件。当集群服务出现异常时,可触发告警条件,系统将及时通知接收人。
5►强拓展性
通过自研的 ChengYing Agent Server 抽象出七大 REST 接口,安装、启动、停止、更新、配置修改、卸载、执行等与上层应用进行交互,可使 agent 类别和功能可轻松无限扩展。
6►安全稳定
数据安全、产品安全是大数据产品需要重点考虑的问题。ChengYing 在产品设计中过滤掉 rm、drop 等命令行,防止对数据库的误操作,通过更加安全的方式执行相关命令。同时提供服务的滚动重启、产品的断电重启,解决运维时服务不停止运行的场景并节省运维时间。
►ChengYing 操作页面