• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

混合云一站式运维监控滴滴夜莺

linux 搞代码 3年前 (2022-03-04) 18次浏览 已收录 0个评论
文章目录[隐藏]

01 滴滴夜莺简介

滴滴夜莺是一套分布式高可用的运维监控零碎,最大的特点是混合云反对,既能够反对传统物理机虚拟机的场景,也能够反对K8S容器的场景。同时,滴滴夜莺也不只是监控,还有一部分CMDB的能力、自动化运维的能力,很多公司都基于夜莺开发本人公司的运维平台。开源的这部分功能模块也是商业版本的一部分,所以可靠性有保障、会继续保护,诸君可放心使用。

02 滴滴夜莺次要性能

本节论述滴滴夜莺的外围功能模块,大家能够重点关注用户资源核心和监控告警局部。

》用户资源核心

这是一个平台底座,所有的运维零碎,都须要依赖此零碎,内置用户、权限、角色、组织、资源的治理。最外围的是一棵组织资源树,树节点的类别和扩大字段能够自定义,组织资源树的层级构造最简略的组织形式是:租户—>我的项目—>模块,简单一点的组织形式:租户—>组织—>我的项目—>模块—>集群,组织是能够嵌套的。

节点上挂两类对象,一个是人员权限,一个是资源,资源能够是各类资源,除了主机设施、网络设备,也能够是rds实例,redis实例,当然,这就须要rds、redis的管控零碎和RDB买通了。滴滴在做一些大的中后盾商业化解决方案的时候,RDB就是表演了这么一个底座的角色。

》资产管理系统

这里的资产管理系统,是偏硬件资产的治理,这个零碎的使用者个别是系统部的人,资产治理类人员,利用运维绝对不太关注这个零碎。开源版本凋谢了一个主机设施的治理,大家能够二次开源,减少一些网络设备治理、机柜机架位的治理、配件耗材的治理等等,有了底座,下面再长出一些其余零碎都绝对容易。

agent装置实现之后,会主动注册到资产管理系统,主动采集到机器的sn、ip、cpu、mem、disk等信息,这些信息为了灵活性思考,都是用shell采集的,上文装置步骤一章有提到,其中最重要的是 ip,零碎中有很多设施,ip是须要全局惟一,其余的sn、ip、cpu、mem、disk等,如果无奈采集胜利,能够写为固定值,shell里间接写echo一个假数据即可。

每一条资产,都有一个租户的字段,代表资产归属,须要管理员去调配资产归属(批改资产的所属租户),各个租户能力应用对应的资产,调配完了之后,会呈现在用户资源核心的“游离资源”菜单中,各个租户就能够把游离资源挂到资产树上去分门别类的治理应用。树节点的创立是在树上右键哈。

》工作执行核心

用于批量跑脚本,相似psshansiblesaltstack,不过不反对playbook,大道至简,就用脚本撸吧,shell、python、perl、ruby,都行,只有机器上有解析器。因为是内置到夜莺里的,所以体系化会更好一些,和组织资源树的权限是买通的,能够管制不同的人对不同的机器有不同的权限,有些人能够用root账号执行,有些人只能用一般账号执行,历史执行记录都能够通过web页面查看审计。工作自身反对一些管制:暂停点容忍度单机超时工夫中途暂停中途勾销中途Kill等。

一些常常要跑的脚本,能够做成模板,模板是对脚本的一种治理形式,后续就能够基于模板创立工作,填个机器列表就能够执行。比方装置JDK调整TCP内核参数调整ulimit等机器初始化脚本,都能够做成模板。

开源版本的工作执行核心,能够看做是一个命令通道,后续能够基于这个命令通道构建一些场景化利用,比方机器初始化平台服务变更公布平台配置散发零碎等。工作执行核心各类操作都有 API 对外裸露,具体可参看:router.go 我司的命令通道每周执行任务量超过60万,就是因为各类下层业务都在依赖这个命令通道的能力。

》监控告警零碎

这块外围逻辑和v2版本差异不大,监控指标分成了设施相干指标和设施无关指标,因为有些自定义监控数据的场景,endpoint不好定义,或者endpoint 常常变动,这种就能够应用设施无关指标的形式来解决。监控大盘做了优化,引入了更多类型的图表,但滴滴夜莺毕竟是个metrics监控零碎,解决的是数值型时序数据,所以,最有用的图表其实就是折线图,其余类型图表,看看就好,场景较少。滴滴夜莺也能够对接Grafana,有个专门的 DataSource插件,Grafana会更炫酷一些,只是,在数据量大的时候性能较差。

03 滴滴夜莺架构

解说几个关键点:

  • agent被动与job建设tcp长连贯,拉取脚本工作执行,并且将后果上报;
  • agent被动调用ams的http接口,上报本身的根本信息;
  • agent被动调用monapi的接口,拉取采集策略,比方过程、端口、日志、插件的相干采集策略;
  • agent被动与transfer建设tcp长连贯,推送监控数据;
  • transfer将接管到的监控数据推送一份给tsdb做数据长久化,一份给judge做告警判断;
  • index用来寄存监控数据的索引,tsdb+index也能够应用m3db替换,滴滴夜莺反对多种后端存储机制;
  • judge是告警引擎,周期性从monapi拉取告警策略,对接管到的数据做阈值判断,生成告警事件,将告警事件推给redis,monapi从redis生产这些告警事件,将事件长久化到数据库,并且按要求发送告警告诉。

04 滴滴夜莺材料

  • 文档:https://github.com/didi/nightingale/wiki
  • 视频:关注公众号“运维散兵”,查看历史音讯
  • 加群:加微信好友“UlricQin”,备注“夜莺加群”

05 企业反对

  • 在生产环节应用开源版的企业用户,能够退出OCE,咱们会额定给予更好的反对,比方专属的技术沙龙、企业一对一的交换机会、专属的答疑群等。OCE申请入口在Obsuite公众号的菜单里,点击【OCE认证】也可间接申请。
  • 如果心愿有更弱小的性能,更稳固的商业反对,能够理解咱们的商业版本,商业版本的介绍入口也在Obsuite公众号的菜单里。

搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:混合云一站式运维监控滴滴夜莺

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址