产品概述
LogInsight是一款智能运维分析工具,利用⼤数据技术对IT基础架构及应⽤系统所产生的海量机器数据进行实时分析,主要用于日志统一管理,故障快速定位,业务监控及可视化。平台主要提供了以下几⽅面的能力:
1、集中采集存储: 将分散在不同机器,不同环境的日志,统一采集到日志服务器上,集中存储管理
2、日志结构化: 根据需要,将日志进行结构化,归一化,便于后期分析
3、交互式搜索: 输入关键字,从海量日志中准确获得相关故障日志,迅速定位故障业务
4、监控告警: 监控日志关键字,在业务系统发生故障时进⾏告警
5、日志分析语言: 通过专用的日志分析语言(LAL), 对日志进行分析,挖掘价值
6、日志可视化能力: 对日志进行实时分析,将分析结果以可视化方式呈现
7、智能日志聚类: 通过机器学习的方式,协助运维迅速找到故障根因
8、复杂事件处理: 内置复杂事件关联引擎,可实现安全分析,业务反欺诈等场景
通过以上能力,LogInsight 可以应用于以下应用场景:
运维故障定位
应用性能管理
业务监控
业务实时分析
安全审计
故障回溯 ……
功能架构
功能架构上分为数据采集、队列传输、引擎能力、核心功能、交互界面、应用场景:
数据采集模块可以对不同来源的日志进行采集
引擎能力为日志数据的结构化存放以及搜索提供了底层数据能力支持引擎的支持;
核心功能是给运维监控以及业务分析人员使用的,提供日志检索、告警、聚合、仪表盘报表功能。
通过用户Web界面以及API为用户提供友好规范的交互接口。
在故障排查、APM、安全、性能管理、BPM、审计合规性、业务分析、Web日志分析场景等均可以发挥作用。
技术架构
技术总体架构特点:
通过各种技术⼿段对日志进行采集
通过分布式架构,对日志进行处理
通过字段提取器将日志内容结构化抽取后进入索引模块
索引模块将数据写入到Elasticsearch集群中,并记录索引的元数据到mongodb上。
功能列表
1、多种日志采集方式支持
无Agent方式: 只需通过配置操作系统或者设备原生的Rsyslog/syslog-ng/syslog服务,通过 TCP/UDP传给日志服务器。
Agent采集方式: 在服务器上安装收集日志代理程序。CPU消耗少于1%,内存资源消耗需少于50MB。Agent采集具有流量控制功能。
队列接口: 通过Kafka队列接口与将不同数据源的数据,进行对接,譬如与NPM/APM进行结合,产生更多的整合分析价值
2、广泛的日志类型支持
也可以对所有的IT系统产⽣生的日志进行采集,包括Web,中间件,数据库,存储,虚拟化,应⽤用日志,包括但不仅限于以下类别:
Apache Http Server
Ngnix
Apache Tomcat
Websphere
Weblogic
Redis
Ruby on Rails
MangoDB
MySQL
Oracle
DB2
IIS
Active Directory
Linux
Windows
路由器
交换机
网络设备
存储设备
3、实时交互式搜索
通过大数据日志实时搜索技术,能为运维人员提供海量日志实时查询能力,运维人员可以快速获知分布在不同节点上与故障相关的系统运行日志,辅助运维人员从海量的日志中,快速定位故障发生层面及具体的节点,降低故障恢复时间
基于时间轴的交互式搜索界面,可以通过鼠标拖拉,选定时间范围,进行下钻搜索
提供辅助搜索功能,例如常用搜索保存等
搜索需要提供逻辑关系操作符,包括布尔操作,模糊匹配等功能
日志实时刷新滚动显示
附近日志功能,查看特定日志附近相关日志
查看日志原文
4、日志数据标准化处理功能
要对日志进行深入的分析,必须先对日志进行标准化,将日志中的特定信息变换为可分析字段, 便于后继分析。平台通过界面交互式的方式,转化为分析字段,便于分析。
通过正则表达式提取: ⽀持通过标准正则表达式捕捉字段,并提取成对应字段。
通过Grok集提取: 支持通过预置的grok正则集合,通过grok表达式提取字段。
通过分隔符提取: 支持通过空格、分号等分隔符进⾏字段的提取。
通过字符串⻓度划分提取: 支持通过指定定长字段的长度,提取日志内容。
通过解析XML、JSON标准表达式提取: 支持解析日志中的XML、JSON等标准格式的结构化文件结构
预置Grok 库: 提供预设的Grok 库,包含常见的日志类型的正则,包括 Apache, Mac地址, IP地址,日志,日志级别,防火墙日志等信息
5、日志流聚合功能
通过规则将有共通点,来自不同设备或应用的日志,在逻辑上的进行聚合,便于往后的分析,查看及进行监控告警。例如:将所有Apache Http Server日志进⾏聚合,便于分析;将客服系统中的Web服务器,应用服务器,数据库服务器所产生的日志聚合为一条日志流,并将访问权限授予特定的用户。
匹配规则如下:
完整匹配:完整匹配日志字段内容
正则匹配:匹配值日志中包含的字段内容,将日志标记到日志流中
大于:当数值型字段大于某个值,将日志标记到日志流中
小于:当数值型字段小于某个值,将日志标记到日志流中
存在:当某日志字段存在,将日志标记到日志流
6、基于无监督机器学习的日志模式发现
LogInsight平台能通过无监督机器学习算法,能实现大量日志的模式发现,并进行聚类,将大量的日志原文转化为少量的日志模式,并反应相应模式在日志原文中的占比,大大减少了人工筛选时间,帮助运维人员更快的定位故障根因。
7、事务日志聚合关联
在分布式应用系统中,特定的业务逻辑往往需要多步骤执行,会在系统中留下多条日志,这些日志组成一个完整的事务。Loginsight提供日志事务聚合关联功能,可以将多条有相同事务ID的日志还原为一个完整的事务,并能统计事务的耗时,事务闭合情况。
8、日志集中存储索引
数据存储量能满⾜足PB 级别的日志存储要求
数据存储分布式的,能进行横向扩展
数据存储后,需要能对日志进行索引,索引后,能在千万数据级别上实现秒级返回
数据存储可以设定副本数目,满足高可用要求
9、日志监控告警
告警模块可根据多种告警逻辑,对日志进行实时分析监控,快速获知业务层面发生的故障, 实现应用层面告警获知。
10、告警逻辑
符合条件计数告警: 设定时间窗,当异常关键词产⽣生超过一定数目,即可触发告警。例如, 设定对Web 访问日志监控,在3分钟内,如果出现http 500错误超过10次的,则进行告警。
关键字告警: 或者在对业务进行监控,⼀旦日志中出现特定关键字,如出现 Transaction Failed 的时候,则进⾏告警。
字段分析: 字段对日志中的特定字段分析,将文本型信息转化为数值信息, 并能对其进⾏统计,包括平均值,大值,小值,方差,并能根据统计值,设定阈值,进⾏告警。
11、告警通知
告警信息包含相应的符合条件的日志信息,并在可以设定包含的日志信息的数目。 告警可以通过E-mail 进⾏发送。 告警可以通过接口方式,与其他的告警平台进⾏对接。
12、日志实时可视化分析
通过日志可视化模块,可以将日志有价值的信息,以图表以及仪表板的的方式进⾏呈现,有助于运维人员,管理人员对IT基础架构的运行状况以及应用运⾏进⾏洞察。
日志搜索语句所得出的结果集,能快速进⾏可视化,打通搜索结果到数据呈现的通道
图表能以饼图,柱状图,折线图,表格,时序图,地图等⽅式进⾏呈现
按多个字段维度进⾏avg,count,max,min统计,并以多层饼图、表格、折线图、分组柱 状图展现
生成的图表能与服务器实现实时通讯,实时刷新,数据变化实时呈现
多个图形能通过拖拽等⽅式,组合成为仪表板
仪表板能全屏化显示,便于监控上墙。
13、日志访问权限管理
系统中,日志信息数据包含着许多敏感的内容后,并非所有信息都适合公开,平台能够对日志的访问的权限进⾏管控,并提供用户组的方式进⾏控制。
对于不同的系统负责人,设置适当的系统访问权限。权限控制⼒度,能通过规则设定,精确到日志规则所及范围的日志流分组,以及系统定义仪表盘:
是否能访问特定日志流分组
是否能修改特定日志流分组的配置
是否能够访问特定的仪表板
是否能够修改特定的仪表板
⾮管理员权限的⽤户,可以设定自己的默认仪表板,或者日志流,作为启动首页
14、面向半结构化数据的分析语言(LAL)
Log Analyzing Language(日志分析语⾔言): 是LogInsight专门针对日志而设计的分析专用的语⾔(DSL)。用户可以在Web界面的输入框中,输入命令,就可以非常灵活地对日志进⾏搜索,关联分析,过滤,统计,可视化等分析工作,使得日志数据的价值,得到了充分挖据。
统计计算:支持对字段使用avg,count,max,min等计算
事务关联:将多个发生在不同计算节点上的日志,通过Transcation id或者其他字段,并根据其他条件关联起来。
多维聚合分析:
“stats avg(kbps) by host”,返回每个主机的平均传输速率。
“chart max(delay) over foo by bar”,返回由 bar 的值拆分的每个 foo 值的 max(delay)。
15、复杂事件处理能力
复杂事件处理(CEP)是一种实时事件处理并且从大量事件数据流中挖掘复杂模型的技术;CEP 的目的是识别出一些有意义的事件,例如:机遇、威胁,并且尽可能快的作出反应。
1 review for Cisco