智能異常分析應用是一個可托管、高可用、可擴展的服務,主要提供智能巡檢、文本分析和根因診斷三大能力。本文介紹智能異常分析應用的產品架構、功能優(yōu)勢、適用場景、核心名詞、使用限制和費用說明等信息。
目前僅限白名單用戶使用根因診斷功能。如果您需要使用根因診斷功能,請?zhí)峤?span props="china">工單申請。
產品試用
SLS Playground中的智能異常分析Demo,內置了實例、任務、演示數據、可視化圖表等資源,提供了完整的演示環(huán)境,便于您快速了解及體驗功能。
您可以單擊智能異常分析,進行試用。
SLS Playground中的數據為演示數據,請勿用于生產環(huán)境。
產品架構
智能異常分析應用圍繞運維場景中的監(jiān)控指標、程序日志、服務關系等核心要素展開,通過機器學習等手段產生異常事件,通過服務拓撲關聯(lián)分析時序數據和事件,最終降低企業(yè)的運維復雜度,提高服務質量。產品架構圖如下所示。
各功能組件說明如下:
日志存儲(Logstore):日志服務提供Logstore用于存儲日志類型的數據,并在日志存儲的基礎上提供查詢和分析(SQL92語法)功能。更多信息,請參見分析概述。
時序存儲(Metricstore):日志服務提供Metricstore用于存儲時序數據,并在時序數據存儲的基礎上提供分析(SQL92語法、PromQL語法)功能。更多信息,請參見時序數據查詢和分析簡介。
機器學習算法:通過對特定場景的深度整合,提供一系列針對時序數據和文本等相關的算法,生成異常數據。更多信息,請參見智能巡檢算法說明、文本分析算法說明。
告警(Alert Monitoring):支持對異常結果進行告警。更多信息,請參見什么是日志服務告警。
功能優(yōu)勢
支持海量實體指標的智能異常檢測,您無需關注具體的告警規(guī)則,通過簡單的設置即可巡檢各種異常。
智能化地分析和挖掘非結構化文本日志,自動發(fā)現異常模式。
支持您對算法產生的結果進行標注,幫助您逐步實現更好的模型訓練和學習。
依托于日志服務的高可用性與數據可靠性,告警服務的可用性達到99.9%。
智能異常分析應用跟告警服務深度整合,讓您擁有更完整的體驗。
使用場景
在如下場景中,推薦使用智能異常分析應用。
觀察對象多且每個觀察對象的觀測維度也多。
觀測對象沒有明確的閾值規(guī)則,但需要關注指標的形態(tài)。
需要對觀測對象編寫大量的業(yè)務規(guī)則。
處理非結構化的日志數據時,需要對文本日志中的模式進行挖掘。
在Trace場景中,有明確的服務拓撲。
存在自定義的服務拓撲。
核心名詞
基本概念 | 說明 |
時序序列 | 在時序巡檢任務的配置過程中,需要給算法提供標準的時間序列,即為Unix時間戳形式、等間隔的序列指標。 |
實體 | 智能巡檢任務中的觀測對象。 例如對某臺機器上的某個特定的服務進行異常檢測,通常對這個實體的描述為 |
黃金指標 | 可以較準確的描述服務質量或者觀測實體穩(wěn)定性的指標。例如:
|
異常類型 | |
歸一化方法 | 歸一化是一種簡化計算的方式,即將有量綱的表達式轉化為無量綱的表達式,成為標量,用于提升異常檢測的效果。 |
濾波方法 | 濾波是將信號中特定波段頻率濾除的操作,是抑制和防止干擾的一項重要措施。通過濾波后的曲線會平滑一些,用于提升異常檢測的效果。 |
標注 | 您可以對智能巡檢結果進行打標反饋,智能異常分析應用會接收到對應的信息。 |
誤報 | 在時序巡檢場景中,模型會檢測出對應的異常,并通過告警渠道通知給您。如果您認為該結果不符合預期,則打標反饋給智能巡檢應用,智能巡檢應用將接收到此信息并進行機器學習。 |
漏報 | 在時序巡檢場景中,如果模型未檢測出對應的異常,您可以通過相應的組件對任意數據點的打標信息進行上報。 |
模式提取 | 通過分析、抽取、歸納的方法提取文本對象中的模式,用來描述一類相似文本的方法。 |
聚類 | 將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象不同。 |
無監(jiān)督 | 根據類別未知(未被標記)的訓練樣本解決模式識別中的各種問題。 |
有監(jiān)督 | 有監(jiān)督的學習是從標簽化訓練數據集中推斷出函數或模型的機器學習任務。 |
日志常量 | 日志往往由程序中的 |
日志變量 | 日志往往由程序中的 |
日志模板 | 由日志中的常量部分和變量部分的通配符構成的文本被稱為日志模板。 例如 通配符可以根據變量類型的不同進行選擇,例如可以使用 |
日志類別 | 每個日志類別包含表示該類別的日志模板,如果日志內容與該日志模板匹配,那么就認為日志屬于該日志類別。 |
使用限制
作業(yè)類型 | 限制項 | 說明 |
智能巡檢 | 巡檢實體規(guī)模 | 單個任務最多支持1萬個巡檢實體。 如果您需要巡檢更大的實體規(guī)模,請?zhí)峤?span props="china">工單進行申請。 |
巡檢時序粒度 | 單個實體的曲線需要等間隔且連續(xù),在SQL場景中最小支持分鐘粒度。 如果您需要更細的巡檢粒度,請?zhí)峤?span props="china">工單進行申請。 | |
異常結果通知 | 目前只有釘釘機器人通知渠道支持異常結果的打標反饋。 如果您需要其他通知渠道,請?zhí)峤?span props="china">工單進行申請。 | |
文本分析 | 文本字段規(guī)模 | 單任務最多可以配置5個文本字段。 |
通識字段模板規(guī)模 | 單任務最多可以配置6個通識模板。 |
費用說明
目前智能巡檢應用處于公測階段,不會產生費用。