隨著信息技術飛速發展,信息系統得到廣泛和深入的應用,信息化建設加速發展,國家以及各行業、企業步入大數據時代。而數據作為信息化建設的核心,支撐業務的正常運作,重要性愈加凸顯,對企業業務影響力越來越大的同時,所面臨的的安全威脅和挑戰也越來越多。
數據安全能力建設已成為國家以及各行業、企業的工作重點。其中,數據采集作為數據生命周期安全管理的第一階段,對實現數據安全管理起到重要作用。
數據采集作為數據安全建設的第一步,需將分布在各業務系統中的用戶行為數據、業務支撐數據、安全事件等數據信息進行采集、存儲,為后續的數據審計、分析、挖掘以及安全運營等提供數據支撐。因此,構建以大數據技術為基礎的數據采集系統勢在必行,成為各企業的共同選擇。
明朝萬達自主研發的數據采集分析系統通過采集探針、采集代理在信息系統上集中采集分析系統運行的日志、狀態、安全事件、業務系統數據、用戶操作行為等各類信息,經過提取、轉換、清洗、比對、豐富、去重等規范化處理后,以統一格式的日志形式進行集中存儲和管理。
數據采集資源層為服務器設備、操作系統、數據庫以及企業內部各類應用服務。采集層通過探針以及代理技術對數據進行采集,并通過相應的協議解析技術對數據進行初步加工,并將數據轉移日志緩沖區域進行數據標準化處理。通過ETL等操作,對數據進行清洗、加工、補齊,最終形成標準、完整及人工可理解、解讀的數據。
數據采集資源層為服務器設備、操作系統、數據庫以及企業內部各類應用服務。采集層通過探針以及代理技術對數據進行采集,并通過相應的協議解析技術對數據進行初步加工,并將數據轉移日志緩沖區域進行數據標準化處理。通過ETL等操作,對數據進行清洗、加工、補齊,最終形成標準、完整及人工可理解、解讀的數據。
1、數據源支持應用系統、網絡、協議、數據庫(結構化以及非結構化類型數據庫)、腳本、文件等,并支持從數據隊列等大數據組件中進行數據采集。
2、采集探針以及采集代理連接對應的數據源,依據數據源種類不同下發對應的采集策略,例如文件通配符、JDBC、協議采集等。采集探針支持多平臺,且支持不同CPU架構上運行,并且控制采集探針運行期間的資源占用。同時系統支持對采集探針的狀態進行監控管理,可感知采集速率、采集總數及發送總數。
3、采集的數據進入數據緩沖區,對數據進行預處理,同時減少海量日志對系統的沖擊。數據解析規則支持樣本解析,并結合元數據管理以及數據校驗規則對數據進行過濾、清洗、封裝、轉換、映射以及轉義。針對數據含義不完整的場景,可選對數據通過數據埋點、基礎信息補全、關聯字段等進行補全,為后續的業務處理提供支撐。
4、經過完整處理后的數據進入數據存儲層的日志倉庫。
大數據業務展開依賴海量數據的存儲能力,因此數據存儲層應具備如下能力:
· 專業級數據索引引擎:海量數據的快速檢索,用于支持各類分析引擎。
· 分布式數據存儲:高并發,高可用,易擴展。
數據存儲層滿足以上能力后為服務層以及引用層提供數據支持,滿足后續的檢索、審計、分析等業務場景。
隨著企業信息化發展,對信息系統的服務質量有較高的要求,尤其在企業內部業務系統逐漸增加,系統間的復雜程度也隨之增加。面對每天產生的海量數據,企業需要建設完備的數據采集、處理系統,實現數據的可視化,并滿足合規審計要求。
通過數據采集分析系統,管理員可監測企業內部系統的運行情況,及時發現系統異常事件,通過事后分析和豐富的報表系統,可以方便、高效地對信息系統進行有針對性的安全審計。遇到特殊安全事件和系統故障,數據采集分析系統可以幫助管理員進行故障快速定位,并提供客觀依據進行追查和恢復。

