計算機精英們,注意啦~
2021年 CCF大數據與計算智能大賽
(簡稱 2021 CCF BDCI大賽)已上線三周啦!
各賽題都已陸續揭開神秘面紗~
此時發布賽題解讀,希望在為參賽小伙伴們答疑解惑之余提供更多靈感和啟發。以下,為大家送上的是:「基于UEBA的用戶上網異常行為分析」的多維度超詳細賽題解讀。
選手們,快來了解~
2021 CCF BDCI 數據算法賽道
· 賽題名稱:基于UEBA的用戶上網異常行為識別
· 出題單位:北京明朝萬達科技股份有限公司
· 賽題鏈接:http://navo.top/n6zeIv
賽題背景
企業應對內部的敏感數據泄露問題,安全信息及事件管理(Security Information and Event Management,SIEM)是一種應用最為廣泛采用的數據防泄漏技術。該技術是安全信息管理(SIM)和安全事件管理(SEM)的結合體,能夠為企業內部所有IT資源產生的安全信息進行統一的實時監控、歷史分析。SEIM主要是由采集層,存儲層,計算層,輸出層四部分組成。采集層主要用來采集所有網絡安全信息源,并對數據集進行簡單處理,轉化為統一的格式,便于存儲。存儲層主要功能是存儲采集的原始數據和計算分析完成的結果,并為后續的分析與可視化展示提供數據支撐。計算層,是SIEM中最為重要的一層,包括規則匹配計算,算法計算,流量分析計算等多種計算分析模型。輸出層主要是將計算層分析的結果進行多種輸出方式實現可視化展示,企業可以根據不同業務部門的不同需求選擇合適的輸出方式。
基于日志分析和規則匹配技術,SIEM系統并不斷融合關聯分析等其他方法,對安全事件進行監視、聚合、關聯和報告,在防止企業內部敏感信息的泄漏中發揮著重要的作用。然而,隨著數據泄露途徑的增加和應用場景的多樣性,SIEM也存在如下問題:
1、當企業內部的日志事件符合預先設定的規則時,SIEM能夠快速的做出報警,但其警報的有效性往往取決于規則制定的合理性。不合理的監控規則,會大大增加數據泄露事件的誤報數量,導致安全運維中心被誤報信息所淹沒。
2、SIEM監控規則的制定是一件非常復雜和耗時的工程,隨著數據泄露方式和渠道的日新月異,靜態的規則實現數據防泄漏始終慢人一步,維護與革新企業內部不斷增加監控規則將會產生巨大經濟消耗。
3、企業內部具有高權限的管理人員,能夠直接接觸到核心的敏感數據,其主動或者無意的操作,更易發生數據泄露現象,而SIEM難以有效地處理此類情況。
4、日志事件警報數量的增加,促使企業擴充安全運維中心的人員數量和增加人員安全培訓成本,這無疑增加了企業的經濟負擔。
5、SIEM提供的海量警報中摻雜著準報和誤報,卻無法完成對事件風險程度進行劃分,這可能造成真正的數據泄露事件無法及時處理,最終造成巨大的安全隱患和經濟損失。
綜上所述,基于規則的SIEM數據防泄漏技術對于數據泄露事件的精準預報、動態的數據泄露途徑與方式,特殊員工的行為監控,實時的行為預測與風險評分,難以達到現在企業對于數據安全的要求。因此,對于防止內部敏感數據發生泄漏,企業迫切需求一種能夠彌補傳統SIEM的數據防泄漏技術,用戶實體行為分析技術應運而生。
出題單位介紹
明朝萬達成立于2005年,是中國新一代信息安全技術企業的代表廠商,專注于數據安全、公共安全、云安全、大數據安全及加密應用技術解決方案等服務。憑借在數據安全領域取得的優異成就,明朝萬達于2019年獲得中央網信辦背景中網投、國家發改委背景國投創合聯合投資,并于2020年獲得中國電科集團(CETC)戰略投資。
基于“動態數據安全,數據全生命周期管控”的產品理念,明朝萬達始終以守護用戶數據價值為己任,致力于讓安全真正服務于業務發展。歷經十余年的發展與積累,明朝萬達現有員工600余人,總部位于北京,在上海、廣州、成都、西安、貴陽、天津、武漢、南京、長春、無錫等地設有分支機構。明朝萬達客戶已覆蓋金融、政府、公安、電信運營商、能源、設計院所和研發制造業等領域,簽約用戶超過3000家。
賽題重點
1、從海量無標簽的日志數據中構建用戶上網行為基線,要求基線能準確刻畫用戶實際行為。
2、從海量無標簽的日志數據中構建上網行為評價模型,要求能準確評價單個上網行為與基線的偏離程度。
解題思路舉例(不限定)
1、首先海量無標簽數據場景,只能選擇無監督算法進行求解。
2、算法除了要刻畫是否異常,還需要刻畫異常程度進行排序,因此輸出結果是一個連續值比較符合要求,因此它應該是一個生產式模型,而不是一個判別式模型。
3、異常行為分析的定義,對正常行為建模,不在正常范圍之內的都是異常。
4、使用同比和環比的方法構建行為基線,同比是同一個人的不同時間的行為聚類,找到聚類中心作為基線。環比是根據同一個部門不同的人的行為進行聚類,聚類的中心作為基線。
5、使用相同的特征處理對單個行為進行處理,得到單個行為特征向量,計算單個行為特征向量到極限的距離來刻畫異常程度(例如歐式距離)。
常見問題
Q1
為什么不使用有監督?
賽題來源于實際生產應用場景,企業實際應用場景中一類操作(例如發送郵件、上網、傳輸文件等)日志每天大概平均5萬條,操作種類也很多不可枚舉,人工標記數據工作量大,容易出錯,不具備可操作性。因此需要使用無監督算法來解決。
Q2
要求無監督的解決方案,為什么訓練集有標簽?
賽題和數據是北京明朝萬達有限公司應CCF大賽平臺要求提供,也需要滿足公平公正公開原則進行賽題準備和數據準備,因此訓練集提供了參考標簽值,正向引導選手解決問題的思路。無標簽數據才是實際場景具備的條件。
Q3
數據集里面的標簽ret的值怎么來的?
首先經過機器預處理,可視化展示,業務專家校準之后提供的。
Q4
無監督的輸出結果是分類標簽,為什么測試集的結果要求是連續值?
在背景介紹里面有實際場景面臨的問題描述,異常行為檢測結果參雜著準報和誤報,卻無法完成對事件風險程度進行劃分,工作量增大,而人力資源有限,需要按異常行為排序進行稽核處理,優先處理異常程度較大的安全事件,盡量避免較大的數據泄露造成的經濟損失。
Q5
為什么使用RMSE作為評分規則?
這個問題有兩層疑問,一是字面意思,這個建議自己去檢索RMSE相關資料了解即可;二是,測試集里面的ret是否有效,參見問題3。
Q6
能不能給出行為基線(baseline)?
抱歉,這個暫不能提供。用戶異常行為分析的定義,構建正常行為基線,所有不符合正常行為的即為異常。正常行為建模得到的是基線,基線是核心成果之一,其本身就是需要求解的核心問題之一。
評價方法
本賽題的評價指標為均方根誤差(Root Mean Square Error,簡稱RMSE),它是異常觀測值與真實值偏差的平方和觀測次數N比值的平方根,RMSE的計算公式如下:
式中:
· RMSE — 均方根誤差;
· N — 樣本數量;X — 用戶行為評分;
· 線上排名得分Score值計算方法如下(得分越趨近于1排名越靠前):
關于該賽題的解讀就說到這兒吧,
希望看到的選手們都能有所得
快快行動起來!

