計(jì)算機(jī)精英們,注意啦~
2021年 CCF大數(shù)據(jù)與計(jì)算智能大賽
(簡(jiǎn)稱 2021 CCF BDCI大賽)已上線三周啦!
各賽題都已陸續(xù)揭開(kāi)神秘面紗~
此時(shí)發(fā)布賽題解讀,希望在為參賽小伙伴們答疑解惑之余提供更多靈感和啟發(fā)。以下,為大家送上的是:「基于UEBA的用戶上網(wǎng)異常行為分析」的多維度超詳細(xì)賽題解讀。
選手們,快來(lái)了解~
2021 CCF BDCI 數(shù)據(jù)算法賽道
· 賽題名稱:基于UEBA的用戶上網(wǎng)異常行為識(shí)別
· 出題單位:北京明朝萬(wàn)達(dá)科技股份有限公司
· 賽題鏈接:http://navo.top/n6zeIv
賽題背景
企業(yè)應(yīng)對(duì)內(nèi)部的敏感數(shù)據(jù)泄露問(wèn)題,安全信息及事件管理(Security Information and Event Management,SIEM)是一種應(yīng)用最為廣泛采用的數(shù)據(jù)防泄漏技術(shù)。該技術(shù)是安全信息管理(SIM)和安全事件管理(SEM)的結(jié)合體,能夠?yàn)槠髽I(yè)內(nèi)部所有IT資源產(chǎn)生的安全信息進(jìn)行統(tǒng)一的實(shí)時(shí)監(jiān)控、歷史分析。SEIM主要是由采集層,存儲(chǔ)層,計(jì)算層,輸出層四部分組成。采集層主要用來(lái)采集所有網(wǎng)絡(luò)安全信息源,并對(duì)數(shù)據(jù)集進(jìn)行簡(jiǎn)單處理,轉(zhuǎn)化為統(tǒng)一的格式,便于存儲(chǔ)。存儲(chǔ)層主要功能是存儲(chǔ)采集的原始數(shù)據(jù)和計(jì)算分析完成的結(jié)果,并為后續(xù)的分析與可視化展示提供數(shù)據(jù)支撐。計(jì)算層,是SIEM中最為重要的一層,包括規(guī)則匹配計(jì)算,算法計(jì)算,流量分析計(jì)算等多種計(jì)算分析模型。輸出層主要是將計(jì)算層分析的結(jié)果進(jìn)行多種輸出方式實(shí)現(xiàn)可視化展示,企業(yè)可以根據(jù)不同業(yè)務(wù)部門(mén)的不同需求選擇合適的輸出方式。
基于日志分析和規(guī)則匹配技術(shù),SIEM系統(tǒng)并不斷融合關(guān)聯(lián)分析等其他方法,對(duì)安全事件進(jìn)行監(jiān)視、聚合、關(guān)聯(lián)和報(bào)告,在防止企業(yè)內(nèi)部敏感信息的泄漏中發(fā)揮著重要的作用。然而,隨著數(shù)據(jù)泄露途徑的增加和應(yīng)用場(chǎng)景的多樣性,SIEM也存在如下問(wèn)題:
1、當(dāng)企業(yè)內(nèi)部的日志事件符合預(yù)先設(shè)定的規(guī)則時(shí),SIEM能夠快速的做出報(bào)警,但其警報(bào)的有效性往往取決于規(guī)則制定的合理性。不合理的監(jiān)控規(guī)則,會(huì)大大增加數(shù)據(jù)泄露事件的誤報(bào)數(shù)量,導(dǎo)致安全運(yùn)維中心被誤報(bào)信息所淹沒(méi)。
2、SIEM監(jiān)控規(guī)則的制定是一件非常復(fù)雜和耗時(shí)的工程,隨著數(shù)據(jù)泄露方式和渠道的日新月異,靜態(tài)的規(guī)則實(shí)現(xiàn)數(shù)據(jù)防泄漏始終慢人一步,維護(hù)與革新企業(yè)內(nèi)部不斷增加監(jiān)控規(guī)則將會(huì)產(chǎn)生巨大經(jīng)濟(jì)消耗。
3、企業(yè)內(nèi)部具有高權(quán)限的管理人員,能夠直接接觸到核心的敏感數(shù)據(jù),其主動(dòng)或者無(wú)意的操作,更易發(fā)生數(shù)據(jù)泄露現(xiàn)象,而SIEM難以有效地處理此類情況。
4、日志事件警報(bào)數(shù)量的增加,促使企業(yè)擴(kuò)充安全運(yùn)維中心的人員數(shù)量和增加人員安全培訓(xùn)成本,這無(wú)疑增加了企業(yè)的經(jīng)濟(jì)負(fù)擔(dān)。
5、SIEM提供的海量警報(bào)中摻雜著準(zhǔn)報(bào)和誤報(bào),卻無(wú)法完成對(duì)事件風(fēng)險(xiǎn)程度進(jìn)行劃分,這可能造成真正的數(shù)據(jù)泄露事件無(wú)法及時(shí)處理,最終造成巨大的安全隱患和經(jīng)濟(jì)損失。
綜上所述,基于規(guī)則的SIEM數(shù)據(jù)防泄漏技術(shù)對(duì)于數(shù)據(jù)泄露事件的精準(zhǔn)預(yù)報(bào)、動(dòng)態(tài)的數(shù)據(jù)泄露途徑與方式,特殊員工的行為監(jiān)控,實(shí)時(shí)的行為預(yù)測(cè)與風(fēng)險(xiǎn)評(píng)分,難以達(dá)到現(xiàn)在企業(yè)對(duì)于數(shù)據(jù)安全的要求。因此,對(duì)于防止內(nèi)部敏感數(shù)據(jù)發(fā)生泄漏,企業(yè)迫切需求一種能夠彌補(bǔ)傳統(tǒng)SIEM的數(shù)據(jù)防泄漏技術(shù),用戶實(shí)體行為分析技術(shù)應(yīng)運(yùn)而生。
出題單位介紹
明朝萬(wàn)達(dá)成立于2005年,是中國(guó)新一代信息安全技術(shù)企業(yè)的代表廠商,專注于數(shù)據(jù)安全、公共安全、云安全、大數(shù)據(jù)安全及加密應(yīng)用技術(shù)解決方案等服務(wù)。憑借在數(shù)據(jù)安全領(lǐng)域取得的優(yōu)異成就,明朝萬(wàn)達(dá)于2019年獲得中央網(wǎng)信辦背景中網(wǎng)投、國(guó)家發(fā)改委背景國(guó)投創(chuàng)合聯(lián)合投資,并于2020年獲得中國(guó)電科集團(tuán)(CETC)戰(zhàn)略投資。
基于“動(dòng)態(tài)數(shù)據(jù)安全,數(shù)據(jù)全生命周期管控”的產(chǎn)品理念,明朝萬(wàn)達(dá)始終以守護(hù)用戶數(shù)據(jù)價(jià)值為己任,致力于讓安全真正服務(wù)于業(yè)務(wù)發(fā)展。歷經(jīng)十余年的發(fā)展與積累,明朝萬(wàn)達(dá)現(xiàn)有員工600余人,總部位于北京,在上海、廣州、成都、西安、貴陽(yáng)、天津、武漢、南京、長(zhǎng)春、無(wú)錫等地設(shè)有分支機(jī)構(gòu)。明朝萬(wàn)達(dá)客戶已覆蓋金融、政府、公安、電信運(yùn)營(yíng)商、能源、設(shè)計(jì)院所和研發(fā)制造業(yè)等領(lǐng)域,簽約用戶超過(guò)3000家。
賽題重點(diǎn)
1、從海量無(wú)標(biāo)簽的日志數(shù)據(jù)中構(gòu)建用戶上網(wǎng)行為基線,要求基線能準(zhǔn)確刻畫(huà)用戶實(shí)際行為。
2、從海量無(wú)標(biāo)簽的日志數(shù)據(jù)中構(gòu)建上網(wǎng)行為評(píng)價(jià)模型,要求能準(zhǔn)確評(píng)價(jià)單個(gè)上網(wǎng)行為與基線的偏離程度。
解題思路舉例(不限定)
1、首先海量無(wú)標(biāo)簽數(shù)據(jù)場(chǎng)景,只能選擇無(wú)監(jiān)督算法進(jìn)行求解。
2、算法除了要刻畫(huà)是否異常,還需要刻畫(huà)異常程度進(jìn)行排序,因此輸出結(jié)果是一個(gè)連續(xù)值比較符合要求,因此它應(yīng)該是一個(gè)生產(chǎn)式模型,而不是一個(gè)判別式模型。
3、異常行為分析的定義,對(duì)正常行為建模,不在正常范圍之內(nèi)的都是異常。
4、使用同比和環(huán)比的方法構(gòu)建行為基線,同比是同一個(gè)人的不同時(shí)間的行為聚類,找到聚類中心作為基線。環(huán)比是根據(jù)同一個(gè)部門(mén)不同的人的行為進(jìn)行聚類,聚類的中心作為基線。
5、使用相同的特征處理對(duì)單個(gè)行為進(jìn)行處理,得到單個(gè)行為特征向量,計(jì)算單個(gè)行為特征向量到極限的距離來(lái)刻畫(huà)異常程度(例如歐式距離)。
常見(jiàn)問(wèn)題
Q1
為什么不使用有監(jiān)督?
賽題來(lái)源于實(shí)際生產(chǎn)應(yīng)用場(chǎng)景,企業(yè)實(shí)際應(yīng)用場(chǎng)景中一類操作(例如發(fā)送郵件、上網(wǎng)、傳輸文件等)日志每天大概平均5萬(wàn)條,操作種類也很多不可枚舉,人工標(biāo)記數(shù)據(jù)工作量大,容易出錯(cuò),不具備可操作性。因此需要使用無(wú)監(jiān)督算法來(lái)解決。
Q2
要求無(wú)監(jiān)督的解決方案,為什么訓(xùn)練集有標(biāo)簽?
賽題和數(shù)據(jù)是北京明朝萬(wàn)達(dá)有限公司應(yīng)CCF大賽平臺(tái)要求提供,也需要滿足公平公正公開(kāi)原則進(jìn)行賽題準(zhǔn)備和數(shù)據(jù)準(zhǔn)備,因此訓(xùn)練集提供了參考標(biāo)簽值,正向引導(dǎo)選手解決問(wèn)題的思路。無(wú)標(biāo)簽數(shù)據(jù)才是實(shí)際場(chǎng)景具備的條件。
Q3
數(shù)據(jù)集里面的標(biāo)簽ret的值怎么來(lái)的?
首先經(jīng)過(guò)機(jī)器預(yù)處理,可視化展示,業(yè)務(wù)專家校準(zhǔn)之后提供的。
Q4
無(wú)監(jiān)督的輸出結(jié)果是分類標(biāo)簽,為什么測(cè)試集的結(jié)果要求是連續(xù)值?
在背景介紹里面有實(shí)際場(chǎng)景面臨的問(wèn)題描述,異常行為檢測(cè)結(jié)果參雜著準(zhǔn)報(bào)和誤報(bào),卻無(wú)法完成對(duì)事件風(fēng)險(xiǎn)程度進(jìn)行劃分,工作量增大,而人力資源有限,需要按異常行為排序進(jìn)行稽核處理,優(yōu)先處理異常程度較大的安全事件,盡量避免較大的數(shù)據(jù)泄露造成的經(jīng)濟(jì)損失。
Q5
為什么使用RMSE作為評(píng)分規(guī)則?
這個(gè)問(wèn)題有兩層疑問(wèn),一是字面意思,這個(gè)建議自己去檢索RMSE相關(guān)資料了解即可;二是,測(cè)試集里面的ret是否有效,參見(jiàn)問(wèn)題3。
Q6
能不能給出行為基線(baseline)?
抱歉,這個(gè)暫不能提供。用戶異常行為分析的定義,構(gòu)建正常行為基線,所有不符合正常行為的即為異常。正常行為建模得到的是基線,基線是核心成果之一,其本身就是需要求解的核心問(wèn)題之一。
評(píng)價(jià)方法
本賽題的評(píng)價(jià)指標(biāo)為均方根誤差(Root Mean Square Error,簡(jiǎn)稱RMSE),它是異常觀測(cè)值與真實(shí)值偏差的平方和觀測(cè)次數(shù)N比值的平方根,RMSE的計(jì)算公式如下:
式中:
· RMSE — 均方根誤差;
· N — 樣本數(shù)量;X — 用戶行為評(píng)分;
· 線上排名得分Score值計(jì)算方法如下(得分越趨近于1排名越靠前):
關(guān)于該賽題的解讀就說(shuō)到這兒吧,
希望看到的選手們都能有所得
快快行動(dòng)起來(lái)!