1.1數(shù)據(jù)采集子系統(tǒng)
利用互聯(lián)網(wǎng)爬蟲、公開數(shù)據(jù)服務(wù)接口、動態(tài)網(wǎng)站采集與解析、元搜索引擎相結(jié)合的方式,采集國際主流與指定國家或地區(qū)的區(qū)域性主流社交網(wǎng)絡(luò)媒體、搜索引擎、新聞網(wǎng)站、論壇、博客等平臺的公開數(shù)據(jù)。自動下載與特定賬號或特定關(guān)鍵詞相關(guān)的全量數(shù)據(jù)(包括文本、圖像、視頻、屬性、關(guān)聯(lián)信息等)并存儲,用于后續(xù)分析溯源。
1.1.1搜索引擎采集
1) Baidu/文字
2) Google/文字、圖像、視頻
3) Bing/文字、圖像
4) Naver/文字、視頻
1.1.2 Twitter數(shù)據(jù)采集
1)用戶信息采集
用戶頭像URL、用戶ID、用戶名稱、用戶昵稱、用戶描述、用戶位置、賬號創(chuàng)建時間、關(guān)注人數(shù)、粉絲人數(shù)、發(fā)布推文數(shù)量、最近發(fā)文時間等。
2)發(fā)布內(nèi)容信息采集
推文信息:推文url、發(fā)帖作者、推文類型(文字、圖片、視頻)、推文內(nèi)容、推文發(fā)布時間,是否原創(chuàng)、原創(chuàng)作者ID、點贊數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)以及相對應(yīng)的用戶列表;
詳細信息:點贊用戶ID;評論用戶ID、評論內(nèi)容、評論時間;轉(zhuǎn)發(fā)用戶ID、轉(zhuǎn)發(fā)內(nèi)容、分享時間等。
1.1.3 Youtube數(shù)據(jù)采集
支持頻道(專欄)信息、視頻標題、描述、發(fā)布時間、視頻內(nèi)容、評論等數(shù)據(jù)采集;支持實時監(jiān)測指定視頻網(wǎng)站點擊率,一旦發(fā)現(xiàn)某時間內(nèi)點擊率上升最快或點擊率最高的視頻,立即下載。
1.1.4 LinkedIn數(shù)據(jù)采集
支持用戶賬號簡歷全量信息及動態(tài)發(fā)布信息采集,組織或單位成員簡歷全量信息及動態(tài)發(fā)布信息采集。
具體采集內(nèi)容包括:頭像、用戶名、現(xiàn)居地、個人介紹、現(xiàn)任職務(wù)、工作地點、畢業(yè)院校、聯(lián)系方式、好友數(shù)量;工作經(jīng)歷:入職時間、離職時間、公司名稱、職位;學習經(jīng)歷:入學時間、畢業(yè)時間、學校、專業(yè)、學位;參與項目信息、資格認證、技能認可、語言能力等。
1.1.5 Instagram數(shù)據(jù)采集
支持用戶個人信息,關(guān)注好友信息,發(fā)布內(nèi)容(圖片、視頻),發(fā)布時間等信息的采集。
1.2數(shù)據(jù)清洗子系統(tǒng)
對采集到的冗雜數(shù)據(jù)進行數(shù)據(jù)清洗,過濾掉相同和相似數(shù)據(jù),提高系統(tǒng)吞吐量;針對去冗余后的圖像視頻數(shù)據(jù),首先對其進行轉(zhuǎn)碼,將其轉(zhuǎn)化為系統(tǒng)可處理的格式,然后對視頻進行關(guān)鍵幀抽取,將大段視頻轉(zhuǎn)化為可代表其主要內(nèi)容一定數(shù)量的圖像幀,便于下一步的識別分析。
模塊技術(shù)方案圖如下圖所示。核心算法包括兩部分:圖像特征/指紋提取及引擎檢測識別。
圖1 視頻/圖像預(yù)處理流程圖
基于哈希的視頻特征/指紋提取,針對視頻文件,本模塊設(shè)計基于強哈希、模糊哈希和感知哈希的圖像特征、指紋提取算法。
基于強哈希的圖像指紋提取算法,對于任意輸入視頻,通過MD5算法產(chǎn)生該視頻的指紋。計算指紋時面對的輸入視頻數(shù)據(jù),由于視頻數(shù)據(jù)因其時長不一,體積可能達到任意大小。因此,若在計算指紋時對所有文件都將其整體作為輸入,可能在遇到較大視頻時占用很多計算資源,同時影響指紋計算的速度。因此,在實現(xiàn)過程中配置了自適應(yīng)的指紋生成策略:
1) 對于體積小于閾值的視頻數(shù)據(jù),則將其整體作為輸入進行計算,生成MD5指紋信息;
2) 對于體積大于閾值的視頻數(shù)據(jù),則取其文件前4096 bits、中4096 bits和尾部4096 bits組合成新的數(shù)據(jù),將其作為輸入進行計算,生成MD5指紋信息。
基于模糊哈希的特征、指紋提取算法,模糊哈希特征通過分片技術(shù)解決傳統(tǒng)哈希算法無法處理文件改動的弊端,可用于識別經(jīng)裁剪、添加后的BK場景圖像信息。算法采取四個環(huán)節(jié)實現(xiàn)特征指紋提取,首先基于Alder-32以及一個分片值實現(xiàn)弱哈希算法,用于文件分片;然后基于Fowler-Noll-Vo hash實現(xiàn)強哈希算法,計算每片哈希值,完成特征提??;最后實現(xiàn)基于FNV哈希算法實現(xiàn)特征壓縮映射,完成指紋提取。
基于感知哈希的特征、指紋提取算法,感知哈希特征對圖像的尺寸變換,噪聲變換具有較強適應(yīng)性,可用于識別經(jīng)分辨率變化、噪聲變化的BK場面圖像信息。算法首先通過尺度縮小、色彩簡化最快速去除圖像高頻細節(jié),摒棄不同尺寸及顏色微變帶來的圖片差異,然后基于離散余弦變換、低頻采樣提取圖片中的低頻信息,去除高頻噪聲信息的干擾,完成特征提??;最后基于特征均值激活方法將特征映射為64bit的長整形指紋,完成指紋提取。
完成指紋提取后,設(shè)計指紋匹配策略如下:
針對強哈希指紋信息,將待測文件MD5值輸入已有文件庫中進行檢索,如果發(fā)現(xiàn)完全相同的MD5值,即發(fā)現(xiàn)目標文件。
針對模糊哈希指紋信息,基于加權(quán)編輯距離實現(xiàn)匹配檢測功能。加權(quán)編輯距離計算將待匹配的兩個字符串(指紋)信息變成相同指紋最少需要多少步操作(包括插入、刪除、修改、交換),然后對不同操作給出一個權(quán)值,將結(jié)果相加獲得加權(quán)編輯距離,算法然后將加權(quán)編輯局里除以兩個指紋的長度和,以將絕對結(jié)果變?yōu)橄鄬Y(jié)果,再映射到0-100的一個整數(shù)值上,其中,100表示兩個字符串完全一致,而0表示完全不相似,最后獲得相似程度的評分,當評分超過閾值,即發(fā)現(xiàn)目標文件。
針對感知哈希指紋信息,計算待匹配的兩個字符串(指紋)信息的漢明距離,然后基于漢明距離計算二者相似程度評分。當評分超過閾值,即發(fā)現(xiàn)目標文件。
1.3數(shù)據(jù)分析子系統(tǒng)
數(shù)據(jù)分析子系統(tǒng)通過數(shù)據(jù)融合等技術(shù)手段,實現(xiàn)對目標人物和目標事件的偵查,快速生成簡報或定制專業(yè)化報告。
1.3.1目標數(shù)據(jù)身份落地
針對目標數(shù)據(jù)進行跨平臺融合分析,同時將社交平臺中出現(xiàn)的人臉數(shù)據(jù)與監(jiān)控視頻等非網(wǎng)絡(luò)數(shù)據(jù)中的圖像視頻人臉進行比對,從而將虛擬賬號與物理人對應(yīng)起來,確定目標多重身份。人臉聚類的關(guān)鍵在于將眾多不明身份的人臉圖片進行身份分析,并將屬于同一身份的人臉圖片給予相同的身份ID。由于平臺圖片多不包含直接的身份信息,這里采用基于DBSCAN算法的無監(jiān)督聚類的技術(shù)手段對人臉圖片進行聚類,能夠解決的已有聚類算法在人臉相似或者比較難分類的情況下,人臉聚類效果不好的問題。
具體步驟如下:
1) 首先進行人臉檢測和人臉特征提取。
2) 利用DBSCAN聚類算法對第(1)步提取的人臉特征進行初步聚類。DBSCAN聚類算法有兩個參數(shù),分別為距離參數(shù)eps和形成高密度區(qū)域所需要的最少點數(shù)參數(shù)minPts。根據(jù)實際情況設(shè)置minPts參數(shù),比如設(shè)置minPts=5,表示一個類中元素個數(shù)大于等于5個時,才會被認為是一個有效的類,否則就劃分為噪聲點。這一步的關(guān)鍵是距離參數(shù)eps的設(shè)定。這一步中需要將eps值設(shè)置小一些,使得聚類算法運行后得到的每一類的純度盡可能地高,即每一類盡可能都是同一個人的人臉圖片。
3) 對第(2)步得到的每一個類,計算類內(nèi)兩兩人臉之間的距離,統(tǒng)計距離的中位數(shù),若中位數(shù)值大于設(shè)定的閾值,則說明該類純度比較低,即類內(nèi)包含多個人的人臉。此時需要用DBSCAN聚類算法進一步對該類再次聚類,再次聚類時eps參數(shù)需要設(shè)置更小,以便可以區(qū)分出不同人臉。對二次聚類產(chǎn)生的新的類,標記為難類;若中位數(shù)值小于設(shè)定的閾值,則說明該類純度高,類中為同一個人的人臉。對于沒有進行二次聚類的類,標記為普通類。
4) 對第(3)步得到的每一個類進行計算中心點??梢灾挥嬎忝恳粋€類中核心對象的中心點,使得計算出的中心點更加可靠。此處中心點的計算方式為計算每個類中人臉特征在各個維度上的算術(shù)平均值。
5) 遍歷目前還未被歸類的每一個人臉,計算該人臉與第(4)步得到的每一個中心點的距離,在這些距離中取出最小距離,若該最小距離大于設(shè)定的閾值,則仍將該點判斷為噪聲點,即不屬于第(4)步得到的任何一個類;若該最小距離小于設(shè)定的閾值,則將該點劃分到最小距離對應(yīng)的類中。需要說明的是,對于難類和普通類,上述提到的閾值大小是不同的,難類對應(yīng)的閾值要比普通類對應(yīng)的閾值小,即劃分到難類的要求更高。
6) 根據(jù)第(5)步得到的類,重新計算每一個類的中心點。兩兩計算類中心點之間的距離,若距離小于設(shè)定的閾值,說明這兩個類的人臉屬于同一個人,則將這兩個類合并;若計算得到的距離大于設(shè)定的閾值,則說明這兩個類的人臉屬于不同人的人臉,不進行合并。需要說明的是,普通類與普通類的合并閾值要比難類參與的合并閾值要高一些,即難類參與的合并要求要高。
7) 如果待聚類的人臉數(shù)據(jù)非常多,那么直接聚類可能導(dǎo)致系統(tǒng)內(nèi)存不足,因此可以考慮分批次聚類。具體做法為每次取一部分人臉數(shù)據(jù)按照上述步驟聚類,然后將每次的聚類結(jié)果合并到已有的類別上,合并規(guī)則為,比較新的類中心點與已有的類中心點之間的距離,若距離小于設(shè)定的閾值,則合并;否則就不合并,將該聚類結(jié)果保存為新的一個類。
至此完成了基于改進DBSCAN的人臉聚類方法。在人臉聚類后,每個人臉圖像都被賦予了一個身份ID,具有同一ID的圖像即為同一個人的人臉圖像。
1.3.2目標人物關(guān)系挖掘
針對目標數(shù)據(jù)進行跨平臺信息采集和融合分析,確定目標人物的身份信息、社交情況、政治傾向等信息,并建立目標區(qū)域重點人物數(shù)據(jù)庫。
要接近目標人物,通常需要從其身邊人入手,因此分析目標與其他人的通連關(guān)系意義重大,包括網(wǎng)絡(luò)空間人物通連關(guān)系和物理空間人物通連關(guān)系。其中,網(wǎng)絡(luò)空間人物通連關(guān)系指各社交平臺上目標人物賬號與其他賬號的相互關(guān)注關(guān)系、轉(zhuǎn)發(fā)關(guān)系、互動關(guān)系(點贊評論)等??勺詣踊廊∮脩舻囊欢?、二度、三度好友信息。
1.3.3特定事件偵查分析
可以快速采集指定地區(qū)主流網(wǎng)站、論壇、博客以及主流社交網(wǎng)站中的與目標事件相關(guān)的文字、圖像、視頻等信息素材,進行信息智能提取、關(guān)聯(lián)分析和綜合研判,針對目標事件在網(wǎng)絡(luò)上的整體傳播情況進行分析,找出傳播此信息的源頭和傳播路徑;采集網(wǎng)絡(luò)中出現(xiàn)的與該事件相關(guān)的圖像視頻信息,落地參與目標事件的人物信息。形成涵蓋目標事件簡介、熱點詞、參與人員、傳播途徑的特定目標數(shù)據(jù)分析報告。


