1 概述
信息化條件下的網絡空間存在大量數據,如何通過大數據技術的收集、處理、描述、分析能力在海量數據中辨別出具有價值的信息,去偽存真,相互關聯,再以此類數據為基礎,洞悉風險、預測未來趨勢,充分發揮情報工作“兵馬未動、情報先行”特點,實現從情報到安全的最終目標,這是情報態勢感知技術所要達成的目標。
2 態勢感知及其內涵
態勢感知(Situation Awareness)的概念最初形成于軍事領域,其來源于戰場指揮系統的工作模式,即通過已有數據對整個戰場形勢的復雜局面進行分析評估,進而做出預測,結合預測結論做出相應的反應。態勢感知的過程,可以理解為其對所處空間和所在時間內的各種要素進行識別并理解,進而預測其未來狀態的過程,主要分為三個層次,分別是感知(即知覺層—用來識別目標環境中各要素)、理解(即理解層—以知覺層為基礎整體評價各要素對實現目標的關鍵性)、預測(即推測層—整個態勢感知系統中最高的層級、以上兩個層級的結論為基礎,預測目標環境中各要素變化趨勢和動作走向)[1]。
態勢感知的技術應用主要體現在“感”和“知”上,也就是對目前狀態及發展趨勢的感受和認知,并服務于決策,同時對整個機制進行反饋修正。雖然態勢感知技術來源于軍事領域,但并不僅僅局限于此,其相關技術已廣泛運用到與數據相關的各行各業,尤其是在復雜系統的安全決策方面起著至關重要的作用。
3 基于大數據的態勢感知技術
數據是情報工作的重要來源,也是態勢感知技術的基礎。大數據技術帶來了一場前所未有的技術革命,這不僅僅是字面意義所表現出的具有海量數據的數據庫技術,而是在整個人類世界的思維方式和世界觀方面所帶來的巨大變革,即所有事物的描述、分析、處理都可以以數據化的方式進行。
與傳統的數據技術相比,大數據技術通過其他諸如人工智能、網絡技術、云存儲、云計算、物聯網等先進技術的支持,表現出數量大(即數據規模極其龐大)、類型雜(數據來源多樣、結構類型復雜)、速度快(數據采集、傳輸和處理都可實現在線即時進行)、價值密度低(數據數量越大其價值密度則越低)等突出特點[2]。隨著大數據時代技術的發展,網絡環境瞬息萬變,其特點都在情報工作領域逐一凸顯,情報任務日益復雜,這不僅加重了情報工作者的負擔,還使得情報用戶不斷降低對響應等待的容忍度,對情報工作提出了更高的要求。
傳統的情報工作模式主要包括五個階段的循環:(1)規劃(確定目標及實現目標所需的信息類型);(2)收集(收集不同來源的原始信息);(3)處理(將原始信息融合處理成可用信息);(4)分析(將可用信息通過整合、評估、分析等手段提煉出情報產品);(5)遞送(將情報產品交由需求方)。決策者獲得情報產品后做出決策,其行動結果導致新的情報支持需求,這樣就觸發了下一輪情報工作循環程序[4]??梢钥闯?,基于常規數據模式下的傳統情報工作,情報工作者處于對某一任務的被動回應下,主動關注行為往往具有一定的局限性,這就造成了情報滯后于決策的局面,情報價值也大幅降低。要想將“情報現行”的優勢發揮出來,就必須讓情報工作行動于任務需求之前,也就是實現情報數據主動感知機制,即“行動早、預見遠”,而將大數據技術融入情報感知處理過程就可以充分發揮其對海量復雜數據收集、處理、描述、分析的功能,大大提高情報工作效率,高效實現情報的可用性處理。
基于大數據的情報態勢感知首先要對相關目標數據進行采集,篩選出具有價值的信息并進行儲存,逐步形成一個與任務相關的大數據架構;其次,要利用各種目標規劃、分析算法、數據模型的有效結合,對數據庫中的可用情報數據進行更深層次的挖掘和分析,進而從這些數據中推算出任務態勢和發展走向,輔助完成決策,最終實現情報任務的態勢感知[3]?;诖髷祿膽B勢感知關鍵技術主要包括:
3.1 數據采集技術
建立大數據技術的主要數據來源有三種途徑,分別是物聯網系統、Web系統和傳統信息系統。物聯網的發展是導致大數據產生的重要原因之一,其產生的數據量占據了整個大數據百分之九十以上的份額,這些數據大部分是非結構化數據和半結構化數據,價值密度較低。而Web系統產生的數據則涵蓋了大量價值化的數據,其與物聯網數據的不同之處在于,Web系統的數據往往是結構化數據,且數據的價值密度比較高。傳統信息系統也是大數據的一個數據來源,雖然傳統信息系統的數據占比較小,但是由于傳統信息系統的數據結構清晰,同時具有較高的可靠性,所以傳統信息系統的數據往往也是價值密度最高的。
數據采集的主要技術:(1)數據庫采集,利用各種數據庫技術,實現不同類型數據庫之間的數據同步和集成;(2)網絡數據采集,借助網絡爬蟲工具或網站公開API,從網頁獲取非結構化或半結構化數據,并將其統一結構化為本地數據;(3)文件采集,包括實時文件采集和處理技術flume、基于ELK的日志采集和增量采集等。
3.2 數據預處理技術
基于數據管理的工作機制,其最重要的基礎性工作就是對數據采集階段收集到的各種數量龐大、類型復雜、多源異構、時空關聯范圍廣的數據進行整理和集中處理,將具有關聯性的數據整合重構,進而提高數據的邏輯性和系統性。數據預處理技術主要包括:(1)數據清理是指利用ETL等清洗工具,對冗余數據、噪音數據、遺漏數據等進行去重和過濾,從而清除大量的無效數據;(2)數據集成是指將不同數據源中的數據,進行模式匹配、解決數據冗余和沖突后,合并存放到統一的臨時數據庫中的存儲方法,這樣便于數據調度和加載,為后續的數據分析及應用奠定基礎;(3)數據關聯是指根據業務規則將同一屬性的數據相互關聯,對其之間的關系進行梳理,形成數據關系圖譜。
3.3 數據分析處理技術
在情報工作體系中引入態勢感知技術,除了進行基礎的情報數據處理以外,還要對感知到的信息進行關聯度分析,提升數據深度挖掘處理以及分析水平,從而將原始數據高效轉化為可用情報信息。數據分析處理技術主要通過數據挖掘算法和預測性分析來實現。
(1)數據挖掘算法。遵循任務規則,通過創建數據挖掘模型,對數據進行試探和計算的數據分析手段,是大數據分析技術的理論核心。數據挖掘算法多種多樣,且因基于數據類型及格式的不同,相同算法也會呈現不同特點,但是其創建的過程都是以需求方提供的數據為基礎,而后針對任務需求特定的模式和趨勢進行查找,并用分析結果來定義挖掘模型的參數,應用于整個數據集。
(2)預測性分析。預測性分析是大數據分析最重要的應用領域之一,也是態勢感知技術的核心。其通過多種高級分析功能,例如統計分析、預測建模、數據挖掘、文本分析、實體分析、實時評分、機器學習等先進技術的應用,幫助需求方分析結構化和非結構化數據中的模式、趨勢和關系,并運用這些指標來預測未來事件,為決策提供依據。
4 情報態勢感知前沿技術
情報態勢感知技術能夠充分發揮情報工作的先導性作用。在信息不完備的情況下進行態勢感知,并準確預測事物發展態勢,就必須強化數據處理模型的分析處理能力。情報工作相關技術研發水平代表著情報態勢感知能力高低,對國家安全具有重大意義,其中美國的情報技術代表著全球最高水平。美國情報機構的技術孵化器LARPA(美國情報高級研究計劃局)和提供國防安全技術保障的DARPA(美國國防高級研究計劃署)所進行的情報技術研究可以體現出情報態勢感知技術的發展方向[4]。
4.1 IARPA情報技術
IARPA利用全球事件中的全源數據進行感知,對事件發展態勢進行超前預判,為決策者第一時間進行提示和預警,最大程度發揮了情報價值。其研究的項目主要可以劃分成收集技術(Collection)、計算技術(Computing)、分析技術(Analysis)和超前情報技術(Anticipatory Intelligence)四個方向,與情報態勢感知中的收集、處理、分析、預測環節緊密契合,與大數據技術密切相關,涵蓋了自然語言處理、機器學習、數據融合處理等多個技術領域。
4.2 DARPA情報技術
DARPA下屬的信息創新辦公室所進行的信息技術研發工作主要集中在網絡技術、分析技術、(人機)共生技術方面,為情報態勢感知提供了有力的技術支持:(1)網絡技術主要進行網絡空間態勢感知技術、網絡威脅感知及應對技術的研究,開展網絡攻擊與防御,實現網絡安全與信息保護;(2)分析技術以大數據為基礎,進行分析技術、挖掘算法、軟件系統的不斷創新,幫助情報工作人員進行海量數據分析,高效實現情報態勢感知;(3)(人機)共生技術利用計算機高速處理高容量的任務,通過機器語言使其具有與人腦類似的認知功能,通過各種數據之間的相互關聯性判斷出數據表現內在的發展趨勢,對新生事物或將可能發生的事件作出明智的反應,是人工智能發展的必然趨勢。
5 結束語
基于大數據的情報態勢感知技術可以使情報工作充分發揮其優勢,去粗取精、去偽存真、由此及彼、由表及里地收集整合情報數據,鑒別情報信息的可靠程度,確定其價值,探尋各種數據表象之間的內在聯系,弄清來龍去脈,認清本質,揭示事件的真相和企圖,為決策提供可靠依據,真正做到“兵馬未動,情報先行”。