對于醫(yī)療行業(yè)來說,,大數(shù)據(jù)一直是一個待挖掘的“金礦”,,但是對于大數(shù)據(jù)應(yīng)用存在的問題,很多人還停留在數(shù)據(jù)安全,、數(shù)據(jù)共享等表層的名詞理解上。
為了讓大家深度理解大數(shù)據(jù)應(yīng)用存在的安全挑戰(zhàn),,本文特整理中國信息安全測評中心大數(shù)據(jù)安全高級專家陳錦近日在北京健康醫(yī)療大數(shù)據(jù)論壇上的演講,,從技術(shù)的角度剖析,大數(shù)據(jù)安全風(fēng)險究竟是如何產(chǎn)生的,,會帶來什么影響,,如何建立防護(hù)體系。
醫(yī)療大數(shù)據(jù)有四個特征
健康醫(yī)療大數(shù)據(jù)有四個特征,。一是高度敏感,。這些數(shù)據(jù)和個人直接相關(guān),涉及個人隱私,;價值高,,是其他類別數(shù)據(jù)的50倍以上,極易成為被攻擊的目標(biāo)。二是處理方式的變化,。因為大數(shù)據(jù)量大,、類型多、變化快,,需要新型的計算架構(gòu)來處理,,包括分支計算、分支存儲等,;同時,,在分析的時候,需要用到一些機器學(xué)習(xí)的算法,。三是應(yīng)用理念的變化?,F(xiàn)在大家都知道,要應(yīng)用健康醫(yī)療數(shù)據(jù)去輔助醫(yī)療決策,,提高工作效率,。這就帶動了業(yè)務(wù)創(chuàng)新,即數(shù)據(jù)業(yè)務(wù)化,,基于醫(yī)療大數(shù)據(jù)進(jìn)行分析挖掘,,發(fā)現(xiàn)新價值,推出新產(chǎn)品,,提供新的基于數(shù)據(jù)的服務(wù),,如疾病預(yù)測、預(yù)防等,。四是數(shù)據(jù)流動,。在開放共享的過程中,數(shù)據(jù)不可避免地需要流動,。數(shù)據(jù)業(yè)務(wù)化和數(shù)據(jù)流動帶來兩個重要的數(shù)據(jù)安全問題,,即數(shù)據(jù)泄露、數(shù)據(jù)濫用等,。
在IT時代,,各個業(yè)務(wù)系統(tǒng)是相互獨立的,而且各個業(yè)務(wù)系統(tǒng)之間沒有交集,。而到了大數(shù)據(jù)時代,,各個業(yè)務(wù)系統(tǒng)會進(jìn)行匯聚融合,形成一個新的數(shù)據(jù)集,,然后再進(jìn)行數(shù)據(jù)挖掘分析,,開辟新的業(yè)務(wù)。這種模式典型的應(yīng)用,,就是華大基因推出的腫瘤基因檢測服務(wù),。第二種是第三方應(yīng)用,,依托相關(guān)的業(yè)務(wù)系統(tǒng)訪問數(shù)據(jù),對外提供分析服務(wù),。第三種是通過數(shù)據(jù)合作的方式,,實現(xiàn)數(shù)據(jù)的交換和共享。這種模式的典型應(yīng)用就是健康醫(yī)療大數(shù)據(jù)交易中心,。通過以上三種模式,,基本實現(xiàn)了數(shù)據(jù)業(yè)務(wù)化的特點,以及數(shù)據(jù)在不同的組織機構(gòu)和網(wǎng)絡(luò)區(qū)域內(nèi)進(jìn)行流動的特點,。
安全問題面臨四大挑戰(zhàn)
健康醫(yī)療大數(shù)據(jù)面臨的安全挑戰(zhàn),,包括基礎(chǔ)平臺安全、數(shù)據(jù)安全,、用戶隱私安全,、安全防護(hù)幾個方面。
首先是基礎(chǔ)平臺安全挑戰(zhàn),。
Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,,在大數(shù)據(jù)處理應(yīng)用中得到廣泛應(yīng)用,因為其自身在數(shù)據(jù)提取,、變形和加載方面具有天然優(yōu)勢,。但是,Hadoop最初是考慮在可信的環(huán)境中運行,,沒有考慮安全機制問題,。在運行過程中,發(fā)現(xiàn)存在數(shù)據(jù)被篡改,、作業(yè)被惡意提交等問題,,隨后加入數(shù)據(jù)認(rèn)證、訪問控制,、加密等安全機制,,但是仍然存在不足,表現(xiàn)在三個方面,。一是在身份管理和訪問控制方面,,依賴Linux的身份管理與權(quán)限控制機制,不能滿足基于角色的身份管理和細(xì)粒度訪問控制等需求,。二是在安全審計上,因為大數(shù)據(jù)系統(tǒng)各組件只有簡單的日志記錄功能,,并沒有原生安全審計功能,,需要使用外部附加工具進(jìn)行日志分析。三是這些系統(tǒng)是開源的,,我國推出的大多數(shù)大數(shù)據(jù)產(chǎn)品是基于開源設(shè)計的,,但開源組件缺乏嚴(yán)格的測試和安全認(rèn)證,,對組件漏洞和惡意后門防范能力不足。
另外,,傳統(tǒng)訪問控制機制難以滿足需求,,這表現(xiàn)在幾個方面。一是多源數(shù)據(jù)大量匯聚增加了訪問控制策略制定和管理的難度,,過度授權(quán)和授權(quán)不足現(xiàn)象嚴(yán)重,。二是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)精細(xì)化描述困難,無法準(zhǔn)確為用戶指定其可以訪問的數(shù)據(jù)范圍,,難以實現(xiàn)最小授權(quán)原則,。三是數(shù)據(jù)存儲和流動場景復(fù)雜,使得數(shù)據(jù)加密的實現(xiàn)異常困難,。海量數(shù)據(jù)的密鑰管理也是亟待解決的難題,。
同時,大規(guī)模集群安全配置難度成倍增長,。因為開源Hadoop系統(tǒng)的身份認(rèn)證,、權(quán)限管理、加密,、審計等功能都沒有實現(xiàn)的話,,必須對各個組件進(jìn)行安全配置。但是目前并沒有有效的技術(shù)手段能評估安全配置效果的好壞,,從而導(dǎo)致系統(tǒng)存在很多問題,,甚至數(shù)據(jù)泄露事件的發(fā)生。2017年6月,,Shodan互聯(lián)網(wǎng)搜索引擎分析顯示,,Hadoop服務(wù)器因配置不安全導(dǎo)致海量數(shù)據(jù)暴露,涉及4500臺HDFS服務(wù)器,,數(shù)據(jù)量高達(dá)5.12PB,。
第二是數(shù)據(jù)安全挑戰(zhàn)。
健康醫(yī)療領(lǐng)域數(shù)據(jù)泄露事件時有發(fā)生,。今年8月,,因為MongoDB數(shù)據(jù)庫安全配置不當(dāng),導(dǎo)致墨西哥200萬公民的醫(yī)療健康數(shù)據(jù)泄露,。2016年7月,,我國30個省份至少275位艾滋病感染者的個人信息遭泄露。
數(shù)據(jù)泄露的潛在隱患同樣不容樂觀,。據(jù)Shodan統(tǒng)計,,截至2017年2月3日,中國有1504個MongoDB數(shù)據(jù)庫暴露在公網(wǎng),,存在嚴(yán)重安全問題,。IDC市場研究公司預(yù)計,,在2020年,全球42%的電子健康數(shù)據(jù)會處于無保護(hù)狀態(tài),。
內(nèi)部威脅是健康醫(yī)療領(lǐng)域數(shù)據(jù)泄露的主要原因,。根據(jù)Verizon發(fā)布的報告統(tǒng)計,醫(yī)療行業(yè)是內(nèi)部威脅高于外部威脅的唯一一個行業(yè),。一方面,,健康醫(yī)療行業(yè)的數(shù)據(jù)安全意識薄弱,管理不嚴(yán),;另一方面,,系統(tǒng)安全防護(hù)能力不足。一些行業(yè)內(nèi)部員工在經(jīng)濟利益或者好奇心驅(qū)使下窺探患者隱私,,盜取數(shù)據(jù),。
數(shù)據(jù)采集環(huán)節(jié)是影響決策分析的新風(fēng)險點。健康醫(yī)療大數(shù)據(jù)量大,、種類多,、來源比較復(fù)雜,為數(shù)據(jù)的真實性和完整性校驗帶來了困難,。目前并沒有有效的機制,,去對數(shù)據(jù)的真實性和完整性進(jìn)行鑒別,無法剔除虛假,、惡意數(shù)據(jù),。這導(dǎo)致一些黑客通過網(wǎng)絡(luò)工具的手段向數(shù)據(jù)采集終端中注入臟數(shù)據(jù),破壞數(shù)據(jù)真實性,,引導(dǎo)數(shù)據(jù)分析的結(jié)果,,實現(xiàn)操縱數(shù)據(jù)分析結(jié)果的目的。
數(shù)據(jù)開放共享面臨諸多因素制約,。一是權(quán)利屬性制約,,在大數(shù)據(jù)時代,誰擁有了數(shù)據(jù),,誰就有了發(fā)言權(quán),。二是財富屬性制約,數(shù)據(jù)是新的“石油”,,誰擁有了數(shù)據(jù),,誰就擁有了財富。三是體制機制制約,,政策法規(guī)層面缺乏指導(dǎo)數(shù)據(jù)開放共享的具體細(xì)則,。以上種種,導(dǎo)致這些數(shù)據(jù)不愿開放、不敢開放,、不能開放、不會開放,。
數(shù)據(jù)流動的復(fù)雜性導(dǎo)致數(shù)據(jù)存在被濫用的風(fēng)險,。數(shù)據(jù)流動路徑變得復(fù)雜,不再是以前單向,、單路徑以及在組織內(nèi)部的簡單流動模式,,而是變成雙向、多路徑,、跨組織的復(fù)雜流動模式,。這種模式下,跨越了數(shù)據(jù)控制者和安全域,,數(shù)據(jù)溯源中數(shù)據(jù)標(biāo)記的可信性驗證困難,,數(shù)據(jù)標(biāo)記和數(shù)據(jù)內(nèi)容之間捆綁的安全性難以保證,導(dǎo)致數(shù)據(jù)無法追蹤溯源,,加劇數(shù)據(jù)被濫用的風(fēng)險,。
第三是個人隱私安全挑戰(zhàn)。
傳統(tǒng)隱私保護(hù)技術(shù)因大數(shù)據(jù)的超強分析能力可能失效,。數(shù)據(jù)分析挖掘帶來隱私泄露風(fēng)險,。我們在進(jìn)行隱私處理的時候,用到的算法,、規(guī)則都是不一樣的,,這種情況下,就會對多來源,、多類型的數(shù)據(jù)集進(jìn)行關(guān)聯(lián)分析和深度挖掘,,可能會復(fù)原匿名化數(shù)據(jù)。
傳統(tǒng)隱私保護(hù)技術(shù)難以適應(yīng)非關(guān)系數(shù)據(jù)庫,。大數(shù)據(jù)的很多數(shù)據(jù)是半結(jié)構(gòu)化或者非結(jié)構(gòu)化的,,基本通過非關(guān)系型數(shù)據(jù)庫(NoSQL)進(jìn)行存儲,目前并沒有嚴(yán)格的訪問控制機制及相對完善的隱私保護(hù)工具來適應(yīng)這種非關(guān)系型數(shù)據(jù)庫的保護(hù),。
第四是安全防護(hù)挑戰(zhàn),。
大數(shù)據(jù)是一把雙刃劍,分析結(jié)果滿足業(yè)務(wù)目標(biāo),、業(yè)務(wù)需求的同時,,也對安全防護(hù)技術(shù)帶來挑戰(zhàn)。傳統(tǒng)的攻擊一般是竊取數(shù)據(jù),,或者是癱瘓系統(tǒng),,攻擊的效果要么是讓系統(tǒng)宕機,要么是信息泄露,。但是現(xiàn)在大數(shù)據(jù)的攻擊目標(biāo)變成了污染數(shù)據(jù)和干擾分析結(jié)果,,攻擊的效果是使分析結(jié)果發(fā)生偏差,。這種污染數(shù)據(jù)或者影響數(shù)據(jù)分析結(jié)果的行為是很難檢測的。
在數(shù)據(jù)開放共享的過程中,,更多的角色參與進(jìn)來,,增加數(shù)據(jù)泄露風(fēng)險;數(shù)據(jù)跨域傳輸和脫離掛空,,導(dǎo)致數(shù)據(jù)管理和流向追蹤困難,,數(shù)據(jù)濫用存在風(fēng)險;傳統(tǒng)的靜態(tài)隔離安全保護(hù)方法滿足不了需求,,必須通過動態(tài)變化的視角分析和判斷數(shù)據(jù)安全風(fēng)險,,構(gòu)建以健康醫(yī)療數(shù)據(jù)為中心的動態(tài)風(fēng)險控制和持續(xù)監(jiān)測防護(hù)體系,應(yīng)對數(shù)據(jù)流動過程中面臨的安全風(fēng)險,。??防護(hù)要從三方面著手,。一是建立大數(shù)據(jù)安全保障體系,重點保障數(shù)據(jù)在流動過程中的安全,。二是開展大數(shù)據(jù)安全分析,,重點針對數(shù)據(jù)內(nèi)容污染、干擾分析結(jié)果的行為來進(jìn)行分析,;三是建設(shè)大數(shù)據(jù)安全風(fēng)險評估體系,,從主動識別風(fēng)險、消除風(fēng)險的角度去開展工作,,提前把風(fēng)險控制在能夠接受的范圍內(nèi),。