【大師講堂】應對科學探索中大數據的挑戰
? ? ? ?大數據,一個日益崛起的領域,從科學、工程、醫藥、醫療到金融、商業、社會。它預測了2012年美國總統大選的結果,也被Google利用搜索關鍵詞預測 禽流感的散布。它正一步一步悄然改變著你我的生活,同樣的,它也面臨著諸多困難。基于此,11月30號晚,香港中文大學常務副校長、偉倫計算器科學與工程 學講座教授華云生教授在道遠樓一樓校董會議室里給香港中文大學(深圳)的部分師生帶來了一場科學、嚴謹的講座,為大家分析了存在于大數據之中的機遇與挑戰。
? ? ? ?講座開始,華云生教授為大家介紹了何為大數據。Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價 值)Veracity(真實性)被視為大數據的五V特征,這些特征也就決定了大數據因數據規模過大而無法存儲或獲取,有關算法復雜性的傳統理論可能不再有 效,從而無法使用常規方法進行處理的特性。以此為展開點,華教授就其與科學工程領域中應用的關系提出大數據研究中面臨的挑戰。大數據與其說是一種技術,毋 寧說是一種普遍存在的現象,我們需要的,是對“數據”這座寶藏的挖掘。要想真正處理大數據,我們的思維方式必須轉變。欲實現大數據的成功應用,我們需要采 用適當的方法,實現自動從大數據提取新知識而無需對數據進行集中存儲和維護的目標。大數據的獲得與處理過程中困難重重,應用的多樣性、缺乏理論基礎、難以 應付實時數據等挑戰的存在,使得數據的“挖掘”過程尤其重要,我們需要做的,是尋求使其成為真正“顛覆性技術”的方法。
? ? ? ?華教授提到,要充分發揮大數據在科學發現中的作用,我們需要解決數據復雜性、計算復雜性和系統復雜性等諸多問題。特別要注意的是云計算將成為支撐大數據應 用的平臺。應用大數據的核心是找到核心數據,而這恰是難點所在。如把數據比喻為蘊藏能量的煤礦,不同煤炭的價值、挖掘成本又不一樣。與此類似,大數據并不 在“大”,而在于“有用”。價值含量、挖掘成本比數量更為重要。對于很多行業而言,如何利用這些大規模數據是成為贏得競爭的關鍵,而現代社會的發展,意味 著一個以數據為核心競爭力的時代已經到來,大數據更將成為引領時代的新動力。
? ? ? ?講座末,華云生教授悉心回答了同學與其他教授的提問,在交流之中加深了對這次講座的理解。當一扇嶄新的學科領域之門展現在同學們的面前,新的時代應召著新的人才,相信這一期的大師講堂,定將使與會師生受益匪淺。
圖:楊子晨
文:汪津成