3044澳门永利集团欢迎您

數據科學方向介紹之二----- 大數據時代的10大變革
2018-06-22 11:12:22 來源: 浏覽:
   大數據時代的到來正在改變人們的生活方式、思維模式和研究範式,我們可以總結出10個重大變革,如圖1所示。

                                                                                    圖1大數據時代的10大變化
 
    1. 對研究範式的新認識——從“第三範式”到“第四範式”。
   2007年,圖靈獎獲得者Jim Gray提出了科學研究的第四範式——數據密集型科學發現(Data-intensive ScientificDiscovery)。在他看來,人類科學研究活動已經曆過三中不同範式的演變過程(原始社會的“實驗科學範式”、以模型和歸納為特征的“理論科學範式”和以模拟仿真為特征的“計算科學範式”),目前正在從“計算科學範式”轉向“數據密集型科學發現範式”。
   第四範式,即“數據密集型科學發現範式”的主要特點是科學研究人員隻需要從大數據中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。例如,在大數據時代,天文學家的研究方式發生了新的變化——其主要研究任務變為從海量數據庫中發現所需的物體或現象的照片,而不再需要親自進行太空拍照。再如,本書作者在一次研究生科學研究方法的調研中發現,絕大部分同學的研究範式有待調整——他們往往習慣性地“采用問卷調查法等方法親自收集新數據”,而不是“首先想到有沒有現成的大數據以及如何再利用已有的數據(數據洞見)”,如圖1所示。

                                                        圖2  某學生的科學研究思維分析
 
   2. 對數據的新認識——從“數據資源”到“數據資産”。
在大數據時代,數據不僅是一種“資源”,而更是一種重要的“資産”。因此,數據科學應把數據當做“一種資産來管理”,而不能僅僅當做“資源”來對待。也就是說,與其他類型的資産相似,數據也具有财務價值,且需要作為獨立實體進行組織與管理。
   3.對方法論的新認識——從“基于知識解決問題”到“基于數據解決問題”。我們傳統的方法論往往是“基于知識”的,即從“大量實踐(數據)”中總結和提煉出一般性知識(定理、模式、模型、函數等)之後,用知識去解決(或解釋)問題。因此,傳統的問題解決思路是“問題→知識→問題”,即根據問題找“知識”,并用“知識”解決“問題”。然而,數據科學中興起了另一種方法論——“問題→數據→問題”,即根據問題找“數據”,并直接用數據(不需要把“數據”轉換成“知識”的前提下)解決問題,如圖3所示。

                                                                            圖3   傳統思維與大數據思維的比較
 
   4.對數據分析的新認識——從統計學到數據科學。在傳統科學中,數據分析主要以數學和統計學為直接理論工具。但是,雲計算等計算模式的出現以及大數據時代的到來,提升了我們對數據的獲取、存儲、計算與管理能力,進而對統計學理論與方法産生了深遠影響,主要有:
随着數據獲取、存儲與計算能力的提升,我們可以很容易獲得統計學中所指的“總體”中的全部數據,且可以在總體上直接進行計算——不再需要進行“抽樣操作”;
在海量、動态、異構數據環境中,人們更加關注的是數據計算的“效率”而不再盲目追求其“精準度”。例如,在數據科學中,廣泛應用“基于數據的”思維模式,重視對“相關性”的分析,而不是等到發現“真正的因果關系”之後才解決問題。在大數據時代,人們開始重視相關分析,而不僅僅是因果分析。
   5.對計算智能的新認識——從複雜算法到簡單算法。“隻要擁有足夠多的數據,我們可以變得更聰明”是大數據時代的一個新認識。因此,在大數據時代,原本複雜的“智能問題”變成簡單的“數據問題”——隻要對大數據的進行簡單查詢就可以達到“基于複雜算法的智能計算的效果”。為此,很多學者曾讨論過一個重要話題——“大數據時代需要的是更多數據還是更好的模型(moredata or better model)?”。機器翻譯是傳統自然語言技術領域的難點,雖曾提出過很多種“算法”,但應用效果并不理想。近年來,Google翻譯等工具改變了“實現策略”,不再僅靠複雜算法進行翻譯,而對他們之前收集的跨語言語料庫進行簡單查詢的方式,提升了機器翻譯的效果和效率。
   6.對數據管理側重點的新認識——從業務數據化到數據業務化。在大數據時代,企業需要重視一個新的課題——數據業務化,即如何“基于數據”動态地定義、優化和重組業務及其流程,進而提升業務的敏捷性,降低風險和成本。但是,在傳統數據管理中我們更加關注的是業務的數據化問題,即如何将業務活動以數據方式記錄下來,以便進行業務審計、分析與挖掘。可見,業務數據化是前提,而數據業務化是目标。
   7.對決策方式的新認識——從目标驅動型決策到數據驅動型決策。傳統科學思維中,決策制定往往是“目标”或“模型”驅動的——根據目标(或模型)進行決策。然而,大數據時代出現了另一種思維模式,即數據驅動型決策,數據成為決策制定的主要“觸發條件”和“重要依據”。例如,近年來,很多高新企業中的部門和崗位設置不再是“固化的”,而是根據所做項目與所處的數據環境,随時動态調整其部門和崗位設置。然而,部門和崗位設置的敏捷性往往是基于數據驅動的,根據數據分析的結果靈活調整企業内部結構。
   8.對産業競合關系的新認識——從“以戰略為中心競合關系”到“以數據為中心競合關系”。在大數據時代,企業之間的競合關系發生了變化,原本相互激烈競争,甚至不願合作的企業,不得不開始合作,形成新的業态和産業鍊。例如,近年來IBM公司和Apple公司“化敵為友”,并有報道稱他們正在從競争對手轉向合作夥伴——IBM的100多名員工前往Apple的加州庫比蒂諾總部,與Apple一起為IBM的客戶(例如花旗、Sprint和日本郵政)聯合開發iPhone和iPad應用。
   9.對數據複雜性的新認識——從不接受到接受數據的複雜性。在傳統科學看來,數據需要徹底“淨化”和“集成”,計算目的是需要找出“精确答案”,而其背後的哲學是“不接受數據的複雜性”。然而,大數據中更加強調的是數據的動态性、異構性和跨域等複雜性——彈性計算、魯棒性、虛拟化和快速響應,開始把“複雜性”當作數據的一個固有特征來對待,組織數據生态系統的管理目标轉向将組織處于混沌邊緣狀态。
   10.對數據處理模式的新認識——從“小衆參與”到“大衆協同”。傳統科學中,數據的分析和挖掘都是具有很高專業素養的“企業核心員工”的事情,企業管理的重要目的是如何激勵和績效考核這些“核心員工”。但是,在大數據時代,基于“核心員工”的創新工作成本和風險越來越大,而基于“專家餘(Pro-Am)”的大規模協作日益受到重視,正成為解決數據規模與形式化之間矛盾的重要手段。
 
     全文鍊接:http://toutiao.com/i6309757259060609538/
】【打印】 【關閉
上一篇數據科學方向介紹之一-----今年高考志願,選個好專業比選個好學校更重要! 下一篇數據科學方向介紹之三-----大數據高端人才是怎樣煉成的?

最新内容

熱門内容