大數(shù)據(jù)作為2017年比較熱門的技術,受到越來越多的關注,那么對于一個想進入大數(shù)據(jù)的朋友來說,想知道的是:大數(shù)據(jù)學什么?今天科多大數(shù)據(jù)就和你們一起來分享一篇關于大數(shù)據(jù)學習內(nèi)容體系介紹的文章。
大數(shù)據(jù)技術體系太龐雜了,基礎技術覆蓋數(shù)據(jù)采集、數(shù)據(jù)預處理、分布式存儲、NOSQL數(shù)據(jù)庫、多模式計算(批處理、在線處理、實時流處理、內(nèi)存處理)、多模態(tài)計算(圖像、文本、視頻、音頻)、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、機器學習、人工智能、深度學習、并行計算、可視化等各種技術范疇和不同的層面。另外大數(shù)據(jù)應用領域廣泛,各領域采用技術的差異性還是比較大的。短時間很難掌握多個領域的大數(shù)據(jù)理論和技術,建議從應用切入、以點帶面,先從一個實際的應用領域需求,搞定一個一個技術點,有一定功底之后,再舉一反三橫向擴展,這樣學習效果就會好很多。大數(shù)據(jù)技術初探
從前幾年到現(xiàn)在所謂的大數(shù)據(jù)時代,移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算、人工智能、機器人、大數(shù)據(jù)等前沿信息技術領域,逐個火了一遍,什么是大數(shù)據(jù),大數(shù)據(jù)的技術范疇包括那些,估計很多人都是根據(jù)自己所熟悉的領域在盲人摸象。
下文從DT(Data technology,數(shù)據(jù)技術)技術泛型角度來系統(tǒng)地介紹什么是大數(shù)據(jù),包括那些核心技術,各領域之間的關系等等:
首先我們說機器學習,機器學習(machine learning),是計算機科學和統(tǒng)計學的交叉學科,核心目標是通過函數(shù)映射、數(shù)據(jù)訓練、優(yōu)化求解、模型評估等一系列算法實現(xiàn),讓計算機擁有對數(shù)據(jù)進行自動分類和預測的功能;機器學習領域包括很多智能處理算法,分類、聚類、回歸、相關分析等每類下面都有很多算法進行支撐,如SVM,神經(jīng)網(wǎng)絡,Logistic回歸,決策樹、EM、HMM、貝葉斯網(wǎng)絡、隨機森林、LDA等,無論是網(wǎng)絡排名的十大算法還是二十大算法,都只能說是冰山一角;總之計算機要智能化,機器學習是核心的核心,深度學習、數(shù)據(jù)挖掘、商業(yè)智能、人工智能,大數(shù)據(jù)等概念的核心技術就是機器學習,機器學習用于圖像處理和識別就是機器視覺,機器學習用于模擬人類語言就是自然語言處理,機器視覺和自然語言處理也是支撐人工智能的核心技術,機器學習用于通用的數(shù)據(jù)分析就是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘也是商業(yè)智能的核心技術。
深度學習(deep learning),機器學習里面現(xiàn)在比較火的一個子領域,深度學習是已經(jīng)被研究過幾十年的神經(jīng)網(wǎng)絡算法的變種,由于在大數(shù)據(jù)條件下圖像,語音識別等領域的分類和識別上取得了非常好的效果,有望成為人工智能取得突破的核心技術,所以各大研究機構和IT巨頭們都投入了大量的人力物力做相關的研究和開發(fā)工作。
數(shù)據(jù)挖掘(data mining),是一個很寬泛的概念,類似于采礦,要從大量石頭里面挖出很少的寶石,從海量數(shù)據(jù)里面挖掘有價值有規(guī)律的信息同理。數(shù)據(jù)挖掘核心技術來自于機器學習領域,如深度學習是機器學習一種比較火的算法,當然也可以用于數(shù)據(jù)挖掘。還有傳統(tǒng)的商業(yè)智能(BI)領域也包括數(shù)據(jù)挖掘,OLAP多維數(shù)據(jù)分析可以做挖掘分析,甚至Excel基本的統(tǒng)計分析也可以做挖掘。關鍵是你的技術能否真正挖掘出有用的信息,然后這些信息可以提升指導你的決策,如果是那就算入了數(shù)據(jù)挖掘的門。
人工智能(artifical intelligence),也是一個很大的概念,終極目標是機器智能化擬人化,機器能完成和人一樣的工作,人腦僅憑幾十瓦的功率,能夠處理種種復雜的問題,怎樣看都是很神奇的事情。雖然機器的計算能力比人類強很多,但人類的理解能力,感性的推斷,記憶和幻想,心理學等方面的功能,機器是難以比肩的,所以機器要擬人化很難單從技術角度把人工智能講清楚。人工智能與機器學習的關系,兩者的相當一部分技術、算法都是重合的,深度學習在計算機視覺和棋牌走步等領域取得了巨大的成功,比如谷歌自動識別一只貓,近谷歌的AlpaGo還擊敗了人類頂級的專業(yè)圍棋手等。但深度學習在現(xiàn)階段還不能實現(xiàn)類腦計算,多達到仿生層面,情感,記憶,認知,經(jīng)驗等人類獨有能力機器在短期難以達到。
后我們才說大數(shù)據(jù)(big data),大數(shù)據(jù)本質(zhì)是一種方法論,一句話概括,就是通過分析和挖掘全量海量的非抽樣數(shù)據(jù)進行輔助決策。上述技術原來是在小規(guī)模數(shù)據(jù)上進行計算處理,大數(shù)據(jù)時代呢,只是數(shù)據(jù)變大了,核心技術還是離不開機器學習、數(shù)據(jù)挖掘等,另外還需考慮海量數(shù)據(jù)的分布式存儲管理和機器學習算法并行處理等核心技術。總之大數(shù)據(jù)這個概念就是個大框,什么都能往里裝,大數(shù)據(jù)源的采集如果用傳感器的話離不開物聯(lián)網(wǎng)、大數(shù)據(jù)源的采集用智能手機的話離不開移動互聯(lián)網(wǎng),大數(shù)據(jù)海量數(shù)據(jù)存儲要高擴展就離不開云計算,大數(shù)據(jù)計算分析采用傳統(tǒng)的機器學習、數(shù)據(jù)挖掘技術會比較慢,需要做并行計算和分布式計算擴展,大數(shù)據(jù)要互動展示離不開可視化,大數(shù)據(jù)的基礎分析要不要跟傳統(tǒng)商業(yè)智能結合,金融大數(shù)據(jù)分析、交通大數(shù)據(jù)分析、醫(yī)療大數(shù)據(jù)分析、電信大數(shù)據(jù)分析、電商大數(shù)據(jù)分析、社交大數(shù)據(jù)分析,文本大數(shù)據(jù)、圖像大數(shù)據(jù)、視頻大數(shù)據(jù)…諸如此類等等范圍太廣…,總之大數(shù)據(jù)這個框太大,其終極目標是利用上述一系列核心技術實現(xiàn)海量數(shù)據(jù)條件下的人類深度洞察和決策智能化!這不僅是信息技術的終極目標,也是人類社會發(fā)展管理智能化的核心技術驅(qū)動力。