技術基礎
大數(shù)據(jù)是云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、智慧城市等新技術、新模式發(fā)展的產(chǎn)物,它具有數(shù)據(jù)量大、類型復雜、內容變化快的特征,蘊含廣泛的應用價值和巨大的市場機會。
1、大數(shù)據(jù)采集與預處理技術
數(shù)據(jù)采集技術指從傳感器和其它待測設備等模擬和數(shù)字被測單元中自動采集非電量或者電量信號,送到上位機中進行分析、處理的過程。數(shù)據(jù)采集技術可分為3 大類:①系統(tǒng)日志采集方法。通過智能硬件、傳感器、社交網(wǎng)絡等數(shù)據(jù)載體的日常運維進行數(shù)據(jù)資源的采集。②網(wǎng)絡數(shù)據(jù)采集方法。指通過網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結構化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,并支持文件之間的自動關聯(lián)。③其他數(shù)據(jù)采集方法。其他數(shù)據(jù)包括企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或學科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機構合作,使用特定系統(tǒng)接口等相關方式采集數(shù)據(jù)。
大數(shù)據(jù)預處理技術,主要完成對已接收數(shù)據(jù)的辨析、抽取、清洗等操作。數(shù)據(jù)抽?。阂颢@取的數(shù)據(jù)可能具有多種結構和類型,數(shù)據(jù)抽取過程可以將這些復雜的數(shù)據(jù)轉化為單一的或者便于處理的類型,以達到快速分析處理的目的。數(shù)據(jù)清洗:對于大數(shù)據(jù),并不全是有價值的,對于無價值的數(shù)據(jù)或干擾數(shù)據(jù),需要通過過濾“去噪”進而提取出有效數(shù)據(jù)。
2、大數(shù)據(jù)存儲管理技術
數(shù)據(jù)的海量化和快增長特征是大數(shù)據(jù)對存儲技術提出的首要挑戰(zhàn)。這要求底層硬件架構和文件系統(tǒng)在性價比上要大大高于傳統(tǒng)技術,并能夠彈性擴展存儲容量。但以往網(wǎng)絡附著存儲系統(tǒng)(NAS)和存儲區(qū)域網(wǎng)絡(SAN)等體系,存儲和計算的物理設備分離,它們之間要通過網(wǎng)絡接口連接,這導致在進行數(shù)據(jù)密集型計算(Data Intensive Computing)時I/O 容易成為瓶頸。同時,傳統(tǒng)的單機文件系統(tǒng)(如NTFS)和網(wǎng)絡文件系統(tǒng)(如NFS)要求一個文件系統(tǒng)的數(shù)據(jù)必須存儲在一臺物理機器上,且不提供數(shù)據(jù)冗余性,可擴展性、容錯能力和并發(fā)讀寫能力難以滿足大數(shù)據(jù)需求。
谷歌文件系統(tǒng)(GFS)和Hadoop 的分布式文件系統(tǒng)HDFS奠定了大數(shù)據(jù)存儲技術的基礎。與傳統(tǒng)系統(tǒng)相比,GFS/HDFS 將計算和存儲節(jié)點在物理上結合在一起,從而避免在數(shù)據(jù)密集計算中易形成的I/O 吞吐量的制約,同時這類分布式存儲系統(tǒng)的文件系統(tǒng)也采用了分布式架構,能達到較高的并發(fā)訪問能力。
3、大數(shù)據(jù)分析挖掘技術
在人類全部數(shù)字化數(shù)據(jù)中,僅有非常小的一部分數(shù)值型數(shù)據(jù)得到了深入分析和挖掘(如回歸、分類、聚類),大型互聯(lián)網(wǎng)企業(yè)對網(wǎng)頁索引、社交數(shù)據(jù)等半結構化數(shù)據(jù)進行了淺層分析(如排序)。占總量近60%的語音、圖片、視頻等非結構化數(shù)據(jù)還難以進行有效的分析。
大數(shù)據(jù)分析技術的發(fā)展需要在兩個方面取得突破,一是對體量龐大的結構化和半結構化數(shù)據(jù)進行高效率的深度分析,挖掘隱性知識,如從自然語言構成的文本網(wǎng)頁中理解和識別語義、情感、意圖等;二是對非結構化數(shù)據(jù)進行分析,將海量復雜多源的語音、圖像和視頻數(shù)轉化為機器可識別的、具有明確語義的信息,進而從中提取有用的知識。
4、大數(shù)據(jù)可視化技術
數(shù)據(jù)可視化是一個處于不斷演變之中的概念,其邊界在不斷地擴大。主要指的是技術上較為高級的技術方法,而這些技術方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數(shù)據(jù)加以可視化解釋。與立體建模之類的特殊技術方法相比,數(shù)據(jù)可視化所涵蓋的技術方法要廣泛得多。
數(shù)據(jù)可視化技術主要是利用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術等。它涉及到計算機圖形學、圖像處理、計算機視覺、計算機輔助設計等多個領域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術。
5、大數(shù)據(jù)安全技術
大數(shù)據(jù)安全是個很寬泛的領域,可以包括:大數(shù)據(jù)系統(tǒng)的安全,數(shù)據(jù)本身的安全(加密)以及隱私保護,大數(shù)據(jù)應用帶來的安全和隱私問題,以及大數(shù)據(jù)技術應用于安全領域。
以 Hadoop 為代表的大數(shù)據(jù)系統(tǒng)早期主要處理公開領域的Web 數(shù)據(jù),因此并沒有在安全上著力,但近年來有了長足的進展,逐步加入了用戶和服務鑒權(基于Kerberos),加入HDFS文件權限,對數(shù)據(jù)塊的權限控制,對任務的授權,對網(wǎng)絡上流動數(shù)據(jù)的加密以及DataNode內靜態(tài)數(shù)據(jù)的加密等。Intel 的Project Rhino 做了很多有益的嘗試。
數(shù)據(jù)安全首先是靜態(tài)數(shù)據(jù)的安全,主要是訪問權限控制;其次是動態(tài)數(shù)據(jù)的安全,主要是加密和動態(tài)審計能力。目前動態(tài)審計能力主要還是在企業(yè)內,表現(xiàn)為數(shù)據(jù)泄露防護技術,對重要數(shù)據(jù)進行分級、標識,實現(xiàn)跨平臺(端點、移動設備、網(wǎng)絡和存儲系統(tǒng))的統(tǒng)一管理。
現(xiàn)在的主流大數(shù)據(jù)使用安全技術包括:基于同態(tài)加密、支持SQL 的加密數(shù)據(jù)庫,基于加密協(xié)議的多方安全計算,基于可信計算環(huán)境的多方安全計算,基于隱私保護的機器學習算法等。
近年來,在傳統(tǒng)能源供應日趨緊張,環(huán)境保護壓力加大的背景下,新能源成為我國重要的能源戰(zhàn)略。
隨著現(xiàn)代生命科學快速發(fā)展,以及生物技術與信息、材料、能源等技術加速融合,高通量測序、基因組編輯和生物信息分析等現(xiàn)代生物技術突破與產(chǎn)業(yè)化快速演進,生物經(jīng)濟正加速成為繼信息經(jīng)濟后新的經(jīng)濟形態(tài),對人類生產(chǎn)生活產(chǎn)生深遠影響。
新能源汽車行業(yè)涉及國家能源安全、環(huán)保以及汽車產(chǎn)業(yè)興衰等,目前世界主要汽車大國美/歐/日/韓等都已相繼對新能源汽車行業(yè)進行了一系列戰(zhàn)略布局,國內主要車企也相繼提出了各自的新能源汽車戰(zhàn)略,新能源汽車產(chǎn)業(yè)化、本土化浪潮勢不可擋。