多層次數(shù)據(jù)分析論文
時間:2022-03-27 04:02:32
導語:多層次數(shù)據(jù)分析論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1海量數(shù)據(jù)處理流程
1.1數(shù)據(jù)采集
數(shù)據(jù)的采集是指利用傳感器、社交網(wǎng)絡以及移動互聯(lián)網(wǎng)等方式獲得的各種類型的結構化、半結構化以及非結構化的海量數(shù)據(jù),這是一切數(shù)據(jù)分析的基礎。數(shù)據(jù)的采集需要解決分布式高速高可靠數(shù)據(jù)的采集、高速數(shù)據(jù)全映像等數(shù)據(jù)收集技術。還要設計質(zhì)量評估模型,開發(fā)數(shù)據(jù)質(zhì)量技術。而數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng),實現(xiàn)對海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、初步處理和管理等。
1.2數(shù)據(jù)預處理
數(shù)據(jù)采集的過程本身就有會有很多數(shù)據(jù)庫,但如果想達到有效分析海量數(shù)據(jù)的目的,就必將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,而且在導入基礎上做一些簡單的辨析、抽取、清洗等操作。
①抽?。阂驗槲覀兺ㄟ^各種途徑獲取的數(shù)據(jù)可能存在多種結構和類型,而數(shù)據(jù)抽取過程可以有效地將這些復雜的數(shù)據(jù)轉(zhuǎn)換為單一的結構或者便于處理的類型。以達到快速分析處理的目的。
②清洗:對于海量數(shù)據(jù)而言,數(shù)據(jù)所處的價值層次不一樣,就必然存在由于價值低而導致開發(fā)成本偏大的數(shù)據(jù),還有與數(shù)據(jù)分析毫無關系的數(shù)據(jù),而另一些數(shù)據(jù)則是完全錯誤的干擾項,所以對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)是十分重要的步驟。
1.3數(shù)據(jù)的存儲與管理
當我們采集數(shù)據(jù)完成后,就需要將其存儲起來統(tǒng)一管理,主要途徑就是建立相應的數(shù)據(jù)庫,進行統(tǒng)一管理和調(diào)用。在此基礎上,需要解決大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)葞讉€關鍵問題。還需開發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲、計算融入存儲、數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲技術;以及分布式非關系型大數(shù)據(jù)管理與處理技術、異構數(shù)據(jù)的數(shù)據(jù)融合技術、數(shù)據(jù)組織技術、研究大數(shù)據(jù)建模技術、索引、移動、備份、復制、可視化技術。
1.4數(shù)據(jù)的統(tǒng)計分析
一般情況下,統(tǒng)計與分析主要就是利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
1.5數(shù)據(jù)分析與挖掘
所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫中的大量不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,揭示出隱含的、先前未知的并有潛在價值的信息的過程。與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般不會有預先設計好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型的算法有用于聚類的K-means、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
2數(shù)據(jù)分析的8個層次
2.1標準化報告(StandardReports)
標準化報告作為數(shù)據(jù)分析的第一個層次,要求相對較低,主要是借助相應的統(tǒng)計工具對數(shù)據(jù)進行歸納總結,得出包含主要參數(shù)指標的標準化報告。類似于一個銷售企業(yè)每月或者每季度的財務報表。
2.2即席查詢(AdHocReports)
用戶可以通過自己的需求,靈活地選擇查詢條件,系統(tǒng)就能夠根據(jù)用戶的需求選擇生成相應的統(tǒng)計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定制開發(fā)的,而即席查詢所有的查詢條件都是用戶自己定義的。在面向高層的數(shù)據(jù)分析軟件中,用戶隨意添加想要查詢的指標按鈕再加上相應的限制條件,就可以立即生成可視化的統(tǒng)計結果,不僅一目了然,而且沒有任何操作難度。
2.3多維分析(QueryDrilldown)
多維分析是指對具有多個維度和指標所組成的數(shù)據(jù)模型進行的可視化分析手段的統(tǒng)稱,常用的分析方式包括:下鉆、上卷、切片(切塊)、旋轉(zhuǎn)等各種分析操作。以便剖析數(shù)據(jù),使分析者、決策者能從多個角度多個側面觀察數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息和內(nèi)涵。上卷是在數(shù)據(jù)立方體中執(zhí)行聚集操作,通過在維級別中上升或通過消除某個或某些維來觀察更概括的數(shù)據(jù)。上卷的另外一種情況是通過消除一個或者多個維來觀察更加概括的數(shù)據(jù)。下鉆是在維級別中下降或者通過引入某個或者某些維來更細致地觀察數(shù)據(jù)。切片是在給定的數(shù)據(jù)立方體一個維上進行的選擇操作,切片的結果是得到了一個二維的平面數(shù)據(jù)(切塊是在給定的數(shù)據(jù)立方體的兩個或者多個維上進行選擇操作,而切塊的結果是得到了一個子立方塊)。轉(zhuǎn)軸相對比較簡單,就是改變維的方向。
2.4儀表盤與模擬分析(Alerts)
儀表盤用于監(jiān)控一些關鍵指標。模擬分析是由操作者動態(tài)地加以調(diào)節(jié)的控件(如滑動塊、可調(diào)旋鈕、選擇框等),來控制管理決策模型行為某些參數(shù)。當操作者通過控制面板對模型中的參數(shù)值或變量值進行調(diào)節(jié)時,圖形中的曲線、柱形組或分析指標等要素就會發(fā)生相應的運動,而這種運動正好反映了該參數(shù)的變化對模型行為的影響,如果這種變動引起了模型中最優(yōu)解或其他關鍵數(shù)字的變化,能夠隨時將關于這種變化的結論正確地顯示出來。
2.5統(tǒng)計分析(StatisticallyAnalysis)
我們知道概率論是數(shù)理統(tǒng)計的基礎,數(shù)理統(tǒng)計是在其基礎上研究隨機變量,并應用概率論的知識做出合理的估計、推斷與預測。概率論中討論的各種分布在數(shù)理統(tǒng)計中作為統(tǒng)計模型來分析處理帶有隨機誤差的數(shù)據(jù)。典型的數(shù)理統(tǒng)計方法有參數(shù)估計、假設檢驗和回歸分析。而統(tǒng)計分析主要是對用戶所關注的問題進行推斷、預測和控制的分析方法。具體可以分為以下三方面:
①描述統(tǒng)計:主要是集中趨勢、離散程度、分布形狀等,統(tǒng)計圖(方圖、箱線圖、散點圖等);
②數(shù)據(jù)的分類匯總;
③基礎統(tǒng)計分析:方差分析、時間序列分析、相關和回歸分析、(主成分)因子分析等統(tǒng)計分析方法。
2.6預測(Forecasting)
在統(tǒng)計分析和數(shù)據(jù)挖掘領域,對未來的預測已經(jīng)有了很多數(shù)學模型以及解決具體問題的相關算法。其核心思想便是從歷史數(shù)據(jù)中找出數(shù)據(jù)的發(fā)展模式,然后以這些模式為支點,就可以對未來進行預測。
2.7預測模型(PredictiveModeling)
隨著數(shù)據(jù)分析學家對數(shù)據(jù)挖掘技術的不斷探索,出現(xiàn)了很多預測模型以及與之相對應的算法,但是很難確定某個模型是最精確的,因為不同的領域,不同的條件,對應的預測模型是不一樣的,所以沒有統(tǒng)一化的最優(yōu)模型,只存在有選擇性的最優(yōu)模型。下面介紹幾種典型的預測模型。
①回歸模型:回歸模型可以分為一元線性回歸模型和多元線性回歸模型。一元線性回歸模型可表示為yt=b0+b1xt+ut,該式表示變量yt和xt之間的真實關系。其中yt稱作被解釋變量(或相依變量、因變量),xt稱作解釋變量(或獨立變量、自變量),ut稱作隨機誤差項,b0稱作常數(shù)項(截距項),b1稱作回歸系數(shù)。b0+b1xt是非隨機部分,ut是隨機部分。而在很多情況下,回歸模型必包含兩個或更多自變量才能夠適應地描述經(jīng)濟現(xiàn)象各相關量之間的聯(lián)系,這就是多元線性回歸模型需要解決的問題,其一般形式為:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是這個多元回歸問題的m個自變量,b1、b2、…、bm是回歸方程對應于各自變量的系數(shù),又稱偏回歸系數(shù)。
②貝葉斯網(wǎng)絡:貝葉斯網(wǎng)絡是基于概率推理的數(shù)學模型,而概率推理是通過一些產(chǎn)量的信息來獲取其他概率信息的過程。貝葉斯網(wǎng)絡會建立一個有向無環(huán)圖和一個概率表集合,有向無環(huán)圖中的每一個節(jié)點便是一個隨機變量,而有向邊表示隨機變量間的條件依賴,條件概率表中的每一個元素對應有向無環(huán)圖中唯一的節(jié)點,存儲此節(jié)點對其所有直接前驅(qū)節(jié)點的條件概率。貝葉斯網(wǎng)絡是為了解決不定性與不完整性問題而提出的,在多個領域中獲得廣泛應用。
③基于時間序列分析的指數(shù)平滑模型在時間序列分析中指數(shù)平滑模型是最靈活和準確的方法,在經(jīng)濟領域也被證明是最有效的預測模型。在不同的時間序列下,指數(shù)平滑模型可以分為簡單指數(shù)平滑法、帶有趨勢調(diào)整的指數(shù)平滑法、帶有阻尼趨勢的指數(shù)平滑法、簡單季節(jié)指數(shù)平滑法、帶有趨勢和季節(jié)調(diào)整的指數(shù)平滑法五種不復雜度的模型。
2.8最優(yōu)化
(Optimization)因為優(yōu)化問題往往可以帶來巨額的收益,通過一系列可行的優(yōu)化,可以使收益得到顯著提高。所謂最優(yōu)化就是從有限或者無限種可行的方案中選取最優(yōu)的方案。如果可以通過簡單的評判,就可以確定最優(yōu)方案那是最好的。但是事實不會那么簡單,所以優(yōu)化技術已經(jīng)發(fā)展出了一系列的理論來解決實際問題。其常用的優(yōu)化技術為:
①線性規(guī)劃:當目標函數(shù)與約束函數(shù)都是線性函數(shù)時,就是一個線性規(guī)劃問題。而當同時滿足約束函數(shù)和目標函數(shù)時,則可以認為是最優(yōu)解。
②整數(shù)規(guī)劃:要求決策變量取整數(shù)值的數(shù)學規(guī)劃。
③多目標規(guī)劃:指衡量一個決策優(yōu)劣的標準不止一個,也就是有多目標函數(shù)。
④動態(tài)規(guī)劃:將一個復雜的問題劃分為多個階段,逐段求解,最終求出全局最優(yōu)解。
3用Excel實現(xiàn)簡單的數(shù)據(jù)分析
①對于企業(yè)而言最重要的是利潤,所以管理者必須要從這張表中得到最關鍵也最容易得到的銷量和銷售額以及與其相關的一些數(shù)據(jù),通常是用最基本的數(shù)理統(tǒng)計結果來直觀地反映該企業(yè)在某個期間的盈利情況。
②其次,我們必須要做進一步的分析。已經(jīng)對整體的情況有了一定的把握,所以就可以朝著不同的方向去挖掘一些有價值的信息,為企業(yè)高層做決策提供有力的依據(jù)。對產(chǎn)品銷售而言,客戶結構能夠有效地反映客戶的地域分布,企業(yè)可以根據(jù)客戶的來源,在未開辟客戶的地域去尋找新的目標客戶群。而銷量結構可以直觀地反映企業(yè)最大銷量來自哪個地區(qū),對銷量較小的地區(qū)可以加大宣傳力度或者增加銷售網(wǎng)點來保持各地區(qū)銷售均衡。還可以及時地調(diào)整銷售方式來擴大市場份額,而對于銷量最小的地區(qū)考慮開辟新的市場。
統(tǒng)計了各地區(qū)的銷售總額和平均銷售額以及兩者的對比關系。由此可以得出地區(qū)平均購買力大小,以及各地區(qū)總銷售額大小。借助圖表描述,管理者可以對企業(yè)在某段期間內(nèi)的銷售狀況有一個大概的把握,只有掌握了這些的信息,才能更細化地去研究具體的影響因素。劃分等級,對于經(jīng)常性大量購買的客戶必須要以最優(yōu)惠的價格和最好的服務讓其滿意,以形成一個穩(wěn)定的大客戶群。而對于那些少量購買的客戶,也要制定出相應合適的方案來留住客戶。所以,分析銷售額的分布情況,可以掌握客戶的購買力度而且還能及時做一些留住大客戶的舉措。
4用R語言實現(xiàn)數(shù)據(jù)多層次分析
R語言是一種自由軟件編程語言與操作環(huán)境,是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng),它是一種用來進行數(shù)據(jù)探索、統(tǒng)計分析和作圖的解釋型語言。它可以提供一些集成的統(tǒng)計工具,但更大量的是它提供各種數(shù)學計算、統(tǒng)計計算的函數(shù),從而使使用者能靈活機動地進行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法。而在使用R語言進行數(shù)據(jù)分析處理時,當我們遇到很大的原始數(shù)據(jù),但用來建模的數(shù)據(jù)較小,則可以先在數(shù)據(jù)庫中進行整理,然后通過R與數(shù)據(jù)庫的接口提取數(shù)據(jù),數(shù)據(jù)庫適合存放和整理比較規(guī)整的數(shù)據(jù),和R中的數(shù)據(jù)框有良好的對應關系,這也是R中絕大多數(shù)統(tǒng)計模型的標準數(shù)據(jù)結構。數(shù)據(jù)庫中大部分的運算都不需要消耗很大的內(nèi)存。
5結語
多層次數(shù)據(jù)分析在管理上有十分重要的意義,因為它所產(chǎn)生的價值是完全建立在真實的數(shù)據(jù)層面,而對一個企業(yè)而言搜集數(shù)據(jù)模式的改進是管理過程的完善,對企業(yè)符合時代潮流和規(guī)范管理過程是至關重要的。多層次數(shù)據(jù)分析能夠及時糾正企業(yè)錯誤的決策,能夠?qū)M度展開實時跟蹤,還能了解成本管制情況和人員思想動態(tài)等。對于個人而言,數(shù)據(jù)分析可以幫助我們更好地去生活,消費者可以通過分析結果去選擇物美價廉的商品。還可以用數(shù)學模型來分析電影的票房,來減少不必要的損失等。總之,大數(shù)據(jù)時代多層次數(shù)據(jù)分析的價值是無可估量的,它可以囊括我們能想到方方面面以及我們現(xiàn)在還想不到的一些領域。也許,在不久的將來數(shù)據(jù)分析技術會變成一個獨立的學科,而掌握數(shù)據(jù)分析技術是以后社會中人才必備的技能。
作者:祁鵬年單位:長沙理工大學經(jīng)濟與管理學院