數(shù)據(jù)信息論文范文
時間:2023-03-31 21:55:40
導(dǎo)語:如何才能寫好一篇數(shù)據(jù)信息論文,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
在電子商務(wù)網(wǎng)站設(shè)計的應(yīng)用在設(shè)計電子商務(wù)網(wǎng)站的時候,首選就需要幫助銷售商對客戶行為的了解,這樣才能使得站點的使用效率得到有效提高,此時就需要應(yīng)用數(shù)據(jù)挖掘技術(shù),這樣網(wǎng)絡(luò)管理員就可以根據(jù)客戶在上網(wǎng)過程中所瀏覽的網(wǎng)站頁面及其數(shù)據(jù)信息歸納分析經(jīng)常訪問該站點的用戶類型,及其訪問途徑和通過怎樣的方式完成交易等內(nèi)容,這樣才能讓建立的網(wǎng)站更吸引客戶,同時也為網(wǎng)站結(jié)構(gòu)的進一步優(yōu)化、站點訪問量和效果的提升提供有利的依據(jù)。整個電子商務(wù)網(wǎng)站的設(shè)計包括三個步驟,分別為數(shù)據(jù)信息的采集、分析以及提供個性化服務(wù)。
1.數(shù)據(jù)信息的采集
因為只有將客戶相關(guān)的數(shù)據(jù)信息收集起來,才能在分析之后,將個性化的服務(wù)提供給客戶,也就是說電子商務(wù)網(wǎng)站向客戶提供個性化服務(wù)是基于說數(shù)據(jù)信息采集的。銷售商能夠得到客戶在注冊過程中保存的信息,即客戶的基本信息,包括姓名、籍貫、家庭住址、出生日期以及愛好等,同時還能根據(jù)客戶所瀏覽的網(wǎng)頁和商品等信息,對客戶關(guān)注和傾向的商品進行判斷,進而為客戶建立相應(yīng)的服務(wù)檔案。而且客戶人員還能在計算機的數(shù)據(jù)庫中存儲客戶與自身交流時的數(shù)據(jù)信息。當(dāng)客戶完成訂單和付款之后,可以對其收貨地址信息加以確定,進而掌握客戶的所在地等信息,進而進一步完善客戶對應(yīng)的信息數(shù)據(jù)庫。同時還能夠?qū)蛻舻耐对V和評價進行分類整理,使客戶的服務(wù)檔案得到不斷的完善,以此為網(wǎng)站的優(yōu)化提供更加有利的數(shù)據(jù)資料。與此同時還會將數(shù)據(jù)挖掘技術(shù)引入到網(wǎng)絡(luò)服務(wù)器中,進行一個可以對客戶瀏覽途徑和頁面以及點擊產(chǎn)品信息加以記載的數(shù)據(jù)庫系統(tǒng),實現(xiàn)各企業(yè)資源共享的目標(biāo),并且還不會對網(wǎng)絡(luò)服務(wù)器的訪問速度產(chǎn)生影響。
2.數(shù)據(jù)信息的分析
想要設(shè)計出一個成功的電子商務(wù)網(wǎng)站,就應(yīng)該在保持對客戶完全透明的基礎(chǔ)上,及時、快速、準(zhǔn)確的分析客戶資料及其訪問行為,進而保證客戶訪問頁面的處理時間不被占用的條件下,為客戶提供一個可以更方便、快捷的進行網(wǎng)購、網(wǎng)上交易等商務(wù)活動環(huán)境。首先,就要分析客戶行為和登錄方式,對網(wǎng)站客戶群進行劃分歸類;其次在進行內(nèi)容設(shè)計的時候重點考慮客戶群的年齡、愛好和特點等方面,將網(wǎng)站內(nèi)容加以歸類,并針對不同類別的客戶群,展示客戶感興趣的商品信息,最后再根據(jù)客戶的訪問、瀏覽信息以及訂單信息,為客戶的行為資料進行及時修改和完善。
3.個性化服務(wù)
這就是通過挖掘網(wǎng)絡(luò)數(shù)據(jù)信息,了解和掌握客戶的需求和興趣,準(zhǔn)確的向客戶提供個性化的產(chǎn)品推薦,這不但要根據(jù)客戶的諸多方面對其提供滿足其需求的信息,而且還是主動為客戶提供所需信息,使網(wǎng)站的個性化服務(wù)的特點更為突出,進而吸引更多的客戶。并且為了使得客戶類型更加穩(wěn)定和準(zhǔn)確,就需要優(yōu)先臭氧統(tǒng)計具有較長注冊時間、較多瀏覽記錄以及產(chǎn)品購買數(shù)量大的客戶。
二、結(jié)束語
篇2
1.對資料管理重視不夠,圖書資料管理工作基礎(chǔ)較差??v觀大部分的企業(yè),普遍存在對資料管理工作忽視的問題。企業(yè)的管理層往往認(rèn)為這項工作無足輕重,不會對企業(yè)的發(fā)展產(chǎn)生影響。較低的重視度使得企業(yè)對圖書資料管理要求寬泛,在工作人員、工作內(nèi)容以及工作制度等方面沒有加以重視和關(guān)注,使得工作人員工作積極性不高、專業(yè)性不強,工作內(nèi)容模糊,工作制度缺失等問題出現(xiàn)。另外,企業(yè)對圖書資料管理工作資金投入較少,使其軟硬件基礎(chǔ)設(shè)施落后。以上因素都使得圖書資料管理工作基礎(chǔ)變得薄弱,不能完全發(fā)揮自身職能去服務(wù)企業(yè)。
2.圖書資料利用率不足,利用效果不明顯。圖書資料在企業(yè)的發(fā)展中起著信息交流、互相溝通的作用,特別是在企業(yè)制定發(fā)展戰(zhàn)略時候能夠提供參考、借鑒和考證等方面的幫助。但是,對于大多數(shù)的企業(yè)而言卻沒有充分利用圖書資料這些特點。主要原因在于文書資源的管理缺乏網(wǎng)絡(luò)化和現(xiàn)代化,再加上對圖書資料的整理編排不科學(xué)等,當(dāng)企業(yè)需要借助相關(guān)資料進行分析決策時,面對龐雜的圖書資料工作者不能及時地將對方所需的資料提取出來,給對方工作造成不便,打擊了企業(yè)其他部門取用圖書資料的積極性,造成了企業(yè)雖然占有大量的文書資源但是其他部門不充分利用的現(xiàn)狀。
3.圖書資料工作與檔案管理工作協(xié)調(diào)性差,工作漏洞時常存在。在企業(yè)里會出現(xiàn)圖書資料工作和檔案管理工作的對接偏差,使兩者間的協(xié)調(diào)性受到了嚴(yán)重地削弱,進而不能及時提供有效、全面的信息資源。造成兩者間工作協(xié)調(diào)性差的原因主要在于雙方不能明確各自的工作范圍和內(nèi)容,不能夠做好相互的銜接工作。圖書資料工作與檔案管理工作不能夠很好地配合會導(dǎo)致一些漏洞的發(fā)生,如在圖書資料工作中,文種使用不當(dāng)、初始稿件丟失、檔案收集工作不及時等;在檔案管理工作方面,存在著操作不規(guī)范,主要體現(xiàn)在對檔案的裝訂、添加附件、編號等工作上。
4.圖書資料管理軟硬件建設(shè)投入不足,制約了信息化管理進程。圖書資料管理軟硬件投入不足主要是指企業(yè)在其硬件設(shè)備以及人員配備方面沒有給與足夠的資金投入,使之不能夠滿足工作的需要,制約了信息化的管理進程。主要體現(xiàn)為現(xiàn)有的辦公設(shè)備較為成舊,在開展信息化建設(shè)時不能夠提供硬件支持。另外,人員配備方面也存在缺陷,表現(xiàn)為現(xiàn)有的工作人員素質(zhì)較低,也沒有高素質(zhì)的專業(yè)人員的引入。
二、大數(shù)據(jù)時代圖書資料信息化管理工作發(fā)展的建議
針對上述問題,應(yīng)當(dāng)從以下幾個方面出發(fā)對其進行改進:
1.做好圖書資料管理的基礎(chǔ)工作,加強企業(yè)部門之間資料管理的協(xié)調(diào)。為了更好地做好圖書資料管理的基礎(chǔ)工作,加強部門之間與圖書資料管理的溝通合作。企業(yè)需要對圖書資料工作人員加以規(guī)范和約束,督促其做好本職工作,諸如搜集,分類,鑒別,整理等,還要增強其服務(wù)意識。在提高重視度的同時還要針對圖書資料管理工作的性質(zhì)制定完善的管理制度和工作方法、流程等。最后在加強基礎(chǔ)性工作方面還要對其進行有效的、全方位的監(jiān)管,確保工作的準(zhǔn)確性、全面性、及時性。另外,在部門協(xié)調(diào)方面,負(fù)責(zé)圖書資料管理的部門也應(yīng)加強和企業(yè)內(nèi)部其他部門的聯(lián)系與互動,及時將搜集處理好的信息及時地提供給企業(yè)內(nèi)部需要的部門,以幫助企業(yè)在制定目標(biāo)或戰(zhàn)略時及時做出判斷,切實發(fā)揮自身的基礎(chǔ)性作用,在一定程度上也能夠增強企業(yè)對圖書資料管理的重視度。
2.實現(xiàn)圖書資料管理的數(shù)字化,簡化手動、整理和歸檔的過程。為了提高圖書資料的利用率,使之更加方便地為其他部分提供服務(wù),企業(yè)應(yīng)對現(xiàn)有的圖書資料管理模式進行改革創(chuàng)新。圖書資料管理部門要逐步實現(xiàn)圖書資料管理的數(shù)字化,即在原有紙質(zhì)資料基礎(chǔ)上引入數(shù)字化處理技術(shù)。在對紙質(zhì)資料進行整理、編號、儲存的同時,將大數(shù)據(jù)時代的技術(shù)優(yōu)勢應(yīng)用于圖書資料的管理工作中,將圖書資料進行數(shù)字化處理,建立數(shù)據(jù)庫,從而簡化手動、整理和歸檔資料的過程,也能夠在很大程度上方便需要者查閱。數(shù)字化、網(wǎng)絡(luò)化的介入將徹底改變圖書資料傳統(tǒng)的處理方式,將不必要的、過于繁瑣的步驟和工作進行刪減和革新,不僅能夠提高了圖書資料管理者的工作效率,減輕了其工作負(fù)荷,還提高了圖書資料的利用效率。
3.強化員工管理意識,科學(xué)梳理圖書資料工作與圖書資料管理工作的配合度。為了增強圖書資料工作和圖書資料管理工作的配合度,企業(yè)應(yīng)當(dāng)對這兩項工作進行科學(xué)地梳理。首先,要對圖書資料工作和圖書資料工作各自的工作范圍和內(nèi)容加以明確,要以條文的形式對其各自的職責(zé)進行規(guī)范,特別在涉及兩者工作銜接時的各項工作項目的歸屬加以明確。其次,要確保兩者在各自的工作中恪盡職守,嚴(yán)格按照各自的制度和規(guī)范要求來開展工作,避免因自己的工作疏忽或者漏洞給對方的工作帶來不便,進而影響兩者點的協(xié)調(diào)。再者,還要在意識方面對雙方加以增強,使之不僅能夠明確自身工作的重要性,還能夠充分認(rèn)識到對方工作的重要性以及自身的工作對對方工作的影響力??傊箞D書資料工作和檔案管理工作雙發(fā)充分了解圖書資料和檔案資料之間的重要關(guān)系,明確兩者是相輔相成,相互依托的,只有這樣才能夠促進兩者間的有效配合。
4.加強資料管理的軟硬件建設(shè),提供資料信息化管理支撐。在加強資料管理的軟硬件建設(shè)方面,企業(yè)需要做到以下幾點:1)加大對基礎(chǔ)設(shè)施的精力和財力投入。為了適應(yīng)信息化的發(fā)展,企業(yè)要對現(xiàn)有的基礎(chǔ)設(shè)施加以升級或者更換,使之在辦公中滿足網(wǎng)絡(luò)搜索引擎、網(wǎng)絡(luò)信息平臺等各項信息化建設(shè)的需要。2)加大對現(xiàn)有的工作人員的培訓(xùn)力度。企業(yè)要通過公共課、視頻教學(xué)、網(wǎng)絡(luò)會議、外派學(xué)習(xí)等手段對員工進行專業(yè)、服務(wù)意識等方面的培訓(xùn),提高其綜合素質(zhì)。3)引進專業(yè)化的高素質(zhì)人才。企業(yè)應(yīng)適當(dāng)提高圖書資料工作人員的任用門檻,聘用更多經(jīng)過專業(yè)知識學(xué)習(xí)或經(jīng)過專業(yè)培訓(xùn)的人員,借助這些專業(yè)人員的力量來對現(xiàn)有的圖書資料工作進行信息化管理方向的創(chuàng)新和轉(zhuǎn)變。
三、結(jié)語
篇3
1.1惡意的對計算機進行攻擊伴隨著計算機的軟件發(fā)展,各種方面的軟件、硬件都在出現(xiàn)和更新中。作為計算機最基礎(chǔ)的數(shù)據(jù)統(tǒng)計等功能也進入了開放性越來越強的變新中。在醫(yī)院的SQL數(shù)據(jù)庫中使用的是局域網(wǎng),在這個局域網(wǎng)里面的用戶基本都可以訪問到數(shù)據(jù)庫及應(yīng)用系統(tǒng)。這樣的互享模式如果是在醫(yī)院內(nèi)部倒也沒什么,只是各種惡意的軟件橫行,會導(dǎo)致不少來自外界未知的惡意軟件對醫(yī)院的計算機進行攻擊。這些都給醫(yī)院的信息管理系統(tǒng)的安全造成了極大的威脅。一旦醫(yī)院的數(shù)據(jù)庫信息被泄露,從收費的數(shù)據(jù)到醫(yī)療的信息、從病人隱私的保密到管理信息保密都會處于一個透明的狀態(tài),這對于醫(yī)院的信息管理是一個巨大的沖擊,也會帶給病人一些重大麻煩。為了避免這類事情發(fā)生。需要醫(yī)院信息管理系統(tǒng)和數(shù)據(jù)庫處在非常安全的環(huán)境里。這也是本文研究基于SQL數(shù)據(jù)庫的醫(yī)院信息管理綜合應(yīng)用平臺設(shè)計的重心。
1.2被動的進行攻擊在不影響正常網(wǎng)絡(luò)使用的情況下,還會有更高明的竊取破譯數(shù)據(jù)庫的方法,這也是所謂的被動的進行攻擊。在這種竊取、破譯的行為下,當(dāng)事人醫(yī)院數(shù)據(jù)庫很難查悉這行為,因此會造成非常重要的機密性文件數(shù)據(jù)的泄露。醫(yī)院的數(shù)據(jù)庫是整個醫(yī)院信息系統(tǒng)的靈魂,很多黑客病毒都會以此為突破點以獲得很重要的機密數(shù)據(jù)。無論是主動的還是被動的攻擊方式,都是現(xiàn)今使用的SQL數(shù)據(jù)庫系統(tǒng)的抖動,為了保證醫(yī)院的計算機信息安全,保證醫(yī)院和病人的隱私,有必要針對這些缺陷進行改進?;赟QL數(shù)據(jù)庫系統(tǒng)的綜合信息應(yīng)用平臺設(shè)計可以更貼近實際,防止人為惡意的網(wǎng)絡(luò)安全的攻擊。這也是醫(yī)院今后采用SQL數(shù)據(jù)庫進行工作時的防范重點。
2SQL數(shù)據(jù)庫在醫(yī)院信息管理綜合應(yīng)用中的完善
2.1根據(jù)具體的需要相應(yīng)的增加或者減少相應(yīng)的模塊數(shù)量醫(yī)院和個人可以根據(jù)自己的具體需要,進行一些簡單的維護,將系統(tǒng)的模塊進行增加或減少。并且在增減模塊的同時注意維護編程的界面,這樣才能設(shè)計出很友好的系統(tǒng)模塊。有了針對性的結(jié)構(gòu)特點,這樣的數(shù)據(jù)庫應(yīng)用平臺不僅更符合醫(yī)院信息管理系統(tǒng)的設(shè)計,而且還增大了獨立性和獨特性,因此也可以整體提高系統(tǒng)的可維護性和可靠性。選用這樣模塊化的SQL數(shù)據(jù)庫應(yīng)用平臺也是設(shè)計結(jié)構(gòu)的特點。
2.2采取開發(fā)式結(jié)構(gòu)特點研究基于SQL數(shù)據(jù)庫的醫(yī)院信息管理綜合應(yīng)用設(shè)計就必須要仔細(xì)斟酌這數(shù)據(jù)庫的系統(tǒng)硬件的結(jié)構(gòu)設(shè)計。這個也是整個信息系統(tǒng)的核心內(nèi)容。當(dāng)前采取的數(shù)據(jù)統(tǒng)計模式執(zhí)行的是TCP/IP的協(xié)議。如果要進一步加強系統(tǒng)給的可靠性,保證醫(yī)院和病人信息的安全就應(yīng)當(dāng)采取開發(fā)式結(jié)構(gòu)特點的系統(tǒng)硬件結(jié)構(gòu)設(shè)計。采取這樣的硬件結(jié)構(gòu)設(shè)計可以減少冗余的配置,保證系統(tǒng)可靠性。在整體的醫(yī)院數(shù)據(jù)信息系統(tǒng)中,最重要的就是這個系統(tǒng)。在完善機遇SQL數(shù)據(jù)庫的應(yīng)用設(shè)計時自然需要通過增強系統(tǒng)給的整體可靠性,以聯(lián)合增強SQL數(shù)據(jù)庫的互聯(lián)網(wǎng)安全機密新能。SQL依然可支持遠(yuǎn)程的訪問,這也是醫(yī)院信息數(shù)據(jù)庫需要有的特點。因此,雖然可支持遠(yuǎn)程訪問的功能會導(dǎo)致醫(yī)院的信息保密功能不太安全,卻也不能刪除。但是可具體根據(jù)醫(yī)療方面的任務(wù)對應(yīng)的增加遠(yuǎn)程訪問的時間限制、地點限制和次數(shù)限制。這也是開發(fā)式硬件結(jié)構(gòu)的特點。
2.3系統(tǒng)性能優(yōu)化SQL數(shù)據(jù)庫歷經(jīng)幾年的研究和使用已經(jīng)近乎完美,因此對數(shù)據(jù)庫的性能進行優(yōu)化是個非常困難的任務(wù)。然而,只要是實際工作有需要的,都應(yīng)當(dāng)做出針對性的系統(tǒng)性能優(yōu)化。為了保證醫(yī)院信息的安全,也為了保證醫(yī)院工作的效率,系統(tǒng)性能優(yōu)化的完善勢在必行。在醫(yī)院日常的工作中,最繁重的就是數(shù)據(jù)統(tǒng)計和索引了,若性能得到優(yōu)化,就可以大大加快數(shù)據(jù)庫的反應(yīng)速度,這樣也能使醫(yī)院的工作和服務(wù)得到提升。
3結(jié)論
篇4
近年來,數(shù)據(jù)挖掘與商務(wù)智能技術(shù)發(fā)展迅速,充分借鑒國外相關(guān)研究,尤其是ACMSIGKDD課程委員會對數(shù)據(jù)挖據(jù)課程建設(shè)建議,對進行數(shù)據(jù)挖掘類課程的教學(xué)建設(shè)研究有重要意義。ACM(美國計算機協(xié)會)于1998年成立了SIGKDD(知識發(fā)現(xiàn)興趣小組),致力于知識發(fā)現(xiàn)與數(shù)據(jù)挖掘的相關(guān)研究,ACMSIGKDD課程委員會連續(xù)多年多次更新其主要課程———數(shù)據(jù)挖據(jù)課程的建議,其中委員會將數(shù)據(jù)挖掘課程分為基礎(chǔ)部分與高級主題,基礎(chǔ)部分覆蓋了數(shù)據(jù)挖掘的基本方法,高級主題既有數(shù)據(jù)挖掘基本方法的深入研究,又有更高級算法的介紹。國外很多大學(xué)的計算機科學(xué)學(xué)院、商學(xué)院都開設(shè)了數(shù)據(jù)挖掘類課程并同時進行相關(guān)研究。波士頓大學(xué)開設(shè)了“數(shù)據(jù)管理與商務(wù)智能”課程,課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。許多國外著名大學(xué)建立了教學(xué)管理系統(tǒng),提供大量的案例、在線討論和在線輔導(dǎo)功能。國內(nèi)很多學(xué)校都開設(shè)了數(shù)據(jù)挖掘的相關(guān)課程,我國大多數(shù)高校的課程大綱內(nèi)容與國外大致相同,只是在實踐部分選用了不同的商務(wù)案例。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域廣泛,因此可以根據(jù)開課學(xué)院和專業(yè)選擇合適的實例。
二、根據(jù)信息管理專業(yè)本科生培養(yǎng)要求確定課程目標(biāo)
數(shù)據(jù)挖掘課程是一門綜合性很強的前沿學(xué)科,對計算機軟硬件、數(shù)據(jù)庫、人工智能技術(shù)、統(tǒng)計學(xué)算法、優(yōu)化算法等基礎(chǔ)知識都有較高的要求。因此該門課程開設(shè)在學(xué)生大三下學(xué)期,既有相關(guān)知識的基礎(chǔ),又為大四做畢業(yè)設(shè)計提供了一種思路。信息管理專業(yè)是計算機與管理相結(jié)合的專業(yè),旨在培養(yǎng)具備信息系統(tǒng)開發(fā)能力與信息資源分析與處理能力的綜合應(yīng)用型人才。對信息管理專業(yè)的學(xué)生而言,本課程主要的目標(biāo)是數(shù)據(jù)挖掘算法原理理解、數(shù)據(jù)挖掘算法在商務(wù)管理問題中的應(yīng)用以及常用數(shù)據(jù)倉庫與數(shù)據(jù)挖掘軟件的熟練應(yīng)用和二次開發(fā)。
三、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來設(shè)計教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進行分解,使其成為多個相對獨立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。學(xué)生可以根據(jù)個人興趣和職業(yè)取向在不同模塊之間進行選擇和搭配,從而實現(xiàn)不同的教學(xué)目標(biāo)和人才培養(yǎng)要求。模塊化教學(xué)本質(zhì)上是以知識點與實踐的細(xì)化為出發(fā)點研究的。商務(wù)智能方法本身非常豐富,實踐應(yīng)用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設(shè)計課程的基礎(chǔ)內(nèi)容模塊和高級主題模塊;二是從微觀角度針對較為復(fù)雜的教學(xué)內(nèi)容進行的知識點劃分。
1.課程主要內(nèi)容模塊化分析。目前該課程包括十章理論內(nèi)容,分別為數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本知識、數(shù)據(jù)倉庫的OLAP技術(shù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)、概念描述:特征化與比較、挖掘大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則、分類與預(yù)測、聚類分析、復(fù)雜類型數(shù)據(jù)挖掘和序列模式挖掘。根據(jù)模塊化管理的宏觀角度分類,課程內(nèi)容的第一至五章屬于基礎(chǔ)理論部分和簡單數(shù)據(jù)挖掘技術(shù)的介紹,可以作為基礎(chǔ)內(nèi)容模塊;第六至八章為數(shù)據(jù)挖掘的核心算法,其中既有基礎(chǔ)理論與技術(shù)方法,又可深入到較難的方法和復(fù)雜的應(yīng)用,因此介于基礎(chǔ)內(nèi)容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數(shù)據(jù)倉庫的建設(shè)又包含數(shù)據(jù)挖掘算法的應(yīng)用,難度也介于基礎(chǔ)內(nèi)容與高級主題之間。
2.復(fù)雜知識點的模塊化管理。從微觀角度對知識點進行設(shè)計主要針對的是上述的高級主題、以及難度介于基礎(chǔ)內(nèi)容與高級主題之間的章節(jié),由于這些章節(jié)知識點在難度上有一定層次,講授內(nèi)容彈性比較大,因此需要在課程設(shè)計中明確一定課時量所要達(dá)到的難度。以商務(wù)智能技術(shù)中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎(chǔ)算法———決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預(yù)測時,還要分析預(yù)測準(zhǔn)確度;最終要將所學(xué)知識加以應(yīng)用。這樣就形成了一個結(jié)構(gòu)清晰、難度循序漸進的知識點模塊的層次關(guān)系。在宏觀角度、微觀角度對教學(xué)內(nèi)容進行分類的前提下進行相應(yīng)的授課方法與考查方法的研究,才能真正有助于學(xué)生的學(xué)習(xí)。
四、授課與考核方法設(shè)計
對不同層次學(xué)生要求不同,這種不同既體現(xiàn)在知識點的要求上,又直接體現(xiàn)在任務(wù)的難易性程度上,這都需要教師在課程設(shè)計時充分考慮不同要求情況下的不同的授課方式,并使學(xué)生清楚自己需要掌握的程度。對于高級算法和實現(xiàn)部分,通??梢赃x擇一到兩章內(nèi)容采用專題探討式的教學(xué)方法。這種方法是指在教師啟發(fā)和引導(dǎo)下,以學(xué)生為主體,選擇某個基本教學(xué)單元為專題,學(xué)生自主研究作為知識傳遞的基本形式,將多種靈活的教學(xué)方式綜合運用到教學(xué)環(huán)節(jié)的教學(xué)方法。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標(biāo)、以及對學(xué)生調(diào)研的情況,實踐環(huán)節(jié)比較適合選擇成熟的商務(wù)智能工具進行數(shù)據(jù)的整合和多維數(shù)據(jù)建模,也就是直接使用現(xiàn)成的;或者使用數(shù)據(jù)挖掘軟件進行數(shù)據(jù)建模,完善數(shù)據(jù)挖掘算法。可以針對學(xué)生管理基礎(chǔ)課與IT基礎(chǔ)課知識的掌握情況,選擇合適的工具為學(xué)生設(shè)計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數(shù)據(jù)與工具,讓學(xué)生自己設(shè)計數(shù)據(jù)倉庫、進行數(shù)據(jù)挖掘、并對挖掘結(jié)果進行多種形式的展示。
五、結(jié)論
篇5
大數(shù)據(jù)時代的到來,計算機信息處理技術(shù)也存在著很大風(fēng)險,其中最突出的問題是計算機病毒以及惡意盜版軟件等,給用戶使用計算機產(chǎn)生了極大的消極影響。這些還是一些比較基礎(chǔ)的問題,隨著計算機技術(shù)的發(fā)展,還出現(xiàn)篡改數(shù)據(jù)、冒名頂替等問題,影響計算機技術(shù)服務(wù)質(zhì)量,計算機信息處理技術(shù)受到了前所未有的考驗。另外,大數(shù)據(jù)時代的到來,還出現(xiàn)了許多新型網(wǎng)絡(luò)技術(shù),針對一些繁瑣的問題能夠有效解決,提高了人們的工作效率,然而,這也在一定程度上降低了網(wǎng)絡(luò)的真實性,特別是在網(wǎng)絡(luò)交流和溝通日益緊密的前提下,導(dǎo)致網(wǎng)絡(luò)信息真假難分,不僅增加了信息搜索難度,而且致使人們無法快速獲得真實信息。因此,提高計算機信息處理技術(shù)至關(guān)重要。
2大數(shù)據(jù)時代計算機信息處理技術(shù)
2.1信息采集、加工方面
計算機信息處理技術(shù)要進行工作,首先,要采集數(shù)據(jù)信息,計算機技術(shù)都是建立在數(shù)據(jù)采集基礎(chǔ)之上的,數(shù)據(jù)采集主要是針對目標(biāo)信息源進行實時的信息監(jiān)督和控制,并將才覺得數(shù)據(jù)儲存在計算機數(shù)據(jù)庫中,為各個軟件提供信息支持,確保下一項工作順利進行;其次,對數(shù)據(jù)信息進行加工,按照用戶的要求,對數(shù)據(jù)信息進行加工;最后,將加工好的數(shù)據(jù)信系進行分類,最終傳送到用戶手中,實現(xiàn)數(shù)據(jù)采集、加工以及傳送目標(biāo)。
2.2存儲方面
計算機存儲技術(shù)是將采集的信息儲存到計算機數(shù)據(jù)庫之中,在用戶需要某一項信息過程中,可以通過數(shù)據(jù)庫直接將數(shù)據(jù)調(diào)取出來,計算機以其儲存量大、速度快等優(yōu)勢,受到人們越來越多的關(guān)注,另外,計算機技術(shù)還能夠?qū)崿F(xiàn)長時間儲存。
2.3信息安全方面
大數(shù)據(jù)時代的到來,讓人們感受技術(shù)帶來的便捷的同時,也讓人們意識到數(shù)據(jù)信息安全對人們的重要性。因此,為了能夠提高數(shù)據(jù)信息的安全、可靠性,可以通過以下幾個方面進行:首先,建立計算機信息安全體系,加大專業(yè)技術(shù)人才的培養(yǎng)力度,投入資金,為構(gòu)建計算機安全體系奠定堅實的基礎(chǔ);其次,加大研究力度,開發(fā)信息安全技術(shù)產(chǎn)品。傳統(tǒng)信息安全技已經(jīng)無法滿足大數(shù)據(jù)時代數(shù)據(jù)安全需求,為了能夠盡快改善數(shù)據(jù)安全問題,應(yīng)加大研究力度,尋求更好的解決方案,有效避免數(shù)據(jù)信息受到威脅;最后,重視對重要數(shù)據(jù)的檢測,大數(shù)據(jù)時代的突出特點是數(shù)據(jù)量大,無法實現(xiàn)對每一個數(shù)據(jù)的檢測。因此,為了提高數(shù)據(jù)安全系數(shù),應(yīng)加強對重點數(shù)據(jù)信息的檢測,從而確保數(shù)據(jù)信息安全。
2.4信息處理技術(shù)的發(fā)展
計算機硬件具有一定局限性,在一定程度上阻礙了計算機網(wǎng)絡(luò)的發(fā)展,而云計算網(wǎng)絡(luò)能夠突破這一弊端。因此,推廣和應(yīng)用云計算機網(wǎng)絡(luò)成為未來大數(shù)據(jù)時代計算機信息處理的主要發(fā)展趨勢。傳統(tǒng)計算機網(wǎng)絡(luò)是將硬件與網(wǎng)絡(luò)有機結(jié)合,抑制了計算機信息處理技術(shù)的發(fā)展,將二者分離開,促使云計算主筋形成云計算網(wǎng)絡(luò),從而構(gòu)建大數(shù)據(jù)信息網(wǎng)絡(luò)系統(tǒng),推動我國社會不斷發(fā)展。
3結(jié)論
篇6
1.大數(shù)據(jù)的概念和特征
對于大數(shù)據(jù)時代,目前通常認(rèn)為有下述四大特征,稱為“四V”特征:第一,數(shù)據(jù)體量巨大(VolumeBig):數(shù)據(jù)量級已從TB(1TB=210GB)發(fā)展至PB(1PB=210TB)乃至ZB(1ZB=220PB),可稱海量、巨量乃至超量;第二,數(shù)據(jù)類型繁多:越來越多的為視頻、位置信息、圖像與圖片等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)信息;第三,價值密度低,商業(yè)價值高:以視頻為例,連續(xù)不間斷監(jiān)控過程中有價值的數(shù)據(jù)可能僅為一兩秒的數(shù)據(jù)流;第四,處理速度快,處理工具演進快:數(shù)據(jù)流往往為高速實時數(shù)據(jù)流,而且往往需要快速、持續(xù)的實時處理。[2,3]
2.大數(shù)據(jù)時代對人才的需求
2013年3月,IDC數(shù)字宇宙報告《大數(shù)據(jù),更大的數(shù)字身影,最大增長在遠(yuǎn)東》預(yù)計到2020年數(shù)字宇宙規(guī)模將達(dá)到40ZB。這意味著需要大量的人力和技術(shù)對如此龐大的數(shù)據(jù)進行處理、分析和管理。在此情況下,對于大數(shù)據(jù)環(huán)境下新型人才的培養(yǎng)問題在近年逐漸受到重視。未來對具有大數(shù)據(jù)管理和分析能力的人才需求將快速增長,這些人員除了具備相應(yīng)的技術(shù)能力、管理能力、社交能力、系統(tǒng)分析和開發(fā)的能力外,還需要具備深度分析數(shù)據(jù)的能力。同時,一些和大數(shù)據(jù)相關(guān)的職位也會應(yīng)運而生,例如數(shù)據(jù)分析師、數(shù)據(jù)架構(gòu)師等。2011年麥肯錫全球研究所給出的一份報告預(yù)測,美國到2018年對具有良好信息素養(yǎng)的經(jīng)理人才的需求量大約在150萬人,此外,還需要14萬~19萬數(shù)據(jù)分析方面的資深專家。[4]在我國,互聯(lián)網(wǎng)企業(yè)、電子商務(wù)、金融機構(gòu)、醫(yī)療衛(wèi)生、零售、保險等行業(yè)及政府?dāng)?shù)據(jù)中心對大數(shù)據(jù)專業(yè)人才的需求量都很大。
二、大數(shù)據(jù)時代下山東理工大學(xué)信管專業(yè)培養(yǎng)模式
大數(shù)據(jù)時代產(chǎn)生對相關(guān)人才的巨大需求,因此,山東理工大學(xué)(以后簡稱“我?!保┬殴軐I(yè)提出了新的培養(yǎng)標(biāo)準(zhǔn)和課程設(shè)置體系,培養(yǎng)具有我校特色的信息管理專業(yè)人才。
1.培養(yǎng)目標(biāo)和培養(yǎng)標(biāo)準(zhǔn)
在大數(shù)據(jù)環(huán)境下,重新定位信管專業(yè)的培養(yǎng)目標(biāo)和標(biāo)準(zhǔn),以適應(yīng)“大數(shù)據(jù)”對專業(yè)人才提出的新要求,是信管專業(yè)建設(shè)的首要議題。我校信管專業(yè)突破國內(nèi)高校信息管理專業(yè)人才培養(yǎng)的三種主要模式(一是強調(diào)IT技術(shù),弱化了現(xiàn)代管理理論與方法;二是強調(diào)管理又過于弱化了IT技術(shù);三是IT技術(shù)與管理相融合,但實際效果不理想),[5]強調(diào)學(xué)生不但要掌握現(xiàn)代信息系統(tǒng)的規(guī)劃、分析、設(shè)計、實施和運維等方面的方法與技術(shù),更要具有現(xiàn)代管理科學(xué)思想和較強的信息系統(tǒng)開發(fā)利用以及數(shù)據(jù)分析處理能力。我校信管專業(yè)還制定了全新的培養(yǎng)標(biāo)準(zhǔn)矩陣(如表1所示),從五大方面28個小方面更為詳實地闡述了信管專業(yè)學(xué)生需具備的技能和能力,并為課程的設(shè)置提供了依據(jù)。
2.課程設(shè)置體系
為了滿足大數(shù)據(jù)時代對人才提出的新要求,我校信管專業(yè)課程設(shè)置圍繞主干學(xué)科(管理學(xué)、經(jīng)濟學(xué)、計算機科學(xué)與技術(shù)、管理科學(xué)與工程)不僅設(shè)置了國內(nèi)高校信管專業(yè)常設(shè)的管理學(xué)、統(tǒng)計學(xué)、管理信息系統(tǒng)、數(shù)據(jù)庫原理與應(yīng)用、數(shù)據(jù)結(jié)構(gòu)與算法分析、計算機網(wǎng)絡(luò)基礎(chǔ)與應(yīng)用、Java程序設(shè)計、電子商務(wù)等課程外,還設(shè)置了數(shù)據(jù)倉庫與數(shù)據(jù)挖掘、商務(wù)智能與人工智能等相關(guān)課程,使學(xué)生在理解新興數(shù)據(jù)處理模式的同時,智能化數(shù)據(jù)分析處理及決策支持能力得到訓(xùn)練。與此同時,還設(shè)置了基于移動終端的APP開發(fā)、企業(yè)信息系統(tǒng)構(gòu)建與仿真、電子商務(wù)平臺架構(gòu)設(shè)計等課程,使信管專業(yè)的學(xué)生成為擁有合理知識結(jié)構(gòu)的復(fù)合型人才。大數(shù)據(jù)時代下新型的信息管理與信息系統(tǒng)專業(yè)人才的培養(yǎng)既要高度重視理論知識的學(xué)習(xí),又要加強實踐能力的培養(yǎng)。為此,我校信管專業(yè)還設(shè)置了工程實訓(xùn)、軟件實習(xí)等實踐項目,以及為期10周的IM&IS應(yīng)用實踐環(huán)節(jié),為學(xué)生搭建實踐平臺,拓寬實踐渠道。通過3年在校學(xué)習(xí)及總計約1年的實踐鍛煉(如圖1所示),我校信管畢業(yè)生不僅具有良好的管理知識基礎(chǔ)、信息技術(shù)應(yīng)用能力,現(xiàn)代信息系統(tǒng)的開發(fā)利用的能力,還具備智能數(shù)據(jù)分析處理工具的操作能力以及綜合數(shù)據(jù)分析處理能力。
3.特色
大數(shù)據(jù)時代下,我校信管專業(yè)制定了具有自身特色的培養(yǎng)模式,即:培養(yǎng)目標(biāo)和標(biāo)準(zhǔn)與行業(yè)發(fā)展結(jié)合,適應(yīng)大數(shù)據(jù)對人才能力需求的變化;培養(yǎng)具有綜合分析和管理能力,強調(diào)動手能力的新型信管人才。
三、總結(jié)
篇7
心電圖蜂窩大數(shù)據(jù)網(wǎng)絡(luò)系統(tǒng)包括心電圖中心服務(wù)器、報告診斷中心(可接收由全球各地醫(yī)療機構(gòu)傳來的心電信息)、多種檢查設(shè)備(心電圖機、運動平板、動態(tài)心電圖等)和終端瀏覽器4個部分。心電圖中心服務(wù)器由數(shù)據(jù)庫、數(shù)據(jù)儲存和數(shù)據(jù)轉(zhuǎn)換系統(tǒng)組成。它運行的系統(tǒng)主要包括:預(yù)約檢查申請模塊系統(tǒng)、排隊叫號系統(tǒng)、檢查系統(tǒng)、心電圖輔助分析系統(tǒng)、終端瀏覽系統(tǒng)、專業(yè)查詢及統(tǒng)計系統(tǒng)。其中,預(yù)約檢查申請模塊與HIS緊密結(jié)合,可準(zhǔn)確查詢到患者的預(yù)約就診信息;排隊叫號系統(tǒng)幫助患者及時了解大約需要的就診等待時間,以便安排檢查行程。在心電圖檢查結(jié)束后,心電圖機通過檢查系統(tǒng)將心電圖數(shù)據(jù)與HIS中的患者信息進行匹配,再發(fā)送到心電圖服務(wù)器;服務(wù)器運行數(shù)字接收程序(MedExXDTJReceived),將心電圖數(shù)據(jù)入庫。而報告診斷中心通過FTP文件傳送服務(wù)自動從服務(wù)器下載病歷數(shù)據(jù),在心電圖輔助分析系統(tǒng)的協(xié)助下,完成心電圖分析、報告編輯等,保存后自動將數(shù)據(jù)上傳到服務(wù)器。醫(yī)生工作站打開ECGWeb瀏覽、IE瀏覽等終端瀏覽系統(tǒng),通過服務(wù)器上的臨床心電圖MedExECGWebSetup服務(wù)程序瀏覽心電圖及報告[5-6]。
2網(wǎng)絡(luò)系統(tǒng)技術(shù)方案
心電圖蜂窩大數(shù)據(jù)網(wǎng)絡(luò)系統(tǒng)能夠?qū)⒎稚⒌男碾姅?shù)據(jù)進行集中儲存、轉(zhuǎn)化、管理、分析和統(tǒng)計,將完成史無前例的心電大數(shù)據(jù)管理,為全人類的心電學(xué)研究提供全面而豐富的病例資料。除此之外,它還可實現(xiàn)與各級醫(yī)療機構(gòu)的HIS等信息系統(tǒng)的對接,實現(xiàn)心電數(shù)據(jù)的共享。該網(wǎng)絡(luò)系統(tǒng)所涉及的相關(guān)技術(shù)包括以下幾方面。
2.1心電設(shè)備網(wǎng)絡(luò)化連接
系統(tǒng)支持將動態(tài)心電圖、運動心電圖、數(shù)字心電圖機等心電檢查設(shè)備連入網(wǎng)絡(luò),從而實現(xiàn)全部心電檢查的網(wǎng)絡(luò)化。利用數(shù)字化技術(shù),將心電檢查設(shè)備等所采集的心電信號數(shù)據(jù)轉(zhuǎn)換成心電圖,發(fā)送到心電圖中心服務(wù)器,實現(xiàn)全院醫(yī)生的臨床Web瀏覽。
2.2門診與病房技術(shù)支持配備門診預(yù)約、登記、心電檢查網(wǎng)絡(luò)系統(tǒng),與醫(yī)院HIS進行無縫連接。病房將可使用的不同型號心電設(shè)備之間進行數(shù)字連接,以打通與全球心電信息網(wǎng)絡(luò)的聯(lián)系。
2.2.1便攜式心電檢查儀該設(shè)備應(yīng)用于床旁心電圖檢查,支持心電圖的采集、存儲、回放與傳輸。臨床采集心電信號后,通過無線傳輸技術(shù),將心電圖快速傳到心電圖診斷中心,再由診斷中心出具報告。這樣一來,就實現(xiàn)了邊檢查、邊報告,簡化了以往“檢查后再集中報告”的傳統(tǒng)流程,為患者節(jié)約了診治時間[7]。
2.2.2心電診斷中心中心設(shè)有多功能心電分析系統(tǒng),心電圖醫(yī)生根據(jù)專有用戶名和密碼登錄系統(tǒng),不僅可分析已有記錄的波形和參數(shù),還可隨時調(diào)閱相關(guān)類型的心電圖進行對比分析與統(tǒng)計等操作;所發(fā)出的心電圖報告可保存、打印、審核及傳送。目前,山西醫(yī)科大學(xué)第二醫(yī)院在網(wǎng)絡(luò)心電監(jiān)測診斷方面開展了卓有成效的工作:建立有完備的遠(yuǎn)程心電監(jiān)測中心,構(gòu)建了城市、社區(qū)和農(nóng)村三級會診系統(tǒng)服務(wù)模式,并正逐步健全山西省心電監(jiān)測數(shù)據(jù)庫,為解決省內(nèi)醫(yī)療基礎(chǔ)資料分布不均的問題找到了良策。我院自2012年3月起全面開展院內(nèi)、院外、院前心電網(wǎng)絡(luò)信息化管理,覆蓋全院所有病房、門/急診和體檢中心,并發(fā)展院外站點51個,年心電圖檢查量達(dá)13萬人次,且呈逐年增長之勢。
2.2.3心電圖中心服務(wù)器設(shè)立在全球各國家和地區(qū)或各級醫(yī)院的服務(wù)器中心,接收特定范圍內(nèi)的心電數(shù)據(jù)并進行數(shù)據(jù)儲存及轉(zhuǎn)換,再傳回服務(wù)器所在醫(yī)院的心電圖數(shù)據(jù)管理庫,并提供終端計算機的FTP文件傳送服務(wù),與臨床ECGWeb瀏覽、WebService等相應(yīng)匹配。
2.3統(tǒng)計檢索
該系統(tǒng)具備多種查詢條件,可進行醫(yī)生工作量、檢查工作量、設(shè)備工作量等的管理統(tǒng)計。不僅如此,它還能方便地對心電圖數(shù)據(jù)進行查詢、歸納與統(tǒng)計分析,為科研創(chuàng)新和教學(xué)工作提供了有力保障。
3全球心電信息網(wǎng)絡(luò)系統(tǒng)設(shè)計目標(biāo)
當(dāng)今在大數(shù)據(jù)時代背景下,傳統(tǒng)的心電信息業(yè)務(wù)管理模式正悄然發(fā)生著改變。在傳統(tǒng)模式下,人工干預(yù)過多,如檢查收費、報告生成等流程皆需人力介入,易造成監(jiān)管混亂;心電圖與患者病史及臨床診斷脫節(jié),難以實現(xiàn)心電圖數(shù)據(jù)共享;記錄在熱敏紙上的心電圖容易丟失且保存不便,給心電圖分析及科研資料的積累造成很大的困難[6]。隨著全球心電信息網(wǎng)絡(luò)系統(tǒng)的建立,上述問題均能引刃而解。它能為心電圖原始資料的積累和共享搭建理想的平臺,還能實現(xiàn)傳統(tǒng)心電信息業(yè)務(wù)管理模式下無法完成的目標(biāo):(1)實現(xiàn)全球各國、各醫(yī)院區(qū)域范圍內(nèi)的患者基礎(chǔ)資料和心電檢查資料的全面共享。(2)實現(xiàn)基層醫(yī)院與中心醫(yī)院以及各國專家之間的心電檢查會診功能,從而實現(xiàn)區(qū)域內(nèi)心電圖檢查設(shè)備和高端人才資源的全面共享,乃至從整體上提高全球心電診斷質(zhì)量和衛(wèi)生服務(wù)水平。(3)搭建院前120急救心電圖檢查遠(yuǎn)程診斷平臺,中心醫(yī)院根據(jù)傳回的心電圖報告及早做好心臟病患者搶救的手術(shù)準(zhǔn)備。(4)提供對疑難病例的會診支持。(5)患者能夠在區(qū)域范圍內(nèi)任何一家醫(yī)療機構(gòu)獲得同等質(zhì)量的心電診斷服務(wù),從而方便患者就近就診且避免重復(fù)檢查。此外,還能夠方便患者上網(wǎng)查詢自己的心電檢查報告。(6)實現(xiàn)科研素材與業(yè)務(wù)學(xué)習(xí)資料的方便獲取,解決了基層醫(yī)院心電診斷醫(yī)生工作、培訓(xùn)難以兼顧的難題;能夠促進心電工作者在工作中學(xué)習(xí),從而快速提高業(yè)務(wù)素質(zhì)。(7)建立各國區(qū)域性的心電圖像資料庫和典型病例數(shù)據(jù)庫,供教學(xué)和科研使用;建立各國區(qū)域范圍內(nèi)各家醫(yī)院的心電診斷質(zhì)量追蹤數(shù)據(jù)庫,以形成從源頭上把關(guān)的心電診斷質(zhì)控體系,從而全面提升各國心電診斷水平。(8)促進各國區(qū)域內(nèi)醫(yī)療信息化建設(shè),為今后構(gòu)建基于人體健康檔案的衛(wèi)生信息服務(wù)平臺奠定基礎(chǔ)。
4結(jié)語
篇8
【關(guān)鍵詞】大數(shù)據(jù)環(huán)境;文書檔案管理;信息化;企業(yè)發(fā)展
企業(yè)在發(fā)展中各項管理活動增多,必然會生成非常多的企業(yè)文書檔案,是對企業(yè)經(jīng)營、管理各項信息記錄的保存與管理。在信息化時代下,企業(yè)發(fā)展離不開信息技術(shù),不管是企業(yè)還是機關(guān)單位,均構(gòu)建了信息化管理平臺,文書檔案管理信息化趨勢也加強。信息技術(shù)為載體的管理方法比起傳統(tǒng)文書檔案管理存儲數(shù)量增大,檔案信息瀏覽與查詢更加便捷,檔案儲存時間更長,但是依然受到以下因素限制,出現(xiàn)一些管理上的問題,仍面臨挑戰(zhàn)。
一、大數(shù)據(jù)環(huán)境與企業(yè)文書檔案信息化管理
(一)大數(shù)據(jù)概述。人類社會不斷發(fā)展中以及網(wǎng)絡(luò)行為日漸增多的背景下,作為一種信息記錄與數(shù)據(jù)保存下來的內(nèi)容就是大數(shù)據(jù),其中不僅包含了生產(chǎn)信息、數(shù)據(jù),還包括其他涉及企業(yè)發(fā)展的隱私。在網(wǎng)絡(luò)逐漸普及下,大數(shù)據(jù)應(yīng)用日漸普遍,儲存容量不斷增大,期間會產(chǎn)生非常多的難以加工與應(yīng)用的數(shù)據(jù),為應(yīng)用與管理帶來難度。在數(shù)據(jù)容量不斷增大的背景下,很多用戶可以通過查詢、文件檢索、下載、加工、復(fù)制等方法應(yīng)用這些數(shù)據(jù),使數(shù)據(jù)復(fù)雜與繁瑣程度進一步增大,為管理帶來了阻礙。
在信息技術(shù)不斷發(fā)展的背景下,各種信息數(shù)據(jù)獲取也更加有難度,激烈的市場競爭中誰最先獲得了這些信息,誰就獲得了發(fā)展機會,增加了搶占市場的籌碼,對于數(shù)據(jù)資產(chǎn)的保護任何企業(yè)都沒有懈怠過。大數(shù)據(jù)獲取不僅體現(xiàn)在數(shù)據(jù)源獲得上,更體現(xiàn)在借助這些數(shù)據(jù)源,對真正有價值的數(shù)據(jù)進一步發(fā)掘,增加數(shù)據(jù)潛在價值。當(dāng)前,網(wǎng)絡(luò)應(yīng)用體量大幅度增加,大數(shù)據(jù)成為人們生活不可缺少的信息。
(二)企業(yè)文書檔案與信息化管理概述。企業(yè)文書系統(tǒng)地記錄了企業(yè)成立到發(fā)展期間各項經(jīng)營與管理活動,比如,財務(wù)管理、人事管理、外事管理等,都是企業(yè)有顯著價值的資源,通常,文書信息由企業(yè)專門部門負(fù)責(zé),包括對文書的收集、整理、排列以及轉(zhuǎn)送、開發(fā)、處理等。在大數(shù)據(jù)環(huán)境下,企業(yè)文書檔案信息化管理在信息技術(shù)下會大大提高管理效率,發(fā)揮其內(nèi)在的服務(wù)價值。
二、大數(shù)據(jù)環(huán)境下企業(yè)文書檔案信息化管理的主要內(nèi)容
(一)企業(yè)文書檔案的數(shù)字化管理。企業(yè)文書檔案以紙質(zhì)為主,其中記錄著各項文字信息,錄入信息的過程較為漫長,考驗著工作人員的耐心,需要付出一定勞動,如果信息量龐大,容易出現(xiàn)錄入錯誤等,查詢信息時也較為困難。但是大數(shù)據(jù)下企業(yè)文書檔案可以實現(xiàn)信息化管理,應(yīng)用計算機的自動篩選技術(shù)可以有效節(jié)省人力、物力,提高工作效率。大數(shù)據(jù)環(huán)境下企業(yè)文書檔案管理一個顯著特點就是可以對紙質(zhì)檔案進行數(shù)字處理,且不改變檔案中的信息內(nèi)容,更加利于保存、查詢等,這就是電子檔案價值的體現(xiàn),也是大數(shù)據(jù)環(huán)境下企業(yè)文書檔案信息化管理的重要內(nèi)容之一。
(二)企業(yè)文書檔案網(wǎng)絡(luò)化管理。經(jīng)過從紙質(zhì)到數(shù)字化的轉(zhuǎn)換后,還需要對數(shù)字化檔案進行管理,依據(jù)互聯(lián)網(wǎng)可以進行不分時間、不分地點的修改與添加,使電子檔案更加細(xì)化、具體,用戶查詢更加方便,體現(xiàn)了檔案網(wǎng)絡(luò)化管理的便捷性。企業(yè)文書檔案利用功能很多,包括網(wǎng)絡(luò)檢索、借閱、歸檔、復(fù)制、分類等。
三、大數(shù)據(jù)環(huán)境中企業(yè)文書檔案信息化利用
企業(yè)文書不僅為企業(yè)發(fā)展提供了支持,體現(xiàn)了生產(chǎn)與經(jīng)營的價值,比如,人事管理、財務(wù)管理、科研成果等,為企業(yè)發(fā)展積累了寶貴經(jīng)驗,也是企業(yè)發(fā)展成果的體現(xiàn)。由此,企業(yè)文書檔案參考價值也很顯著,實施檔案化管理,可為用戶提供更多、更全面的檔案資源服務(wù)。企業(yè)發(fā)展中還能對文書檔案進行重建,依據(jù)不同需求提供不同功能的服務(wù),也是大數(shù)據(jù)環(huán)境下企業(yè)文書檔案信息化服務(wù)的一種體現(xiàn)。與此同時,借助不同地域下的網(wǎng)絡(luò)可供用戶隨時下載、查詢,使用戶對企業(yè)文化、產(chǎn)品等的了解更加全面、細(xì)致,還能對某個文書檔案進行跟蹤服務(wù),體現(xiàn)開放式服務(wù)的優(yōu)勢。
四、結(jié)語
總之,大數(shù)據(jù)環(huán)境下,企業(yè)文書檔案在信息技術(shù)基礎(chǔ)上可以為用戶提供更為全面、周到的服務(wù)。在企業(yè)生產(chǎn)日益增多的前提下,人力、物力成本會逐漸提高,由此,信息化檔案的應(yīng)用可節(jié)省成本與資源,為用戶在查詢、應(yīng)用、下載檔案信息中提供了便利。
【參考文獻(xiàn)】
[1]庫俊平.大數(shù)據(jù)環(huán)境中企業(yè)文書檔案的信息化管理及利用[J].創(chuàng)新科技,2013(9):50-51.
[2]江鴻.探析大數(shù)據(jù)環(huán)境中企業(yè)文書檔案的信息化管理[J].中國科技投資,2016(4):144.
篇9
論文關(guān)鍵詞:滇池流域,昆明主城,排水系統(tǒng)診斷
排水系統(tǒng)是城市基礎(chǔ)設(shè)施重要組成部分,可分為合流制和分流制兩種類型,其中合流制排水系統(tǒng)按雨、污、廢水產(chǎn)生的次序及處理程度的不同可分為直排式合流制、截流處理式合流制和全處理式合流制[1]。排水體制的選擇應(yīng)根據(jù)城鎮(zhèn)和工業(yè)企業(yè)規(guī)劃、當(dāng)?shù)亟涤昵闆r和排放標(biāo)準(zhǔn)、原有排水設(shè)施、污水處理和利用情況、地形和水體等條件,綜合考慮確定,同一城鎮(zhèn)的不同地區(qū)可采用不同的排水制度,新建地區(qū)的排水系統(tǒng)宜采用分流制[2]。
昆明主城地處滇池流域北岸濱湖上游區(qū)域,污染負(fù)荷比重大,占流域污染負(fù)荷總量約80%[3],目前昆明北岸主城二環(huán)路內(nèi)區(qū)域為合流制排水系統(tǒng),二環(huán)路外為分流制排水系統(tǒng),雨季雨、污合流污水溢流污染問題嚴(yán)重。為保護下游滇池水環(huán)境,昆明市政府將雨污分流管網(wǎng)改造和完善工程列為近期治滇重大工程,本研究針對昆明主城區(qū)排水系統(tǒng)存在的問題,在昆明市地下管線探測工作的基礎(chǔ)上,利用ARCGIS高效的空間分析手段,構(gòu)建排水片區(qū)-子排水片區(qū)-排水單元結(jié)構(gòu)網(wǎng)絡(luò),建立污染源與排水系統(tǒng)拓?fù)潢P(guān)系,對研究范圍內(nèi)排水系統(tǒng)進行全過程診斷,分析旱季污水收集率和雨季合流污水溢流率水利工程論文,為排水系統(tǒng)完善工程的全面開展提供數(shù)據(jù)支持。
1 研究方法
1.1 空間數(shù)據(jù)信息處理
系統(tǒng)空間數(shù)據(jù)信息建立的基礎(chǔ)是原有的以AutoCAD繪制的排水管網(wǎng)圖。由基礎(chǔ)空間要素和管網(wǎng)要素組成,基礎(chǔ)空間要素包括地表構(gòu)筑物、下墊面、道路、河流等;管網(wǎng)要素包括管線和管網(wǎng)中的附屬設(shè)施(雨水篦子、排水口、檢查井、排水泵站等)。需要處理的工作包括以下兩方面:
1.1.1排水系統(tǒng)結(jié)構(gòu)分層
排水單元:可以為一棟樓、一個庭院、一個小區(qū)或一個街區(qū),劃分的依據(jù)為庭院排水管網(wǎng)和市政排水支管系統(tǒng)的相對獨立性,其意義在于界定出了排水系統(tǒng)管理和污染控制的最小且有效的可操作對象。
子排水片區(qū):在排水單元劃分的基礎(chǔ)上,以市政排水干管和輸水泵站為主線索,根據(jù)排水系統(tǒng)主次脈絡(luò),串聯(lián)排水單元,形成基于排水干管和泵站的子排水片區(qū)。
排水片區(qū):即污水處理廠納污范圍,由基于排水干管和輸送泵站的子排水片區(qū)組成。
1.1.2拓?fù)潢P(guān)系構(gòu)建
城市排水空間數(shù)據(jù)龐大、復(fù)雜、多層次,各要素間具有特定關(guān)聯(lián)性,且由此關(guān)聯(lián)性構(gòu)成了排水系統(tǒng)結(jié)構(gòu)。拓?fù)涫欠从晨臻g要素和要素類之間關(guān)系的數(shù)據(jù)模型或格式。利用拓?fù)湟?guī)則可以指定要素類中的要素之間有何種空間關(guān)系,或者多個不同要素類中的要素之間的空間關(guān)系。系統(tǒng)中涉及到的排水單元、排水管線、檢查井以及其他排水構(gòu)筑物之間的特定關(guān)系利用GIS提供的拓?fù)湟?guī)則建立,并利用拓?fù)涮幚砉δ苓M行有效的管理。
1.2屬性數(shù)據(jù)信息處理
針對主要管網(wǎng)要素,錄入屬性信息論文的格式。
表1管網(wǎng)要素屬性信息
Tab.1 Attribute information of sewageelement
要素
數(shù)據(jù)信息
節(jié)點
X、Y坐標(biāo)、井底標(biāo)高、地面標(biāo)高、點源污水排放量(m3/s)、點源污染負(fù)荷排放量(t/s);
管線
管徑、管材、長度、坡度、埋深、起點標(biāo)高、終點標(biāo)高、起始節(jié)點、終點節(jié)點;
篇10
關(guān)鍵詞:區(qū)域發(fā)展;面板數(shù)據(jù)質(zhì)量;信息熵;FCM;可行性論證
中圖分類號:F224.9
文獻(xiàn)標(biāo)識碼:A文章編號:
16721101(2015)02003605
Abstract: Based on information entropy from the perspective of data quantity under index system of regional development, this paper establishes the way of evaluation by the standard of information entropy, explores how to improve the information of data using fuzzy c-means algorithm, and validates the the proposed method from theoretical proof and empirical analysis.The paper makes improving experiments via panel data under comprehensive index system of regions of northern Anhui and along the Huaihe river.Its result suggests diversity in data by information entropy standard and marked improvement of information, which lays good basis of better data quality for consequent data mining.
Key words:regional development; quality of panel data; information entropy; fuzzy c-means algorithm; feasibility demonstration
在現(xiàn)代信息技術(shù)迅猛發(fā)展的背景下,越來越多的領(lǐng)域都采用數(shù)據(jù)驅(qū)動的方式進行研究。應(yīng)運而生的數(shù)據(jù)技術(shù)從傳統(tǒng)的統(tǒng)計分析到數(shù)據(jù)挖掘,再到現(xiàn)今的云計算和大數(shù)據(jù)都很好的給生產(chǎn)生活帶來更多的價值。但是隨之而來的數(shù)據(jù)量度和尺度都變得紛繁復(fù)雜,再加上各行業(yè)所取觀測指標(biāo)的不同使得數(shù)據(jù)在單位、量綱和指標(biāo)含義等客觀情況下呈現(xiàn)很大差異性和不確定性,特別是經(jīng)濟數(shù)據(jù)指標(biāo)的數(shù)值差距過大,因此給數(shù)據(jù)技術(shù)方法本身的可行性以及所得結(jié)果的可靠性帶來很大挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)預(yù)處理中多采用清理、變換和規(guī)約等方法來提高數(shù)據(jù)質(zhì)量[1,2],在大多數(shù)文獻(xiàn)中多采用Min-Max標(biāo)準(zhǔn)化[3,4]、Z-score標(biāo)準(zhǔn)化[4]、Decimal scaling小數(shù)定標(biāo)標(biāo)準(zhǔn)化[5]以及Log和Atan函數(shù)轉(zhuǎn)化[6]來處理數(shù)據(jù),并不著重討論數(shù)據(jù)達(dá)到的質(zhì)量程度。但是由于標(biāo)準(zhǔn)化方法的一些理論局限性,容易在處理中降低數(shù)據(jù)的信息量。所以在研究中如何能夠判斷標(biāo)準(zhǔn)化后數(shù)據(jù)信息量的改變程度,這對采用的技術(shù)方法本身和后續(xù)結(jié)果分析將起到重要的作用。本文將嘗試探討數(shù)據(jù)信息量衡量熵標(biāo)準(zhǔn),并從理論層面和結(jié)合皖北沿淮區(qū)域經(jīng)濟發(fā)展數(shù)據(jù)做相應(yīng)的實證分析。
一、構(gòu)建熵標(biāo)準(zhǔn)下FCM分類改進模型
(一)信息熵與FCM準(zhǔn)備
1.數(shù)據(jù)質(zhì)量的信息熵標(biāo)準(zhǔn)
熱力學(xué)第二定律表明孤立系統(tǒng)中任何變化都不可能減少熵值,1948年Shannon定義通信信號中平均信息量為熵[7],從此熵作為衡量信息量的一種方式被廣泛應(yīng)用。信息熵是數(shù)據(jù)含載信息程度的一種度量方式,當(dāng)信息熵越大時表明數(shù)據(jù)越無序,需要理清數(shù)據(jù)所需信息就越多,也說明數(shù)據(jù)的信息量越大。離散隨機變量的信息熵定義為自信息的平均值
H(X)=Ep(x)[I(x)]=-∑xp(x)logp(x)
其中I(x)為事件的自信息,Ep(x)表示對隨機變量的概率取平均運算。其具有熵的非負(fù)性、對稱性、擴展性和可加性等相關(guān)性質(zhì)。
2.模糊C均值聚類FCM
模糊C均值聚類[8,9](FCM)是由Bezdek在1981年提出的一種模糊分類方法,F(xiàn)CM需要根據(jù)類中距和類間距構(gòu)造分類準(zhǔn)則,利用預(yù)先給定的分類數(shù)C對所給樣本點進行分類。即求解規(guī)劃問題:
minJm(U,Z,c)=∑ci=1∑Nk=1μhikd2ik,
s.t.∑ci=1μik=1,l≤k≤N;0≤μik≤1;
通過求解上面規(guī)劃問題,利用得到的隸屬矩陣Uik=∑cj=1(dikdjk)-2m-1和聚類中心
Ci=∑nk=1umikXk∑nk=1umik,進行迭代運算得到分類結(jié)果。
(二) 熵標(biāo)準(zhǔn)下FCM分類改進模型
由于熵值代表了數(shù)據(jù)的信息量,而通過衡量信息量可以產(chǎn)生評價策略,陳衍泰等在綜合評價方法分類的研究中總結(jié)了信息熵方法應(yīng)用在評價領(lǐng)域的情況[10],張樹森等將熵與聚類算法結(jié)合提出改進的模糊聚類算法EFC[11],韓宇平等將最大熵原理用于評價區(qū)域水資源短缺問題[12],劉紅琴等將信息熵應(yīng)用到能源消費的分配衡量中[13],本文考慮將信息熵引入到數(shù)據(jù)質(zhì)量的評價中。
再由于區(qū)域發(fā)展數(shù)據(jù)在數(shù)值上差距過大,如果僅僅統(tǒng)一進行z-score標(biāo)準(zhǔn)化處理則可能帶來信息損失,本文考慮利用FCM方法將數(shù)據(jù)進行分類標(biāo)準(zhǔn)化,這樣也同時帶來數(shù)據(jù)扁平化特征,而由離散最大熵定理[7]可知,數(shù)據(jù)出現(xiàn)概率越相同,那么數(shù)據(jù)的信息熵越大。
設(shè)n維數(shù)據(jù)集{xi}ni=1進行z-score標(biāo)準(zhǔn)化后{xi-μσ}ni=1在D段中出現(xiàn)的概率為{Pj(x)}Dj=1,利用FCM對數(shù)據(jù)分C類后原始數(shù)據(jù)重新組合變?yōu)閧xij}i=1,…C,j=1…ni,在每個數(shù)據(jù)集中表轉(zhuǎn)化得到數(shù)據(jù)集{xij-μiσ}i=1,…C,j=1…ni在D段中出現(xiàn)的概率為{Qj(x)}Dj=1,當(dāng)分段數(shù)D足夠體現(xiàn)數(shù)據(jù)概率分布時Q(x)比P(x)更加趨近相同概率。利用P(x)對Q(x)的散度D(P//Q)非負(fù)特征,有如下推導(dǎo):
D(P//Q)=∑xP(x)logP(x)Q(x)=
∑xP(x)logP(x)-
∑xP(x)logQ(x)≥0
Hp(x)=-
∑xP(x)logP(x)≤
-∑xP(x)logQ(x)≤-
∑xQ(x)logQ(x)=HQ(x)
因此在分類標(biāo)準(zhǔn)化后的數(shù)據(jù)信息量比直接標(biāo)準(zhǔn)化的信息量要大。從分類的角度來看,分類后數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)值會產(chǎn)生比整體標(biāo)準(zhǔn)化更多的多樣性,從而帶來的信息量的增加,而數(shù)據(jù)信息量的增加也給后續(xù)的研究方法提供更好的數(shù)據(jù)質(zhì)量。
二、基于區(qū)域發(fā)展面板數(shù)據(jù)的實證分析
(一)指標(biāo)體系構(gòu)建與數(shù)據(jù)來源說明
1.區(qū)域發(fā)展指標(biāo)體系構(gòu)建
結(jié)合前期工作制定指標(biāo)體系[14]21,指標(biāo)的選取原則兼顧經(jīng)濟、生活、環(huán)境、社會、特征產(chǎn)業(yè)和可持續(xù)發(fā)展的指標(biāo)體系,構(gòu)建一級指標(biāo),細(xì)化二級指標(biāo)共選取5個一級指標(biāo)和69個二級指標(biāo)如圖1所示,并由此構(gòu)建整體指標(biāo)模型和各級別體系。
具體指標(biāo)表現(xiàn)為:(1)在經(jīng)濟發(fā)展與產(chǎn)業(yè)結(jié)構(gòu)方面:GDP;城鎮(zhèn)固定資產(chǎn)投資額;出口總額;進口總額;農(nóng)業(yè)總產(chǎn)值;工業(yè)總產(chǎn)值;建筑業(yè)鄉(xiāng)村從業(yè)人員數(shù);交通運輸、倉儲及郵政業(yè)鄉(xiāng)村從業(yè)人員數(shù);鄉(xiāng)村私營企業(yè)從業(yè)人員數(shù);農(nóng)、林、牧、漁業(yè)鄉(xiāng)村從業(yè)人員數(shù);鄉(xiāng)村個體從業(yè)人員數(shù);工業(yè)從業(yè)人員年平均人數(shù);城鎮(zhèn)房地產(chǎn)開發(fā)投資額;(2)民生能力與生活質(zhì)量:職工工資總額;總戶數(shù);農(nóng)民人均純收入;城鄉(xiāng)居民儲蓄存款余額;社會消費品零售總額;城鎮(zhèn)居民最低生活保障人數(shù);新型農(nóng)村合作醫(yī)療參合率;建成區(qū)綠化覆蓋率;城市出租汽車數(shù);公共汽(電)車客運總量(市轄區(qū));人口自然增長率;城市公共汽(電)車客運總量;城市每萬人擁有公共交通車輛數(shù);城市人口密度;人口密度;基本養(yǎng)老保險基金支出;基本醫(yī)療保險參保人數(shù);人均公園綠地面積;(3)政府管理與社會服務(wù):財政收入;財政支出;財政用于教育的支出;財政支出中衛(wèi)生經(jīng)費;等級公路里程;公路貨物周轉(zhuǎn)量;公路旅客周轉(zhuǎn)量;公路客運量;鐵路客運量;城市道路長度;城市供水總量;城市清掃保潔面積;城市天然氣供氣量;地質(zhì)災(zāi)害防治投資;城市公園數(shù);街道辦事處數(shù)量;(4)資源實力與可持續(xù)發(fā)展:降水量;人均水資源量;土地面積;林業(yè)用地面積;水田耕地面積;城市污水排放量;生活垃圾無害化處理率;城市排水管道長度;城市污水處理率;工業(yè)廢氣排放量;工業(yè)廢水排放量;“三廢”綜合利用產(chǎn)品產(chǎn)值;(5)教育產(chǎn)業(yè)與創(chuàng)新科技:財政用于教育的支出;普通高等學(xué)校數(shù);普通高等學(xué)校在校學(xué)生數(shù);普通高中在校學(xué)生數(shù);普通小學(xué)在校生數(shù);發(fā)明專利申請受理量;發(fā)明專利授權(quán)量;科技活動人員數(shù);
圖1綜合區(qū)域發(fā)展指標(biāo)結(jié)構(gòu)圖
基于以上初步指標(biāo)體系充分涵蓋從經(jīng)濟發(fā)展到人民生活,從政府能力到社會服務(wù),從可持續(xù)發(fā)展到特色產(chǎn)業(yè)的方方面面,兼顧發(fā)展的效率、速度、質(zhì)量、潛力和能力。但是在數(shù)據(jù)收集中往往遇到很多實際情況需要做修正,對于少部分的數(shù)據(jù)遺漏采用數(shù)據(jù)擬合回歸和缺省值補充等傳統(tǒng)數(shù)據(jù)預(yù)處理方法進行修整[1],對于大部分的數(shù)據(jù)遺漏則采用指標(biāo)替換的方式進行變通。
2.面板數(shù)據(jù)來源說明
本文依托皖北沿淮地區(qū)6市39縣區(qū)的區(qū)域發(fā)展研究,因為在皖北沿淮地區(qū)中蚌埠市和淮南市具有相同的地緣特征和相似生活特征,所以對兩個地區(qū)指標(biāo)的衡量具有很好的實際意義,故而采用2005年到2012年蚌埠市和淮南市數(shù)據(jù),數(shù)據(jù)來源于中國知網(wǎng)提供的《中國統(tǒng)計年鑒》、《中國城市統(tǒng)計年鑒》和各地區(qū)發(fā)展統(tǒng)計年鑒等。同時本文數(shù)據(jù)屬于面板數(shù)據(jù),可以克服時間序列分析受多重共線性的困擾,能夠提供更多信息、變化、自由度和估計效率。
(二)具體實證分析
本文的具體實證分析分為以下三個方面:(1)對于原始數(shù)據(jù)的處理過程:按照論文前面介紹的科學(xué)指標(biāo)模型和數(shù)據(jù)采集來源,將兩個城市69個屬性從2005年到2012年共8年的數(shù)據(jù)進行矩陣化,得到一個138行8列的原始數(shù)據(jù)矩陣,對于原始數(shù)據(jù)矩陣中的缺省值采用外插和內(nèi)插法進行相應(yīng)的差值擬合得到完整的使用數(shù)據(jù)。(2)對于使用數(shù)據(jù)的分析過程:第一步根據(jù)本文前期工作[14]22通過對數(shù)據(jù)進行譜系聚類、HCM和FCM三種聚類方法,采用Matlab2012b進行編程,比較從分2類到分10類的由R方統(tǒng)計量和偽F統(tǒng)計量得到的半偏相關(guān)統(tǒng)計量SPRSQ數(shù)值,發(fā)現(xiàn)當(dāng)分三類時譜系聚類方法和HCM的SPRSQ數(shù)值達(dá)到最高值分別為0.400 1和0.023 9,而FCM的SPRSQ數(shù)值在分四類時達(dá)到最高值0.027 0,因此在進行分類構(gòu)建信息熵時,將分三類和分四類的情況均予以考慮。第二步根據(jù)論文前面討論的信息熵構(gòu)建過程進行分類信息熵構(gòu)建,首先將利用FCM對數(shù)據(jù)分三類和分四類得到的數(shù)據(jù)集
{xij}i=1,…C,j=1…ni(其中C=3或者4),在每個數(shù)據(jù)集進行z-score標(biāo)準(zhǔn)化:{xij-μiσi}i=1,…C,j=1…ni;然后討論這些數(shù)據(jù)在分D段中出現(xiàn)的概率{Qj(x)}Dj=1,其中分段數(shù)D的大小要足夠體現(xiàn)數(shù)據(jù)概率分布特征 [7,11]取D分別為10和20兩種情況,計算相關(guān)信息熵數(shù)值H(X)=
EQ(x)[I(x)]=-∑xQ(x)logQ(x)
;最后通過和沒有進行分段改進的原始數(shù)據(jù)集的未標(biāo)準(zhǔn)化和統(tǒng)一標(biāo)準(zhǔn)化兩種情況進行比較得到相關(guān)結(jié)論。(3)對于數(shù)值比較的分析結(jié)果:通過比較未標(biāo)準(zhǔn)化、普通的列統(tǒng)一標(biāo)準(zhǔn)化和采用FCM分三類和四類的類標(biāo)準(zhǔn)化的三種方法在取分段數(shù)為10和20下的信息熵大小,得到了相關(guān)的數(shù)值結(jié)果表1。
對表1中的相關(guān)數(shù)值做圖進行直觀的表達(dá),可以得到在分10段情況下的圖2和分20段情況下的圖3,其中橫坐標(biāo)為從2005年到2012年每一年的數(shù)據(jù)情況,從圖中可以發(fā)現(xiàn)不論哪一年的數(shù)據(jù)數(shù)值在分類標(biāo)準(zhǔn)化后的熵值都高于圖中最下面的線,即統(tǒng)一標(biāo)準(zhǔn)化的數(shù)據(jù)熵值。
從以上圖表的結(jié)果來看,采用FCM算法對于數(shù)據(jù)分類標(biāo)準(zhǔn)化后得到的信息熵提升效果是明顯的,具體可以概括為以下的一些結(jié)論:
1.未標(biāo)準(zhǔn)化和統(tǒng)一標(biāo)準(zhǔn)化的結(jié)果數(shù)值完全一樣,這是因為z-score標(biāo)準(zhǔn)化過程并不改變數(shù)據(jù)分布特征,因此他們擁有相同的概率分布,則信息熵也完全一致,故而數(shù)據(jù)所含信息不變,因此在作圖階段就不體現(xiàn)未標(biāo)準(zhǔn)化的結(jié)果圖形。
2.分段標(biāo)準(zhǔn)化后所有的數(shù)據(jù)結(jié)果均大于統(tǒng)一標(biāo)準(zhǔn)化的數(shù)據(jù)值,即信息熵在分段標(biāo)準(zhǔn)化后都有顯著提高,這和理論推導(dǎo)的結(jié)果一致。故而分段標(biāo)準(zhǔn)化的方法可以有效消除量綱差異,同時還能有效的提高數(shù)據(jù)信息熵,從而使得數(shù)據(jù)含有更好的信息量。
3.就分段標(biāo)準(zhǔn)化而言從所有列信息熵的總和數(shù)值可以發(fā)現(xiàn),在兩種最佳聚類數(shù)時信息熵的總和情況分別可以表示為:分10段3類時的9.07高于4類時的7.8,分20段3類時的12.19高于4類時的11;同時數(shù)據(jù)信息熵隨著分段的增大數(shù)值也在增大,這是信息熵本身性質(zhì)所決定的,因為分段越多概率分布越接近均勻分布,由離散最大熵定理以及本文理論推導(dǎo)可知數(shù)據(jù)信息熵在增加。但是如果分段過多,甚至達(dá)到數(shù)據(jù)總量的一定比例,此時再高的信息熵數(shù)值也并不能夠說明很好的信息量,所以在分段數(shù)的選取需要與數(shù)據(jù)總量相互匹配。
三、結(jié)論
根據(jù)以上論證發(fā)現(xiàn),從理論角度和實證分析都驗證了分類標(biāo)準(zhǔn)化可以有效的提高數(shù)據(jù)信息量。所以在相應(yīng)數(shù)據(jù)分析方法使用之前,對于數(shù)據(jù)標(biāo)準(zhǔn)化處理階段可以嘗試采用分類標(biāo)準(zhǔn)化的方式,這樣既可以消除數(shù)據(jù)量綱差異,也可以有效的提高數(shù)據(jù)含載信息,為進一步使用數(shù)據(jù)挖掘方法得到更好的數(shù)據(jù)結(jié)論提供較好的前期準(zhǔn)備。
同時由于在數(shù)據(jù)集統(tǒng)一標(biāo)準(zhǔn)化中均值唯一,相當(dāng)于只有一個中心節(jié)點。但是在分類標(biāo)準(zhǔn)化后,在不同類中都有相應(yīng)的均值作為中心節(jié)點,所以分類標(biāo)準(zhǔn)化比傳統(tǒng)的統(tǒng)一標(biāo)準(zhǔn)化更符合現(xiàn)代互聯(lián)網(wǎng)思維,那就是去中心化和多節(jié)點多分類,以及扁平化結(jié)構(gòu)體系的相關(guān)思想。參考文獻(xiàn):
[1]Jiawei Han.Data Mining Concepts and Techniques, Second Edition[M].BeiJing: China Machine Press,2008:30-65.
[2]韓京宇.數(shù)據(jù)質(zhì)量研究綜述[J].計算機科學(xué),2008(2):1-5.
[3]程惠芳,唐輝亮.開放條件下區(qū)域經(jīng)濟轉(zhuǎn)型升級綜合能力評價研究――中國31個省市轉(zhuǎn)型升級評價指標(biāo)體系分析[J].管理世界,2011(8):173-174.
[4]張鋼.長江三角洲16個城市政府能力的比較研究[J].管理世界,2004(8):18-27.
[5]安悅.基于微博客的手機供應(yīng)商排名推薦[J].數(shù)學(xué)的認(rèn)識與實踐,2013(10):23-29.
[6]汪冬華.我國滬深300股指期貨和現(xiàn)貨市場的交叉相關(guān)性及其風(fēng)險[J].系統(tǒng)工程理論與實踐,2014(3):631-639.
[7]田寶玉.信息論基礎(chǔ)[M].北京:人民郵電出版社,2008:18-26.
[8]史小松,黃勇杰,劉永革.數(shù)據(jù)挖掘技術(shù)中聚類的幾種常用方法比較[J].中國科技信息,2009(20):99-105.
[9]諸克軍,蘇順華,黎金玲.模糊C均值中的最優(yōu)聚類與最佳聚類數(shù)[J].系統(tǒng)工程理論與實踐,2005(3):52-61.
[10]陳衍泰.綜合評價方法分類及研究進展[J].管理科學(xué)學(xué)報,2004(2):69-77.
[11]張樹森.改進的基于熵的中心聚類算法[J].計算機與現(xiàn)代化,2014(3):53-56.
[12]韓宇平.基于最大熵原理的區(qū)域水資源短缺風(fēng)險綜合評估[J].安徽農(nóng)業(yè)科學(xué),2011(1):397-399.
[13]劉紅琴.基于信息熵的省域內(nèi)能源消費總量分配研究[J].長江流域資源與環(huán)境,2014(4):482-489.
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)管理論文 數(shù)據(jù)庫論文 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)誤差 數(shù)據(jù)采集 數(shù)據(jù)通信論文 數(shù)據(jù) 心理培訓(xùn) 人文科學(xué)概論
相關(guān)文章
1政務(wù)數(shù)據(jù)協(xié)同治理的分析
3建筑業(yè)統(tǒng)計數(shù)據(jù)質(zhì)量探討