數(shù)據(jù)挖掘檔案管理應(yīng)用研究
時(shí)間:2022-06-04 03:03:12
導(dǎo)語(yǔ):數(shù)據(jù)挖掘檔案管理應(yīng)用研究一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
一、數(shù)據(jù)挖掘技術(shù)
當(dāng)今社會(huì)科技迅速發(fā)展,以往收集數(shù)據(jù)的模式已經(jīng)無(wú)法適應(yīng)當(dāng)代社會(huì)發(fā)展需要。而數(shù)據(jù)挖掘技術(shù)的誕生,提高了數(shù)據(jù)收集的速度和質(zhì)量,且在某種程度上還促進(jìn)了社會(huì)的發(fā)展。
(一)數(shù)據(jù)挖掘技術(shù)的概念
數(shù)據(jù)挖掘技術(shù)是從許多的、不完全的、相對(duì)模糊的、存在噪聲的、任意的實(shí)際數(shù)據(jù)當(dāng)中,找出其中隱藏的、人們?cè)炔涣私獾?、但又是?shí)際存在的、有用的信息和知識(shí)的過(guò)程[1]。數(shù)據(jù)挖掘所得信息具有先前未知、有效和實(shí)用三個(gè)特征。決策者對(duì)挖掘所得信息進(jìn)行分析,從中提取出隱藏的關(guān)系和模式,來(lái)對(duì)未來(lái)發(fā)生的行為進(jìn)行預(yù)測(cè)。
(二)數(shù)據(jù)挖掘技術(shù)的運(yùn)用
在使用數(shù)據(jù)挖掘技術(shù)的過(guò)程中,數(shù)學(xué)方法經(jīng)常被用到,但在一些特殊的時(shí)候,也會(huì)用到非數(shù)學(xué)的方法。另外,使用數(shù)據(jù)挖掘技術(shù)過(guò)程中,除了上面提到的方法外,還可以用演繹的方法和歸納的方法收集數(shù)據(jù)。在使用數(shù)據(jù)挖掘技術(shù)過(guò)程中,利用對(duì)相關(guān)數(shù)據(jù)進(jìn)行挖掘、收集和分析得出相應(yīng)的結(jié)果,并且這個(gè)結(jié)果在某些情況下,恰好能被用在管理信息、優(yōu)化查詢、過(guò)程控制、決策支持及數(shù)據(jù)維護(hù)等方面[2]。然而,由于數(shù)據(jù)挖掘技術(shù)特性,其在使用的過(guò)程中,涉及學(xué)科比較廣,并且還涉及數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)、人工智能、并行計(jì)算、機(jī)器學(xué)習(xí)、可視化等許多領(lǐng)域。數(shù)據(jù)挖掘技術(shù)中,常用到的有規(guī)則歸納、決策數(shù)、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法,以及可視化等技術(shù)。
二、數(shù)據(jù)挖掘技術(shù)的形式
數(shù)據(jù)挖掘分為描述型與預(yù)測(cè)型兩種形式。描述型是對(duì)數(shù)據(jù)中存在的規(guī)則進(jìn)行描述,并且依據(jù)數(shù)據(jù)具有微觀性的特點(diǎn)找出其表征的、普遍性強(qiáng)的、概念層次較高的、比較宏觀的知識(shí),并對(duì)數(shù)據(jù)進(jìn)行概括總結(jié)和抽象來(lái)描述出同一類(lèi)事物的相同屬性。預(yù)測(cè)型是分析和處理現(xiàn)有的數(shù)據(jù),來(lái)獲得某類(lèi)事物中某些屬性的內(nèi)容,或者是預(yù)測(cè)出某類(lèi)事物將來(lái)形成的規(guī)律等。在使用這兩種挖掘技術(shù)時(shí),經(jīng)常用到的方法有分類(lèi)方法、關(guān)聯(lián)方法和粗糙集方法。
(一)分類(lèi)
在運(yùn)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的過(guò)程中,分類(lèi)是挖掘技術(shù)里的重點(diǎn)部分。數(shù)據(jù)收集的好壞,以及收集的數(shù)據(jù)的屬性分析都是由分類(lèi)決定的。因此,分類(lèi)在運(yùn)用挖掘技術(shù)的過(guò)程中具有非常重要的作用。分類(lèi)是對(duì)數(shù)據(jù)庫(kù)屬性進(jìn)行分析,把元組劃分成不同種類(lèi)的過(guò)程。并且在其劃分過(guò)程中,根據(jù)數(shù)據(jù)形成的訓(xùn)練集,來(lái)集中對(duì)部分?jǐn)?shù)據(jù)進(jìn)行處理劃分。然后,再對(duì)余下的部分?jǐn)?shù)據(jù)做測(cè)試,在測(cè)試滿足要求以后,遵守對(duì)應(yīng)的規(guī)則對(duì)其分類(lèi)。在實(shí)際分類(lèi)過(guò)程中,比較有代表性的分類(lèi)過(guò)程是:明確分類(lèi)的范圍、找出目標(biāo)屬性、組成訓(xùn)練集、研究屬性、算法選取、分類(lèi)計(jì)算、結(jié)果顯示、選出測(cè)試集、分類(lèi)規(guī)則驗(yàn)證、輸出分類(lèi)規(guī)則等[2]。
(二)相關(guān)規(guī)則
相關(guān)規(guī)則是數(shù)據(jù)挖掘技術(shù)中,比較簡(jiǎn)單實(shí)用的關(guān)聯(lián)分析規(guī)則。它可以準(zhǔn)確地將相關(guān)數(shù)據(jù)進(jìn)行描述,并且能夠?qū)?shù)據(jù)進(jìn)行嚴(yán)格分析。在相關(guān)規(guī)則使用過(guò)程中,主要是對(duì)具體事物進(jìn)行描寫(xiě),并按照相同屬性進(jìn)行結(jié)合,然后對(duì)其進(jìn)行總結(jié)概括,找出其共同屬性和模式。一般會(huì)將關(guān)聯(lián)規(guī)則直接應(yīng)用到數(shù)據(jù)庫(kù)中,統(tǒng)一地記錄下每個(gè)事物得出的數(shù)據(jù),不但可以正確地記錄數(shù)據(jù),同時(shí)消減了數(shù)據(jù)的搜索空間,使得整個(gè)運(yùn)行系統(tǒng)得到改善和提高。
(三)粗糙集
數(shù)據(jù)挖掘技術(shù)中的粗糙集是被用作對(duì)不精確和不確定性知識(shí)進(jìn)行研究的一種數(shù)學(xué)工具,在系統(tǒng)整個(gè)使用中占的優(yōu)勢(shì)比較大[3]。首先,在使用粗糙集方法時(shí),相應(yīng)的信息不需要了解,并且在運(yùn)算的時(shí)候,算法比較簡(jiǎn)單且容易控制,得到大量的計(jì)算機(jī)用戶的喜愛(ài)。其次,在運(yùn)行粗糙集的過(guò)程中,能從數(shù)據(jù)中發(fā)現(xiàn)異常,排除知識(shí)發(fā)現(xiàn)過(guò)程中的噪聲干擾,同時(shí)還能將這類(lèi)數(shù)據(jù)的規(guī)律在最短時(shí)間內(nèi)找出,并利用表格對(duì)其進(jìn)行歸納總結(jié),將其變成決策表,為使用者的查詢提供方便。最后,在客觀世界,應(yīng)用有些規(guī)則的過(guò)程中也會(huì)出現(xiàn)不確定性。應(yīng)用數(shù)據(jù)庫(kù)的時(shí)候會(huì)產(chǎn)生許多不確定性的信息,而這些不確定性都得依賴(lài)粗糙集對(duì)其進(jìn)行處理,這樣就使得數(shù)據(jù)挖掘的效率得到大大提高。
三、挖掘技術(shù)在檔案管理中應(yīng)用的意義
記錄歷史資料的重要工具就是檔案,它直接反映了檔案管理人員的智慧和成果[3]。由于計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)展,在管理檔案信息的實(shí)際應(yīng)用中,引入挖掘技術(shù)可以使檔案的管理水平得到提高,并且改革了檔案信息管理的模式。因此,數(shù)據(jù)挖掘技術(shù)應(yīng)用在檔案信息管理中是具有非常重要意義的。
(一)提高檔案信息管理的安全性
檔案信息是記載一些比較寶貴的資料,由此可知其價(jià)值的表現(xiàn)就是檔案信息的實(shí)體。對(duì)檔案管理者來(lái)講,保存有歷史意義的檔案信息的時(shí)間應(yīng)越長(zhǎng)越好。保存得越長(zhǎng)遠(yuǎn),越體現(xiàn)了檔案信息的價(jià)值。其使用價(jià)值相對(duì)應(yīng)地增大了,被使用的頻率也相應(yīng)地增加,使保管工作非常困難,使用次數(shù)越頻繁,就越容易縮短檔案信息的壽命。同時(shí),保密性是檔案信息管理的另一項(xiàng)重要工作,萬(wàn)一檔案信息外漏,不僅相關(guān)人員的隱私權(quán)受到侵犯,還有可能對(duì)其以后生活造成消極負(fù)面的影響,造成了檔案保管與使用之間存在矛盾[4]。將數(shù)據(jù)挖掘技術(shù)運(yùn)用到檔案管理中,可以很好地避免這種情況的發(fā)生,從而保護(hù)檔案信息實(shí)體和內(nèi)容的安全。
(二)加快檔案管理的效率,降低檔案管理的成本
檔案管理工作中引用數(shù)據(jù)挖掘技術(shù),能夠有效改變以往傳統(tǒng)的檔案管理模式。使得檔案管理人員的工作效率和檔案信息管理水平得到提高。引入數(shù)據(jù)挖掘技術(shù),工作人員的管理時(shí)間被大量節(jié)省,處理檔案信息的速度得到提高。同時(shí),還可以加快檔案鑒定工作的發(fā)展。檔案管理工作中的一個(gè)重要環(huán)節(jié)就是檔案的鑒定,傳統(tǒng)的檔案鑒定工作是由檔案管理人員憑借多年經(jīng)驗(yàn)來(lái)實(shí)現(xiàn)的,具有主觀性。數(shù)據(jù)挖掘技術(shù)的運(yùn)用,可以防止在鑒定檔案工作中因檔案管理人員的主觀性而造成有價(jià)值的檔案丟棄,為檔案管理工作提供了比較有效的定量化方法,使檔案的鑒定工作有據(jù)可依。
四、數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運(yùn)用
隨著計(jì)算機(jī)信息化的迅猛發(fā)展,檔案管理工作也需要進(jìn)一步的完善。過(guò)去的檔案管理方式已經(jīng)不能適應(yīng)當(dāng)代社會(huì)的需要,很多數(shù)據(jù)信息無(wú)法有效地使用。要想有效地利用現(xiàn)有的檔案數(shù)據(jù),使其價(jià)值得到充分發(fā)揮,使用數(shù)據(jù)挖掘技術(shù)把那些隱含的信息挖掘出來(lái),對(duì)其總結(jié)和使用是非常有必要的。檔案信息管理中使用數(shù)據(jù)挖掘技術(shù),能讓挖掘出的知識(shí)信息得到發(fā)揮,并且能使檔案數(shù)據(jù)信息價(jià)值被充分地利用。檔案管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)的方法有以下幾種:
(一)檔案分類(lèi)法
檔案分類(lèi)法是按照不同的種類(lèi)把許多檔案進(jìn)行整理的方法。把檔案中屬性相似的放在同一個(gè)類(lèi)別中,把那些檔案屬性不同的放在不同的類(lèi)別當(dāng)中。在檔案進(jìn)行分類(lèi)的過(guò)程中,數(shù)據(jù)挖掘技術(shù)能夠詳細(xì)地劃分這些檔案的類(lèi)別,幫助管理員進(jìn)行檔案歸類(lèi),檔案的檢索效率和速度得到有效提高。
(二)檔案收集法
檔案收集法是先分析數(shù)據(jù)庫(kù)中的數(shù)據(jù),并通過(guò)對(duì)這些數(shù)據(jù)做詳細(xì)的描述建立模型。然后用這些模型和所有的測(cè)試樣本進(jìn)行對(duì)比,一旦經(jīng)測(cè)試后有一個(gè)模型與樣本相符合,就可以依據(jù)這個(gè)模型對(duì)管理對(duì)象進(jìn)行分類(lèi)。
(三)檔案保留法
檔案保留法其實(shí)就留住老的人員,使其檔案不流失的過(guò)程。對(duì)某個(gè)單位來(lái)講,使用新人員的成本比留住一個(gè)老人員的成本要高很多。因此,在研究保留老人員時(shí)的一項(xiàng)很重要的工作是找出人員檔案流失的原因。并且通過(guò)數(shù)據(jù)挖掘技術(shù),來(lái)對(duì)人員檔案流失的現(xiàn)象進(jìn)行詳細(xì)分析,并采取相應(yīng)的辦法,留住老的人員,避免其檔案的流失。檔案管理中,不同使用者所需檔案使用程度和需求也不一樣[4]。但把數(shù)據(jù)挖掘技術(shù)運(yùn)用到檔案管理中之后,利用數(shù)據(jù)挖掘技術(shù)對(duì)檔案進(jìn)行分類(lèi),提高檔案檢索效率,利用對(duì)檔案目錄和信息的挖掘找出檔案收集工作的重點(diǎn),利用對(duì)檔案數(shù)據(jù)的挖掘,找出檔案管理人員和檔案使用人員與檔案實(shí)體之間的關(guān)系,利用對(duì)檔案使用情況的挖掘找出檔案內(nèi)容與檔案使用人員之間的關(guān)系,針對(duì)不同人員提供不同的個(gè)性化服務(wù),為使用人員快速查詢出所需檔案信息提供了方便,同時(shí)也使得檔案管理工作變得更加順利。隨著數(shù)據(jù)挖掘技術(shù)在學(xué)術(shù)界和工業(yè)界的影響越來(lái)越大,數(shù)據(jù)挖掘的研究向著更深入和實(shí)用技術(shù)方向發(fā)展。由此可知,未來(lái)數(shù)據(jù)挖掘技術(shù)和檔案管理的結(jié)合也會(huì)更加緊密。數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案管理中,改變了傳統(tǒng)的檔案管理模式,且為未來(lái)的檔案信息管理提供了良好的平臺(tái)和技術(shù)支持,是開(kāi)發(fā)信息化檔案管理系統(tǒng)必不可少的技術(shù)。(本文來(lái)自于《黑河學(xué)院學(xué)報(bào)》雜志。《黑河學(xué)院學(xué)報(bào)》雜志簡(jiǎn)介詳見(jiàn).)
作者:索向峰工作單位:黑河學(xué)院計(jì)算機(jī)科學(xué)與信息工程系
熱門(mén)標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)管理論文 數(shù)據(jù)庫(kù)論文 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)誤差 數(shù)據(jù)采集 數(shù)據(jù)通信論文 數(shù)據(jù) 心理培訓(xùn) 人文科學(xué)概論