您的位置:群走網(wǎng)>實用資料>數(shù)據(jù)挖掘論文
數(shù)據(jù)挖掘論文
更新時間:2022-03-10 09:27:55
  • 相關推薦
數(shù)據(jù)挖掘論文(精選10篇)

  數(shù)據(jù)挖掘論文(一):

  題目:檔案信息管理系統(tǒng)中的計算機數(shù)據(jù)挖掘技術探討

  摘要:伴隨著計算機技術的不斷進步和發(fā)展,數(shù)據(jù)挖掘技術成為數(shù)據(jù)處理工作中的重點技術,能借助相關算法搜索相關信息,在節(jié)省人力資本的同時,提高數(shù)據(jù)檢索的實際效率,基于此,被廣泛應用在數(shù)據(jù)密集型行業(yè)中。筆者簡要分析了計算機數(shù)據(jù)挖掘技術,并集中闡釋了檔案信息管理系統(tǒng)計算機數(shù)據(jù)倉庫的建立和技術實現(xiàn)過程,以供參考。

  關鍵詞:檔案信息管理系統(tǒng);計算機;數(shù)據(jù)挖掘技術;

  1數(shù)據(jù)挖掘技術概述

  數(shù)據(jù)挖掘技術就是指在超多隨機數(shù)據(jù)中提取隱含信息,并且將其整合后應用在知識處理體系的技術過程。若是從技術層面判定數(shù)據(jù)挖掘技術,則需要將其劃分在商業(yè)數(shù)據(jù)處理技術中,整合商業(yè)數(shù)據(jù)提取和轉化機制,并且建構更加系統(tǒng)化的分析模型和處理機制,從根本上優(yōu)化商業(yè)決策。借助數(shù)據(jù)挖掘技術能建構完整的數(shù)據(jù)倉庫,滿足集成性、時變性以及非易失性等需求,整和數(shù)據(jù)處理和冗余參數(shù),確保技術框架結構的完整性。

  目前,數(shù)據(jù)挖掘技術常用的工具,如SAS企業(yè)的EnterpriseMiner、IBM企業(yè)的IntellientMiner以及SPSS企業(yè)的Clementine等應用都十分廣泛。企業(yè)在實際工作過程中,往往會利用數(shù)據(jù)源和數(shù)據(jù)預處理工具進行數(shù)據(jù)定型和更新管理,并且應用聚類分析模塊、決策樹分析模塊以及關聯(lián)分析算法等,借助數(shù)據(jù)挖掘技術對相關數(shù)據(jù)進行處理。

  2檔案信息管理系統(tǒng)計算機數(shù)據(jù)倉庫的建立

  2.1客戶需求單元

  為了充分發(fā)揮檔案信息管理系統(tǒng)的優(yōu)勢,要結合客戶的實際需求建立完整的處理框架體系。在數(shù)據(jù)庫體系建立中,要適應迭代式處理特征,并且從用戶需求出發(fā)整合數(shù)據(jù)模型,保證其建立過程能按照整體規(guī)劃有序進行,且能按照目標和分析框架參數(shù)完成操作。首先,要確立基礎性的數(shù)據(jù)倉庫對象,由于是檔案信息管理,因此,要集中劃分檔案數(shù)據(jù)分析的主題,并且有效錄入檔案信息,確保滿足檔案的數(shù)據(jù)分析需求。其次,要對日常工作中的用戶數(shù)據(jù)進行集中的挖掘處理,從根本上提高數(shù)據(jù)倉庫分析的完整性。

  (1)確定數(shù)據(jù)倉庫的基礎性用戶,其中,主要包括檔案工作人員和使用人員,結合不同人員的工作需求建立相應的數(shù)據(jù)倉庫。

  (2)檔案工作要利用數(shù)據(jù)分析和檔案用戶特征分析進行分類描述。

  (3)確定檔案的基礎性分類主題,一般而言,要將文書檔案歸檔狀況、卷數(shù)等基礎性信息作為分類依據(jù)。

  2.2數(shù)據(jù)庫設計單元

  在設計過程中,要針對不同維度建立相應的參數(shù)體系和組成結構,并且有效整合組成事實表的主鍵項目,建立框架結構。

  第一,建立事實表。事實表是數(shù)據(jù)模型的核心單元,主要是記錄相關業(yè)務和統(tǒng)計數(shù)據(jù)的表,能整合數(shù)據(jù)倉庫中的信息單元,并且提升多維空間處理效果,確保數(shù)據(jù)儲存過程切實有效。(1)檔案管理中文書檔案目錄卷數(shù)事實表:事實表主鍵,字段類型Int,字段為Id;文書歸檔年份,字段類型Int,字段為Gdyear_key;文書歸檔類型,字段類型Int,字段為Ajtm_key;文書歸檔單位,字段類型Int,字段為Gddw_key;文書檔案生成年份,字段類型Int,字段為Ajscsj_key,以及文書檔案包括的文件數(shù)目。(2)檔案管理中文書檔案卷數(shù)事實表:事實表主鍵,字段類型Int,字段為Id;文書歸檔利用日期,字段類型Int,字段為Date_key;文書歸檔利用單位,字段類型Int,字段為Dw_key;文書歸檔利用類別,字段類型Int,字段為Dalb_key;文書歸檔利用年份,字段類型Int,字段為Dayear_key等[1]。

  第二,建立維度表,在實際數(shù)據(jù)倉庫建立和運維工作中,提高數(shù)據(jù)管理效果和水平,確保建立循環(huán)和反饋的系統(tǒng)框架體系,并且處理增長過程和完善過程,有效實現(xiàn)數(shù)據(jù)庫模型設計以及相關維護操作。首先,要對模式的基礎性維度進行分析并且制作相應的表,主要包括檔案年度維表、利用方式維表等。其次,要建構數(shù)據(jù)庫星型模型體系。最后,要集中判定數(shù)據(jù)庫工具,保證數(shù)據(jù)庫平臺在客戶管理工作方面具備必須的優(yōu)勢,集中制訂商務智能解決方案,保證集成環(huán)境的穩(wěn)定性和數(shù)據(jù)倉庫建模的效果,真正提高數(shù)據(jù)抽取以及轉換工作的實際水平。需要注意的是,在全面整合和分析處理數(shù)據(jù)的過程中,要分離文書檔案中的數(shù)據(jù),相關操作如下:

  deletefromdaggdtemp//刪除臨時表中的數(shù)據(jù)

  Chcount=dag1.importfile(dbo.uwswj)//將文書目錄中數(shù)據(jù)導出到數(shù)據(jù)窗口

  Dag1.update()//將數(shù)據(jù)窗口中的數(shù)據(jù)保存到臨時表

  相關技術人員要對數(shù)據(jù)進行有效處理,以保證相關數(shù)據(jù)合并操作、連接操作以及條件性拆分操作等都能按照數(shù)據(jù)預處理管理要求合理化進行,從根本上維護數(shù)據(jù)處理效果。

  2.3多維數(shù)據(jù)模型建立單元

  在檔案多維數(shù)據(jù)模型建立的過程中,相關技術人員要判定聯(lián)機分析處理項目和數(shù)據(jù)挖掘方案,整合信息系統(tǒng)中的數(shù)據(jù)源、數(shù)據(jù)視圖、維度參數(shù)以及屬性參數(shù)等,保證具體單元能發(fā)揮其實際作用,并且真正發(fā)揮檔案維表的穩(wěn)定性、安全性優(yōu)勢。

  第一,檔案事實表中的數(shù)據(jù)穩(wěn)定,事實表是加載和處理檔案數(shù)據(jù)的基本模塊,按照檔案目錄數(shù)據(jù)表和檔案利用狀況表分析和判定其類別和歸檔時間,從而提高數(shù)據(jù)獨立分析水平。一方面,能追加有效的數(shù)據(jù),保證數(shù)據(jù)倉庫信息的基本質(zhì)量,也能追加時間判定標準,能在實際操作中減少掃描整個表浪費的時間,從根本上提高實際效率。另一方面,能刪除數(shù)據(jù),實現(xiàn)數(shù)據(jù)更新,檢索相關關鍵詞即可。并且也能同時修改數(shù)據(jù),維護檔案撤出和檔案追加的動態(tài)化處理效果。

  第二,檔案維表的安全性。在維表管理工作中,檔案參數(shù)和數(shù)據(jù)的安全穩(wěn)定性十分關鍵,由于其不會隨著時間的推移出現(xiàn)變化,因此,要對其進行合理的處理和協(xié)調(diào)。維表本身的存儲空間較小,盡管結構發(fā)生變化的概率不大,但仍會對代表的對象產(chǎn)生影響,這就會使得數(shù)據(jù)出現(xiàn)動態(tài)的變化。對于這種改變,需要借助新維生成的方式進行處理,從而保證不同維表能有效連接,整合正確數(shù)據(jù)的同時,也能對事實表外鍵進行分析[2]。

  3檔案信息管理系統(tǒng)計算機數(shù)據(jù)倉庫的實現(xiàn)

  3.1描述需求

  隨著互聯(lián)網(wǎng)技術和數(shù)據(jù)庫技術不斷進步,要提高檔案數(shù)字化水平以及完善信息化整合機制,加快數(shù)據(jù)庫管控體系的更新,確保設備存儲以及網(wǎng)絡環(huán)境一體化水平能滿足需求,尤其是在檔案資源重組和預測項目中,只有從根本上落實數(shù)據(jù)挖掘體系,才能為后續(xù)信息檔案管理項目升級奠定堅實基礎。另外,在數(shù)據(jù)表和文書等基礎性數(shù)據(jù)結構模型建立的基礎上,要按照規(guī)律制定具有個性化的主動性服務機制。

  3.2關聯(lián)計算

  在實際檔案分析工作開展過程中,關聯(lián)算法描述十分關鍵,能對某些行為特征進行統(tǒng)籌整合,從而制定分析決策。在進行關聯(lián)規(guī)則強度分析時,要結合支持度和置信度等系統(tǒng)化數(shù)據(jù)進行綜合衡量。例如,檔案數(shù)據(jù)庫中有A和B兩個基礎項集合,支持度為P(A∪B),則直接表述了A和B在同一時間出現(xiàn)的基礎性概率。若是兩者出現(xiàn)的概率并不大,則證明兩者之間的關聯(lián)度較低。若是兩者出現(xiàn)的概率較大,則說明兩者的關聯(lián)度較高。另外,在分析置信度時,利用Confidence(A→B)=(A|B),也能有效判定兩者之間的關系。在出現(xiàn)置信度A的狀況下,B的出現(xiàn)概率則是整體參數(shù)關系的關鍵,若是置信度的數(shù)值到達100%,則直接證明A和B能同一時間出現(xiàn)。

  3.3神經(jīng)網(wǎng)絡算法

  除了要對檔案的實際資料進行數(shù)據(jù)分析和數(shù)據(jù)庫建構,也要對其利用狀況進行判定,目前較為常見的利用率分析算法就是神經(jīng)網(wǎng)絡算法,其借助數(shù)據(jù)分類系統(tǒng)判定和分析數(shù)據(jù)對象。值得注意的是,在分類技術結構中,要結合訓練數(shù)據(jù)集判定分類模型數(shù)據(jù)挖掘結構。神經(jīng)網(wǎng)絡算法類似于人腦系統(tǒng)的運行結構,能建立完整的信息處理單元,并且能夠整合非線性交換結構,確保能憑借歷史數(shù)據(jù)對計算模型和分類體系展開深度分析[3]。

  3.4實現(xiàn)多元化應用

  在檔案管理工作中應用計算機數(shù)據(jù)挖掘技術,能對檔案分類管理予以分析,保證信息需求分類總結工作的完整程度。尤其是檔案使用者在對檔案具體特征進行差異化分析的過程中,能結合不同的元素對具體問題展開深度調(diào)研。一方面,計算機數(shù)據(jù)挖掘技術借助決策樹算法處理規(guī)則化的檔案分析機制。在差異化訓練體系中,要對數(shù)據(jù)集合中的數(shù)據(jù)進行系統(tǒng)化分析以及處理,確保構建要求能適應數(shù)據(jù)挖掘的基本結構[4]。例如,檔案管理人員借助數(shù)據(jù)挖掘技術能整合檔案使用人員長期瀏覽與關注的信息,并且能集中收集和匯總間隔時間、信息查詢停留時間等,從而建構完整的數(shù)據(jù)分析機制,有效向其推送或者是帶給便捷化查詢服務,保證檔案管理數(shù)字化水平的提高。另一方面,在檔案收集管理工作中應用數(shù)據(jù)挖掘技術,主要是對數(shù)據(jù)信息進行分析,結合基本結果建立概念模型,保證模型以及測試樣本之間的比較參數(shù)貼合標準,從而真正建立更加系統(tǒng)化的分類框架體系。

  4結語

  總而言之,在檔案管理工作中應用數(shù)據(jù)挖掘技術,能在準確判定用戶需求的同時,維護數(shù)據(jù)處理效果,并且減少檔案數(shù)字化的成本,為后續(xù)工作的進一步優(yōu)化奠定堅實基礎。并且,數(shù)據(jù)庫的建立,也能節(jié)省經(jīng)費和設備維護成本,真正實現(xiàn)數(shù)字化全面發(fā)展的目標,促進檔案信息管理工作的長效進步。

  參考文獻

  [1]曾雪峰.計算機數(shù)據(jù)挖掘技術開發(fā)及其在檔案信息管理中的運用研究[J].科技創(chuàng)新與應用,2016(9):285.

  [2]王曉燕.數(shù)據(jù)挖掘技術在檔案信息管理中的應用[J].蘭臺世界,2014(23):25-26.

  [3]韓吉義.基于數(shù)據(jù)挖掘技術的高校圖書館檔案信息管理平臺的構筑[J].山西檔案,2015(6):61-63.

  [4]哈立原.基于數(shù)據(jù)挖掘技術的高校圖書館檔案信息管理平臺構建[J].山西檔案,2016(5):105-107.

  數(shù)據(jù)挖掘論文(二):

  數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)的運用

  關鍵詞:數(shù)據(jù)挖掘;電力調(diào)度自動化系統(tǒng);周期性關聯(lián)規(guī)則挖掘算法

  摘要:電力調(diào)度自動化系統(tǒng)對電力數(shù)據(jù)的收集和整理工作質(zhì)量有著較高要求,而為了滿足這一要求近年來數(shù)據(jù)挖掘技術日漸受到電力行業(yè)重視,基于此,文章就數(shù)據(jù)挖掘技術進行了簡單介紹,并對數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)中的應用進行了深入論述,期望論述資料能夠為相關業(yè)內(nèi)人士帶來必須啟發(fā)。

  前言

  電力數(shù)據(jù)收集、整理質(zhì)量直接影響電力調(diào)度自動化系統(tǒng)的控制和管理水平,但由于很多價值較高的數(shù)據(jù)信息往往位于隱藏的數(shù)據(jù)之中,這就使得傳統(tǒng)方法不能較好滿足電力調(diào)度自動化系統(tǒng)需要,而為了解決這一問題,正是本文就數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)中應用展開具體研究的原因所在。

  1數(shù)據(jù)挖掘技術

  在大數(shù)據(jù)時代到來的這天,數(shù)據(jù)挖掘技術能夠從海量數(shù)據(jù)信息中準確找到所求信息,因此本文將數(shù)據(jù)挖掘技術視作“采用有效工具和措施從海量數(shù)據(jù)庫中提取數(shù)據(jù)和模型關系”的技術,由此企業(yè)的決策能夠得到充足的決定依據(jù)。為了更直觀了解數(shù)據(jù)挖掘技術,本文將數(shù)據(jù)挖掘的過程和步驟概括為以下幾個方面:(1)確定業(yè)務對象。確定業(yè)務對象屬于數(shù)據(jù)挖掘過程的基礎工作,這一過程的實質(zhì)是了解業(yè)務問題。(2)準備數(shù)據(jù)。透過選取數(shù)據(jù)、數(shù)據(jù)預處理、轉換數(shù)據(jù)三個層面的工作,即可完成針對于挖掘算法的分析模型構建,并最終完成必須領域的數(shù)據(jù)挖掘。

  2數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)中的應用

  2.1應用方式

  神經(jīng)網(wǎng)絡、灰色分析法、關聯(lián)規(guī)則均能夠用于電力調(diào)度自動化系統(tǒng)的數(shù)據(jù)挖掘,具體應用如下所示。

  (1)神經(jīng)網(wǎng)絡。作為應用較為廣泛的一種人工智能研究方法,神經(jīng)網(wǎng)絡早已在我國實現(xiàn)了較為廣泛的應用,電力調(diào)度自動化系統(tǒng)的數(shù)據(jù)挖掘也是其應用的重要領域,由于數(shù)據(jù)自行處理、數(shù)據(jù)分布存儲、高度容錯性是神經(jīng)網(wǎng)絡的應用優(yōu)勢所在,這就使得神經(jīng)網(wǎng)絡較為適用于模糊、不完整、不準確數(shù)據(jù)的處理。在電力調(diào)度自動化系統(tǒng)的數(shù)據(jù)挖掘中,神經(jīng)網(wǎng)絡主要透過關聯(lián)分析的方式實現(xiàn)數(shù)據(jù)邏輯處理,具體處理能夠分為以下幾個方面:a.整合統(tǒng)一基礎數(shù)據(jù)。由于電力調(diào)度自動化系統(tǒng)包含的數(shù)據(jù)具備龐大復雜、種類繁多的特點,因此神經(jīng)網(wǎng)絡的應用需要透過整合統(tǒng)一使相關數(shù)據(jù)構成結構模型,透過神經(jīng)網(wǎng)絡系統(tǒng)實現(xiàn)數(shù)據(jù)統(tǒng)一管理。b.實現(xiàn)不同環(huán)節(jié)電力調(diào)度的關聯(lián)。應用數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡方法整理不同環(huán)節(jié)的電流狀態(tài)和參數(shù),并保證相關數(shù)據(jù)信息的整合性,即可實現(xiàn)不同環(huán)節(jié)電力調(diào)度的關聯(lián)。c.分析與決策。結合神經(jīng)網(wǎng)絡整理的整合數(shù)據(jù),即可開展分析、決策以及數(shù)據(jù)共享。

  (2)灰色分析法。灰色分析法能夠較好分析電力調(diào)度過程出現(xiàn)的不完整數(shù)據(jù),但不適用于較為龐大的數(shù)據(jù)是該數(shù)據(jù)挖掘方法存在的不足。一般狀況下,灰色分析法的應用需要深入了解設備數(shù)據(jù)參數(shù),如用戶用電狀況預測、母線負荷數(shù)據(jù)值、電力銷售狀況預測等,結合分析確定電力調(diào)度邊界電量,即可提升數(shù)據(jù)收集的可靠性,電力調(diào)度自動化系統(tǒng)的運行也將由此獲得較為有力的支持。

  (3)關聯(lián)規(guī)則。作為數(shù)據(jù)挖掘的重要分支,關聯(lián)規(guī)則能夠透過發(fā)覺超多數(shù)據(jù)項集之間的搞笑關聯(lián)和相互聯(lián)系實現(xiàn)信息的高質(zhì)量分析,剛剛提到的神經(jīng)網(wǎng)絡嚴格好處上也屬于關聯(lián)規(guī)則范疇,但是本文關于關聯(lián)規(guī)則的研究主要圍繞周期性關聯(lián)規(guī)則挖掘算法展開。周期性關聯(lián)規(guī)則挖掘算法具備掃描數(shù)據(jù)庫次數(shù)較少、避免掃描數(shù)據(jù)庫的時間開銷、連接程序中相同項目的比較次數(shù)較少、數(shù)據(jù)項集頻度統(tǒng)計速度較高等優(yōu)勢,由此實現(xiàn)的周期性數(shù)據(jù)集挖掘、關聯(lián)規(guī)則挖掘便能夠大大降低電力調(diào)度自動化系統(tǒng)的事故發(fā)生概率。值得注意的是,本文研究的周期性關聯(lián)規(guī)則挖掘算法結合了蟻群算法,這是由于原算法使用了超多的搜索操作、分類檢索和路徑檢索,蟻群算法下走過的路上會留下信息素,這就使得較短路徑上的信息素濃度較高,結合負信息素理論,即可保證有信息素的地方螞蟻不能走過。如使用表1所示的事務數(shù)據(jù)庫D(部分),即可結合時態(tài)事務數(shù)據(jù)庫D分類數(shù)據(jù)集改善、每一個分類數(shù)據(jù)集周期性數(shù)據(jù)集挖掘改善,以數(shù)據(jù)項A分類為例,即可求得表2所示的時態(tài)屬性差,由此開展更深入計算則能夠更深入了解周期性關聯(lián)規(guī)則挖掘算法的思想,也能夠認識到蟻群算法的重要性。

  2.2應用實踐

  為提升研究實踐價值,本文圍繞周期性關聯(lián)規(guī)則挖掘算法建立了基于周期性關聯(lián)規(guī)則挖掘的數(shù)據(jù)分析系統(tǒng),這一系統(tǒng)的建立過程如下所示。

  (1)開發(fā)平臺選取。結合系統(tǒng)功能需要,選取了微軟的平臺作為主要系統(tǒng)開發(fā)平臺,該平臺具備的強大數(shù)據(jù)庫訪問潛力、擴展豐富等特點,能夠較好滿足系統(tǒng)開發(fā)需要。

  (2)基于數(shù)據(jù)橋的數(shù)據(jù)集成模塊設計。思考到我國當下電力事業(yè)的數(shù)據(jù)集成標準較為復雜、混亂,系統(tǒng)設計采用了自己的數(shù)據(jù)集成方法,同時應用了清晰數(shù)據(jù)清洗策略,由此即可實現(xiàn)不完整數(shù)據(jù)、重復數(shù)據(jù)、錯誤數(shù)據(jù)三類臟數(shù)據(jù)的清洗,數(shù)字數(shù)據(jù)不完整、日期數(shù)據(jù)不完整、錯誤日期型數(shù)據(jù)、重復數(shù)據(jù)等僅屬于清洗資料,其中除重復數(shù)據(jù)不予處理外,其他數(shù)據(jù)均采用修補空值和默認值的方式,如數(shù)字數(shù)據(jù)不完整采用“補0,補null,默認值”的清洗策略。此外,無類型文件數(shù)據(jù)集成、數(shù)據(jù)庫數(shù)據(jù)集成、異構數(shù)據(jù)庫數(shù)據(jù)集成也是這一環(huán)節(jié)設計的重要資料[3]。

  (3)數(shù)據(jù)庫管理模塊設計。采用微軟公司的SQLServer數(shù)據(jù)庫系統(tǒng),由此數(shù)據(jù)庫管理被分為層次數(shù)建模、數(shù)據(jù)表管理、數(shù)據(jù)表導出三部分,其中數(shù)據(jù)表管理包含數(shù)據(jù)管理、結構管理、刪除三方面功能,而數(shù)據(jù)表導出則包括文本文件、Excel文件、Access文件、Xml文件、其他數(shù)據(jù)庫五部分資料。

  (4)數(shù)據(jù)分析功能模塊設計。數(shù)據(jù)分析功能模塊由同期數(shù)據(jù)分析、周期性數(shù)據(jù)分析、數(shù)據(jù)預警分析、數(shù)據(jù)關聯(lián)分析四部分組成,各部分設計如下所示:a.同期數(shù)據(jù)分析模塊設計。該模塊的運行流程主要由負荷數(shù)據(jù)、網(wǎng)損數(shù)據(jù)、力率數(shù)據(jù)、有功總加數(shù)據(jù)比較組成,分析流程能夠概括為:“輸入所有比較條件→合法→根據(jù)條件生成SQL語句→顯示查詢結果→打印比較圖像”。b.周期性數(shù)據(jù)分析模塊設計。圍繞報警周期性、負荷周期性、遙測周期性三方面開展數(shù)據(jù)挖掘,即可完成該模塊設計。c.數(shù)據(jù)預警分析模塊設計。分析流程為:“初始化數(shù)據(jù)集及參數(shù)→輸入預警分析參數(shù)→合法→分析預測→決定預測類型→有無推薦→輸出報警類型和推薦→輸出報警類型”。d.數(shù)據(jù)關聯(lián)分析模型設計。采用默認用戶手動輸入數(shù)據(jù)集方法,程序流程為:“初始化已有周期性數(shù)據(jù)集→輸入?yún)?shù)→合法?→數(shù)據(jù)集交叉?→計算Conf、Sup→計算下一對數(shù)據(jù)集→完成”。

  3結束語

  數(shù)據(jù)挖掘能夠較好地服務于電力調(diào)度自動化系統(tǒng)。而在此基礎上,本文研究建立的基于周期性關聯(lián)規(guī)則挖掘的數(shù)據(jù)分析系統(tǒng),則證明了研究的實踐價值。因此,在相關領域的理論研究和實踐探索中,本文資料能夠發(fā)揮必須參考作用。

  參考文獻:

  [1]王謙,李烽.電力調(diào)度的自動化網(wǎng)絡安全分析及實現(xiàn)[J].電子技術與軟件工程,2017(21):116.

  [2]劉賓,朱亞奇,吳莎.數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)中的應用[J].電子技術與軟件工程,2017(20):158.

  [3]曹鐵生.電力調(diào)度自動化系統(tǒng)應用現(xiàn)狀與發(fā)展趨勢研究分析[J].硅谷,2014,7(23):74+76.

  [4]周洋.數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)中的應用解析[J].科技創(chuàng)新與應用,2017(35):149-150.

  [5]李夢鳴.大數(shù)據(jù)挖掘平臺在電力運營監(jiān)測工作的應用[J].科技創(chuàng)新與應用,2016(26):21-22.

  作者:何宇雄;苑晉沛;聶宇;羅超;高小芊;寇霄宇;李蔚單位:國網(wǎng)湖北省電力公司武漢供電公司

  數(shù)據(jù)挖掘論文(三):

  題目:機器學習算法在數(shù)據(jù)挖掘中的應用

  摘要:隨著科學技術的快速發(fā)展,各種新鮮的事物和理念得到了廣泛的應用。其中機器學習算法就是一則典型案例——作為一種新型的算法,其廣泛應用于各行各業(yè)之中。本篇論文旨在探討機器學習算法在數(shù)據(jù)挖掘中的具體應用,我們利用龐大的移動終端數(shù)據(jù)網(wǎng)絡,加強了基于GSM網(wǎng)絡的戶外終端定位,從而提出了3個階段的定位算法,有效提高了定位的精準度和速度。

  關鍵詞:學習算法;GSM網(wǎng)絡;定位;數(shù)據(jù);

  移動終端定位技術由來已久,其主要是利用各種科學技術手段定位移動物體的精準位置以及高度。目前,移動終端定位技術主要應用于軍事定位、緊急救援、網(wǎng)絡優(yōu)化、地圖導航等多個現(xiàn)代化的領域,由于移動終端定位技術能夠帶給精準的位置服務信息,所以其在市場上還是有較大的需求的,這也為移動終端定位技術的優(yōu)化和發(fā)展,帶給了推動力。隨著通信網(wǎng)絡普及,移動終端定位技術的發(fā)展也得到了一些幫忙,使得其定位的精準度和速度都得到了全面的優(yōu)化和提升。同時,傳統(tǒng)的定位方法結合先進的算法來進行精準定位,目前依舊還是有較大的進步空間。在工作中我選取機器學習算法結合數(shù)據(jù)挖掘技術對傳統(tǒng)定位技術加以改善,取得了不錯的效果,但也遇到了許多問題,例如:使用機器學習算法來進行精準定位暫時無法滿足更大的區(qū)域要求,還有想要利用較低的設備成本,實現(xiàn)得到更多的精準定位的要求比較困難。所以本文對機器學習算法進行了深入的研究,期望能夠幫忙其更快速的定位、更精準的定位,滿足市場的需要。

  1數(shù)據(jù)挖掘概述

  數(shù)據(jù)挖掘又名數(shù)據(jù)探勘、信息挖掘。它是數(shù)據(jù)庫知識篩選中十分重要的一步。數(shù)據(jù)挖掘其實指的就是在超多的數(shù)據(jù)中透過算法找到有用信息的行為。一般狀況下,數(shù)據(jù)挖掘都會和計算機科學緊密聯(lián)系在一齊,透過統(tǒng)計集合、在線剖析、檢索篩選、機器學習、參數(shù)識別等多種方法來實現(xiàn)最初的目標。統(tǒng)計算法和機器學習算法是數(shù)據(jù)挖掘算法里面應用得比較廣泛的兩類。統(tǒng)計算法依靠于概率分析,然后進行相關性決定,由此來執(zhí)行運算。

  而機器學習算法主要依靠人工智能科技,透過超多的樣本收集、學習和訓練,能夠自動匹配運算所需的相關參數(shù)及模式。它綜合了數(shù)學、物理學、自動化和計算機科學等多種學習理論,雖然能夠應用的領域和目標各不相同,但是這些算法都能夠被獨立使用運算,當然也能夠相互幫忙,綜合應用,能夠說是一種能夠“因時而變”、“因事而變”的算法。在機器學習算法的領域,人工神經(jīng)網(wǎng)絡是比較重要和常見的一種。因為它的優(yōu)秀的數(shù)據(jù)處理和演練、學習的潛力較強。

  而且對于問題數(shù)據(jù)還能夠進行精準的識別與處理分析,所以應用的頻次更多。人工神經(jīng)網(wǎng)絡依靠于多種多樣的建模模型來進行工作,由此來滿足不同的數(shù)據(jù)需求。綜合來看,人工神經(jīng)網(wǎng)絡的建模,它的精準度比較高,綜合表述潛力優(yōu)秀,而且在應用的過程中,不需要依靠專家的輔助力量,雖然仍有缺陷,比如在訓練數(shù)據(jù)的時候耗時較多,知識的理解潛力還沒有到達智能化的標準,但是,相對于其他方式而言,人工神經(jīng)網(wǎng)絡的優(yōu)勢依舊是比較突出的。

  2以機器學習算法為基礎的GSM網(wǎng)絡定位

  2.1定位問題的建模

  建模的過程主要是以支持向量機定位方式作為基礎,把定位的位置柵格化,面積較小的柵格位置就是獨立的一種類別,在定位的位置內(nèi),我們收集數(shù)目龐大的終端測量數(shù)據(jù),然后利用計算機對測量報告進行分析處理,測量柵格的距離度量和精準度,然后對移動終端柵格進行預估決定,最終利用機器學習進行分析求解。

  2.2采集數(shù)據(jù)和預處理

  本次研究,我們采用的模型對象是我國某一個周邊長達10千米的二線城市。在該城市區(qū)域內(nèi),我們測量了四個不同時間段內(nèi)的數(shù)據(jù),為了保證機器學習算法定位的精準性和有效性,我們把其中的三批數(shù)據(jù)作為訓練數(shù)據(jù),最后一組數(shù)據(jù)作為定位數(shù)據(jù),然后把定位數(shù)據(jù)周邊十米內(nèi)的前三組訓練數(shù)據(jù)的相關信息進行清除。一旦確定某一待定位數(shù)據(jù),就要在不同的時間內(nèi)進行測量,按照測量出的數(shù)據(jù)信息的經(jīng)緯度和平均值,再進行換算,最終,得到真實的數(shù)據(jù)量,提升定位的速度以及有效程度。

  2.3以基站的經(jīng)緯度為基礎的初步定位

  用機器學習算法來進行移動終端定位,其復雜性也是比較大的,一旦區(qū)域面積增加,那么模型和分類也相應增加,而且更加復雜,所以,利用機器學習算法來進行移動終端定位的過程,會隨著定位區(qū)域面積的增大,而耗費更多的時間。利用基站的經(jīng)緯度作為基礎來進行早期的定位,則需要以下幾個步驟:要將邊長為十千米的正方形分割成一千米的小柵格,如果想要定位數(shù)據(jù)集內(nèi)的相關信息,就要選取對邊長是一千米的小柵格進行計算,而如果是想要獲得邊長一千米的大柵格,就要對邊長是一千米的柵格精心計算。

  2.4以向量機為基礎的二次定位

  在完成初步定位工作后,要確定一個邊長為兩千米的正方形,由于第一級支持向量機定位的區(qū)域是四百米,定位輸出的是以一百米柵格作為中心點的經(jīng)緯度數(shù)據(jù)信息,相對于一級向量機的定位而言,二級向量機在定位計算的時候難度是較低的,更加簡便。后期的預算主要依靠決策函數(shù)計算和樣本向量機計算。隨著柵格的變小,定位的精準度將越來越高,而由于增加分類的問題數(shù)量是上升的,所以,定位的復雜度也是相對增加的。

  2.5以K-近鄰法為基礎的三次定位

  第一步要做的就是選定需要定位的區(qū)域面積,在二次輸出之后,確定其經(jīng)緯度,然后依靠經(jīng)緯度來確定邊長面積,這些都是進行區(qū)域定位的基礎性工作,緊之后就是定位模型的訓練。以K-近鄰法為基礎的三次定位需要的是綜合訓練信息數(shù)據(jù),對于這些信息數(shù)據(jù),要以大小為選取依據(jù)進行篩選和合并,這樣就能夠減少計算的重復性。當然了,選取的區(qū)域面積越大,其定位的速度和精準性也就越低。

  3結語

  近年來,隨著我國科學技術的不斷發(fā)展和進步,數(shù)據(jù)挖掘技術愈加重要。根據(jù)上面的研究,我們證明了,在數(shù)據(jù)挖掘的過程中,應用機器學習算法具有舉足輕重的作用。作為一門多領域互相交叉的知識學科,它能夠幫忙我們提升定位的精準度以及定位速度,能夠被廣泛的應用于各行各業(yè)。所以,對于機器學習算法,相關人員要加以重視,不斷的進行改良以及改善,切實的發(fā)揮其有利的方面,將其廣泛應用于智能定位的各個領域,幫忙我們解決關于戶外移動終端的定位的問題。

  參考文獻

  [1]陳小燕,CHENXiaoyan.機器學習算法在數(shù)據(jù)挖掘中的應用[J].現(xiàn)代電子技術,2015,v.38;No.451(20):11-14.

  [2]李運.機器學習算法在數(shù)據(jù)挖掘中的應用[D].北京郵電大學,2014.

  [3]莫雪峰.機器學習算法在數(shù)據(jù)挖掘中的應用[J].科教文匯,2016(07):175-178.

  數(shù)據(jù)挖掘論文(四):

  數(shù)據(jù)挖掘與圖書館用戶資源分析

  摘要:人類利用圖書館產(chǎn)生信息活動時所表現(xiàn)出的最基礎、最平常、最通用的一種關系,便是用戶資源和圖書館之間的關系。從這種關系出發(fā),分析嫁接起這一簡單聯(lián)系的規(guī)律,便是數(shù)據(jù)挖掘技術。本文認為對圖書館用戶資源分析研究應以數(shù)據(jù)挖掘技術為邏輯起點,從云計算、信息共享、數(shù)據(jù)排查、智能搜索、大數(shù)據(jù)存儲等對圖書館用戶資源進行整合和建設。應對信息資源日益豐富的這天,數(shù)據(jù)挖掘技術對管理圖書館信息資源技術帶給了巨大便利。

  關鍵詞:數(shù)據(jù)挖掘;用戶資源

  數(shù)據(jù)挖掘,即數(shù)據(jù)系統(tǒng)中的信息發(fā)現(xiàn)。隨著計算機技術,個性是云計算、大數(shù)據(jù)記憶技術的快速發(fā)展,傳統(tǒng)的手動查找信息模式被大數(shù)據(jù)智能檢索替代。數(shù)據(jù)挖掘技術廣泛應用于市場、工業(yè)、金融行業(yè)、科學界、互聯(lián)網(wǎng)行業(yè)以及醫(yī)療業(yè)。數(shù)據(jù)挖掘技術在圖書館的應用,能夠?qū)⒑A康挠脩糍Y源進行聚類、關聯(lián)、整合,能夠?qū)τ脩羲阉饔涗洝D書流通記錄、用戶借閱信息等數(shù)據(jù)進行精確預判,發(fā)現(xiàn)一些隱蔽的聯(lián)系,為圖書館采購圖書、淘汰文獻資料帶給科學推薦,也能夠為用戶帶給個性化訂閱服務,創(chuàng)新用戶服務模式,為圖書館建設整個信息網(wǎng)絡帶給有力支撐。

  1大數(shù)據(jù)下的圖書館用戶資源特征

  圖書館用戶資源是透過數(shù)字技術進行組織和管理的:(1)經(jīng)過數(shù)據(jù)關聯(lián)分析,把數(shù)據(jù)庫中存在的兩個或兩個以上用戶之間的相同性提取出來,提高支持度和說服力;(2)把用戶信息按照相似性歸納成幾個類別,建立宏觀概念,發(fā)現(xiàn)其間的相互關系;其次定義這些相互關系,概念產(chǎn)生以后,即等同于這些相互關系的整體信息,用于建構分類規(guī)則或者數(shù)據(jù)模型;其次利用以上數(shù)據(jù)找出變化規(guī)律,對此規(guī)律進行模型化處理,并由數(shù)據(jù)模型對未知信息進行預判;(3)把用戶資源進行時序排序,檢索出高重復率的模型;(4)進行偏差比對,檢查數(shù)據(jù)之中的異常狀況。圖書館利用超多的用戶訪問信息獲取用戶興趣,發(fā)現(xiàn)用戶群體,為不同的群體定制信息,還能夠建立一個共享信息平臺,讓不同用戶建立網(wǎng)絡交流。

  1.1數(shù)據(jù)量大并且分布更廣

  大數(shù)據(jù)形勢下,圖書館能夠獲取的用戶資源不僅僅限于用戶個人信息和搜索記錄,也包括檔案、學術研究、教學模式、用戶評價和反饋等,數(shù)據(jù)豐富。同時,數(shù)據(jù)分布廣泛,在互聯(lián)網(wǎng)時代,可從圖書館應用系統(tǒng)、數(shù)據(jù)系統(tǒng)記錄以及各種網(wǎng)頁、移動終端的信息獲取,顯示出用戶資源的分散性。

  1.2數(shù)據(jù)資料多元化,形式靈活化

  數(shù)據(jù)系統(tǒng)里的存儲方式不同,服務器不同,系統(tǒng)開發(fā)平臺不同,致使許多用戶資源無法交流互換。圖書館用戶資源有半模型化、模型化和非模型化之分。傳統(tǒng)的圖書館用戶資源中,用戶只是圖書資源的使用者,與圖書館之間只是點對點單線互動,用戶之間不存在交流,而在大數(shù)據(jù)網(wǎng)絡平臺下,用戶之間能夠建立資料共享互動平臺,使得用戶資源的資料更加多元化。

  2圖書館用戶資源利用

  2.1有助于利用數(shù)據(jù)挖掘技術建立用戶資源圖書館

  用戶資源圖書館具備信息量大的特點,用戶可獲得各方各面的信息,且從服務的個性化和全方位化而言,圖書館可根據(jù)社會熱點或用戶需求定制服務。一方面,建立用戶資源圖書館,使各類用戶信息在同一界面統(tǒng)一呈現(xiàn),方便用戶的選取和檢索。另一方面,利用數(shù)據(jù)挖掘技術建立的用戶資源圖書館,服務器眾多,具有較強的計算潛力和存儲潛力,擁有較高的數(shù)據(jù)處理潛力,能同時容納多數(shù)用戶。因數(shù)據(jù)量大所導致的硬件費用和后期運行費用劇增,可透過構建用戶資源圖書館平臺以及應用服務得到解決。為應付不斷提高的用戶資源存儲方面的壓為,目前亟需的就是投入超多資金以擴容存儲設備,無疑,建立用戶資源平臺能夠解決此問題。

  2.2加速圖書館資源的數(shù)字化

  強大的互聯(lián)網(wǎng)呈現(xiàn)功能和用戶信息保存的可靠性功能,用戶資源存儲的復雜性問題可得到很好的解決。其次,數(shù)據(jù)挖掘技術對于資源整合方面具有優(yōu)勢,透過分布式的存儲模式整合超多信息資源帶給給用戶檢索。不同的數(shù)據(jù)之間的互相操作以及全方位的互聯(lián)網(wǎng)服務得以實現(xiàn),很好的解決了資源重復建設的問題。因此,利用數(shù)據(jù)挖掘使得圖書館資源數(shù)字化具備可行性。從這個好處上來看,資源的館藏數(shù)字化將會加快發(fā)展,而不只是圖書書目的劇增。

  2.3降低人力資源成本,使圖書館各類資源得以整合和優(yōu)化

  隨著各類用戶資源利用步伐的加快,加之依靠因特網(wǎng)的用戶對服務的可行性和效率性要求更高,超多不同體系的服務器布置在機房,系統(tǒng)維護人員的壓力也相應増大。透過數(shù)據(jù)挖掘技術,可有效進行資源整合和優(yōu)化,無需透過人力進行。

  2.4有利于分析用戶心理和提升用戶體驗

  數(shù)據(jù)挖掘技術能夠利用用戶資源計算出用戶模型,這是研究用戶需求、偏好、行為的一種常規(guī)方式,一般認為用戶模型是對用戶在某段時間內(nèi)相對穩(wěn)定的信息需求的記錄。用戶模型反過來對獲取用戶資源有十分重要的作用,建構用戶模型,能夠使圖書館更加精深、準確地掌握當前用戶資源。透過對用戶資源的處理來預測用戶需求,進而到達持續(xù)提高服務質(zhì)量和用戶滿意度的目的。一方面,預判用戶心理是利用圖書館用戶資源更加深入的表現(xiàn)。隨著用戶環(huán)境與圖書館環(huán)境的不斷變化,這種預判力覆蓋范圍已經(jīng)不單單是用戶信息行為的某個過程或某幾個過程,相反,用戶心理能夠?qū)τ脩粜枨蟮膹娙酢哟巍⒎较虍a(chǎn)生極為重要的影響,同時也能夠?qū)Λ@取用戶資源全部過程產(chǎn)生重要影響。另一方面,最先研究用戶體驗研究當屬企業(yè)營銷活動,主要用來研究用戶與企業(yè)、產(chǎn)品或服務之間的互動。數(shù)據(jù)挖掘技術能夠更精準預測用戶的實際感受,透過研究用戶情感體驗與用戶行為動作,提高用戶的滿意度,滿足用戶需求。

  3結語

  在數(shù)據(jù)大爆發(fā)時代,重視圖書館用戶資源,透過多渠道、多方式匯聚用戶資源,采用數(shù)據(jù)挖掘、數(shù)據(jù)歸檔分析等技術,掌握用戶資源特征,有助于圖書館精準定位用戶群體,對調(diào)整圖書館運營策略有重要前置作用,更能創(chuàng)新圖書館服務的資料和形式,實現(xiàn)圖書館資源的有效利用。

  參考文獻

  [1]陳文偉等.數(shù)據(jù)挖掘技術[M].北京:北京工業(yè)出版社,2002.

  [2]郭崇慧等.北京數(shù)據(jù)挖掘教程[M].北京:清華大學出版社,2005.

  [3]徐永麗等.網(wǎng)絡環(huán)境中用戶信息需求障礙分析[J].圖書館理論與實踐,2004.

  數(shù)據(jù)挖掘論文(五):

  題目:大數(shù)據(jù)挖掘在智慧旅游應用中的探究

  摘要:大數(shù)據(jù)和智慧旅游都是當下的熱點,沒有大數(shù)據(jù)的智慧旅游無從談“智慧”,數(shù)據(jù)挖掘是大數(shù)據(jù)應用于智慧旅游的核心,文章探究了在智慧旅游應用中,目前大數(shù)據(jù)挖掘存在的幾個問題。

  關鍵詞:大數(shù)據(jù);智慧旅游;數(shù)據(jù)挖掘;

  1引言

  隨著人民生活水平的進一步提高,旅游消費的需求進一步上升,在云計算、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)以及移動智能終端等信息通訊技術的飛速發(fā)展下,智慧旅游應運而生。大數(shù)據(jù)作為當下的熱點已經(jīng)成了智慧旅游發(fā)展的有力支撐,沒有大數(shù)據(jù)帶給的有利信息,智慧旅游無法變得“智慧”。

  2大數(shù)據(jù)與智慧旅游

  旅游業(yè)是信息密、綜合性強、信息依存度高的產(chǎn)業(yè)[1],這讓其與大數(shù)據(jù)自然產(chǎn)生了交匯。2010年,江蘇省鎮(zhèn)江市首先提出“智慧旅游”的概念,雖然至今國內(nèi)外對于智慧旅游還沒有一個統(tǒng)一的學術定義,但在與大數(shù)據(jù)相關的描述中,有學者從大數(shù)據(jù)挖掘在智慧旅游中的作用出發(fā),把智慧旅游描述為:透過充分收集和管理所有類型和來源的旅游數(shù)據(jù),并深入挖掘這些數(shù)據(jù)的潛在重要價值信息,然后利用這些信息為相關部門或?qū)ο髱Ыo服務[2]。這必須義充分肯定了在發(fā)展智慧旅游中,大數(shù)據(jù)挖掘所起的至關重要的作用,指出了在智慧旅游的過程中,數(shù)據(jù)的收集、儲存、管理都是為數(shù)據(jù)挖掘服務,智慧旅游最終所需要的是利用挖掘所得的有用信息。

  3大數(shù)據(jù)挖掘在智慧旅游中存在的問題

  2011年,我國提出用十年時間基本實現(xiàn)智慧旅游的目標[3],過去幾年,國家旅游局的相關動作均為了實現(xiàn)這一目標。但是,在借助大數(shù)據(jù)推動智慧旅游的可持續(xù)性發(fā)展中,大數(shù)據(jù)所產(chǎn)生的價值卻亟待提高,原因之一就是在收集、儲存了超多數(shù)據(jù)后,對它們深入挖掘不夠,沒有發(fā)掘出數(shù)據(jù)更多的價值。

  3.1信息化建設

  智慧旅游的發(fā)展離不開移動網(wǎng)絡、物聯(lián)網(wǎng)、云平臺。隨著大數(shù)據(jù)的不斷發(fā)展,國內(nèi)許多景區(qū)已經(jīng)實現(xiàn)Wi-Fi覆蓋,部分景區(qū)也已實現(xiàn)人與人、人與物、人與景點之間的實時互動,多省市已建有旅游產(chǎn)業(yè)監(jiān)測平臺或旅游大數(shù)據(jù)中心以及數(shù)據(jù)可視化平臺,從中進行數(shù)據(jù)統(tǒng)計、行為分析、監(jiān)控預警、服務質(zhì)量監(jiān)督等。透過這些平臺,已基本能掌握跟游客和景點相關的數(shù)據(jù),能夠?qū)崿F(xiàn)更好旅游監(jiān)控、產(chǎn)業(yè)宏觀監(jiān)控,對該地的旅游管理和推廣都能發(fā)揮重要作用。

  但從智慧化的發(fā)展來看,我國的信息化建設還需加強。雖然通訊網(wǎng)絡已基本能保證,但是大部分景區(qū)還無法實現(xiàn)對景區(qū)全面、透徹、及時的感知,更為困難的是對平臺的建設。在數(shù)據(jù)共享平臺的建設上,除了必備的硬件設施,大數(shù)據(jù)實驗平臺還涉及超多部門,如政府管理部門、氣象部門、交通、電子商務、旅行社、旅游網(wǎng)站等。如此多的部門相關聯(lián),要想建立一個完整全面的大數(shù)據(jù)實驗平臺,難度可想而知。

  3.2大數(shù)據(jù)挖掘方法

  大數(shù)據(jù)時代缺的不是數(shù)據(jù),而是方法。大數(shù)據(jù)在旅游行業(yè)的應用前景十分廣闊,但是應對超多的數(shù)據(jù),不懂如何收集有用的數(shù)據(jù)、不懂如何對數(shù)據(jù)進行挖掘和利用,那么“大數(shù)據(jù)”猶如礦山之中的廢石。旅游行業(yè)所涉及的結構化與非結構化數(shù)據(jù),透過云計算技術,對數(shù)據(jù)的收集、存儲都較為容易,但對數(shù)據(jù)的挖掘分析則還在不斷探索中。大數(shù)據(jù)的挖掘常用的方法有關聯(lián)分析,相似度分析,距離分析,聚類分析等等,這些方法從不同的角度對數(shù)據(jù)進行挖掘。其中,相關性分析方法透過關聯(lián)多個數(shù)據(jù)來源,挖掘數(shù)據(jù)價值。但針對旅游數(shù)據(jù),采用這些方法挖掘數(shù)據(jù)的價值信息,難度也很大,因為旅游數(shù)據(jù)中冗余數(shù)據(jù)很多,數(shù)據(jù)存在形式很復雜。在旅游非結構化數(shù)據(jù)中,一張圖片、一個天氣變化、一次輿情評價等都將會對游客的旅行計劃帶來影響。對這些數(shù)據(jù)完全挖掘分析,對游客“行前、行中、行后”大數(shù)據(jù)的實時性挖掘都是很大的挑戰(zhàn)。

  3.3數(shù)據(jù)安全

  2017年,數(shù)據(jù)安全事件屢見不鮮,伴著大數(shù)據(jù)而來的數(shù)據(jù)安全問題日益凸顯出來。在大數(shù)據(jù)時代,無處不在的數(shù)據(jù)收集技術使我們的個人信息在所關聯(lián)的數(shù)據(jù)中心留下痕跡,如何保證這些信息被合法合理使用,讓數(shù)據(jù)“可用不可見”[4],這是亟待解決的問題。同時,在大數(shù)據(jù)資源的開放性和共享性下,個人保密和公民權益受到嚴重威脅。這一矛盾的存在使數(shù)據(jù)共享程度與數(shù)據(jù)挖掘程度成反比。此外,經(jīng)過大數(shù)據(jù)技術的分析、挖掘,個人保密更易被發(fā)現(xiàn)和暴露,從而可能引發(fā)一系列社會問題。

  大數(shù)據(jù)背景下的旅游數(shù)據(jù)當然也避免不了數(shù)據(jù)的安全問題。如果游客“吃、住、行、游、娛、購”的數(shù)據(jù)被放入數(shù)據(jù)庫,被完全共享、挖掘、分析,那游客的人身財產(chǎn)安全將會受到嚴重影響,最終降低旅游體驗。所以,數(shù)據(jù)的安全管理是進行大數(shù)據(jù)挖掘的前提。

  3.4大數(shù)據(jù)人才

  大數(shù)據(jù)背景下的智慧旅游離不開人才的創(chuàng)新活動及技術支持,然而與專業(yè)相銜接的大數(shù)據(jù)人才培養(yǎng)未能及時跟上行業(yè)需求,加之創(chuàng)新型人才的外流,以及數(shù)據(jù)統(tǒng)計未來3~5年大數(shù)據(jù)行業(yè)將面臨全球性的人才荒,國內(nèi)智慧旅游的構建還缺乏超多人才。

  4解決思路

  在信息化建設上,加大政府投入,加強基礎設施建設,整合結構化數(shù)據(jù),抓取非結構化數(shù)據(jù),打通各數(shù)據(jù)壁壘,建設旅游大數(shù)據(jù)實驗平臺;在挖掘方法上,對旅游大數(shù)據(jù)實時性數(shù)據(jù)的挖掘就應被放在重要位置;在數(shù)據(jù)安全上,從加強大數(shù)據(jù)安全立法、監(jiān)管執(zhí)法及強化技術手段建設等幾個方面著手,提升大數(shù)據(jù)環(huán)境下數(shù)據(jù)安全保護水平。加強人才的培養(yǎng)與引進,加強產(chǎn)學研合作,培養(yǎng)智慧旅游大數(shù)據(jù)人才。

  參考文獻

  [1]翁凱.大數(shù)據(jù)在智慧旅游中的應用研究[J].信息技術,2015,24:86-87.

  [2]梁昌勇,馬銀超,路彩虹.大數(shù)據(jù)挖掘,智慧旅游的核心[J].開發(fā)研究,2015,5(180):134-139.

  [3]張建濤,王洋,劉力剛.大數(shù)據(jù)背景下智慧旅游應用模型體系構建[J].企業(yè)經(jīng)濟,2017,5(441):116-123.

  [4]王竹欣,陳湉.保障大數(shù)據(jù),從哪里入手[N].人民郵電究,2017-11-30.

  數(shù)據(jù)挖掘論文(六):

  云計算下物聯(lián)網(wǎng)的數(shù)據(jù)挖掘

  摘要:隨著我國信息技術產(chǎn)業(yè)日漸成熟,物聯(lián)網(wǎng)這一新一代信息技術關鍵技術日漸受到學界重視,基于此,本文就物聯(lián)網(wǎng)與云計算、物聯(lián)網(wǎng)數(shù)據(jù)挖掘需要解決的關鍵性問題展開分析,并對基于云計算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘、實驗驗證進行了詳細論述,期望由此能夠為相關業(yè)內(nèi)人士帶來必須啟發(fā)。

  關鍵詞:云計算平臺;物聯(lián)網(wǎng);數(shù)據(jù)挖掘;Hodoop

  隨著2010年提出的“數(shù)字地球”概念影響力不斷擴大,物聯(lián)網(wǎng)技術與我國民眾生活之間的距離日漸拉近,越來越多的物聯(lián)網(wǎng)應用也開始進入人們視野,各界對物聯(lián)網(wǎng)的要求也在不斷提升,而為了解決物聯(lián)網(wǎng)領域正面臨的數(shù)據(jù)挖掘難題,正是本文就云計算平臺下物聯(lián)網(wǎng)數(shù)據(jù)挖掘展開具體研究的原因所在。

  1物聯(lián)網(wǎng)與云計算

  1.1物聯(lián)網(wǎng)

  物聯(lián)網(wǎng)作為學界公認的下一代網(wǎng)絡發(fā)展方向之一,其本身由無所不在的小型傳感器設備組成,無論是與我們?nèi)粘I?lián)系緊密的計算機與智能手機,還是大型網(wǎng)絡的服務器、超級計算機群,均屬于物聯(lián)網(wǎng)的重要組成部分,這也是很多學者將物聯(lián)網(wǎng)稱作新科技革命的原因。在S.Haller等業(yè)界權威學者的展望中,其認為物聯(lián)網(wǎng)技術在未來將實現(xiàn)物理對象無縫集成到信息網(wǎng)絡之中并成為參與者,而這些“智能對象”在保護安全與保密的前提下,則能夠在網(wǎng)絡中找到任何問題的解決方法。對于物聯(lián)網(wǎng)來說,其具備著全面感知、可靠傳遞、智能處理三方面特點,而結合現(xiàn)有技術獲得基本信息、結合傳感器網(wǎng)絡和其他通信網(wǎng)絡實現(xiàn)物體信息可靠傳遞、在云計算與模糊識別等技術支持下處理海量異構數(shù)據(jù)則屬于物聯(lián)網(wǎng)三方面特點的具體表現(xiàn),由此可見電子元器件、數(shù)據(jù)處理中心、傳輸通道三方面能夠視作典型物聯(lián)網(wǎng)應用的組成。

  1.2云計算

  云計算本質(zhì)上屬于一種基于互聯(lián)網(wǎng)的新計算方式,其能夠結合互聯(lián)網(wǎng)異構、自治服務較好滿足用戶的計算需要,云計算中的“云”也能夠被視作對IT底層基礎設施的一種抽象概念。本文研究應用的Hodoop屬于典型的云計算基礎開發(fā)平臺,其本質(zhì)上屬于一個分布式系統(tǒng)基礎的架構,Hodoop在云計算領域的地位能夠說近似于IT產(chǎn)業(yè)的Linux系統(tǒng)。Hodoop的核心為分布式文件系統(tǒng)HDFS和MapReduce,前者具備高容錯性、高伸縮性等優(yōu)點,這些就使得Hodoop的布置能夠較為簡單且低成本的構成分布式文件系統(tǒng),而后者則具備保證分析和處理的高效性潛力,由此Hodoop即可簡單進行數(shù)據(jù)的整合。總之,Hodoop這一云計算基礎開發(fā)平臺能夠透過簡單組織計算機資源實現(xiàn)分布式計算云平臺搭建,并以此實現(xiàn)云計算相關功用。

  1.3物聯(lián)網(wǎng)數(shù)據(jù)挖掘需要解決的關鍵性問題

  簡單了解物聯(lián)網(wǎng)與云計算后,物聯(lián)網(wǎng)數(shù)據(jù)挖掘需要解決的關鍵性問題也應引起人們關注,那里的關鍵性問題主要由以下幾方面構成:

  1.3.1傳統(tǒng)模式難以應用中央模式

  屬于較為傳統(tǒng)的數(shù)據(jù)挖掘模式,但是物聯(lián)網(wǎng)數(shù)據(jù)不同存儲地點的特性則使得該模式的效用無從發(fā)揮。

  1.3.2對中央節(jié)點硬件要求較高

  物聯(lián)網(wǎng)本身具備著數(shù)據(jù)規(guī)模、傳感器節(jié)點龐大的特點,而為了同時滿足其實時處理需求,高性能的中央節(jié)點硬件要求務必得到滿足。

  1.3.3節(jié)點資源有限

  在有限的節(jié)點資源影響下,分布式節(jié)點務必負責原始數(shù)據(jù)的預處理與傳遞。

  1.3.4外在因素影響

  由于數(shù)據(jù)安全性、數(shù)據(jù)保密、法律約束等因素的影響,物聯(lián)網(wǎng)不能夠?qū)⑺袛?shù)據(jù)統(tǒng)一存放在相同數(shù)據(jù)倉庫,這同樣對物聯(lián)網(wǎng)數(shù)據(jù)挖掘提出了較高挑戰(zhàn)。總的來說,現(xiàn)有技術與方式并不能較好滿足物聯(lián)網(wǎng)數(shù)據(jù)挖掘需要,這也是本文研究開展的原因所在。

  2基于云計算的物聯(lián)網(wǎng)數(shù)據(jù)挖掘

  結合Hodoop云計算基礎開發(fā)平臺進行基礎平臺搭建,選取用物聯(lián)網(wǎng)數(shù)據(jù)集為例,構成了物聯(lián)網(wǎng)感知層、傳輸層、數(shù)據(jù)層、數(shù)據(jù)挖掘服務層四部分模塊組成的平臺,各模塊的實現(xiàn)思路與功能如下所示。

  2.1物聯(lián)網(wǎng)感知層

  物聯(lián)網(wǎng)感知層主要負責物聯(lián)網(wǎng)數(shù)據(jù)的采集,這一采集需要得到目標區(qū)域布置的采集節(jié)點支持,那里的采集節(jié)點主要由攝像頭、傳感器、其他儀器儀表組成,而由此構成的物聯(lián)網(wǎng)感知層無線傳感器網(wǎng)絡,便能夠?qū)⒏鞑杉c采集到的網(wǎng)絡數(shù)據(jù)匯集至節(jié)點,數(shù)據(jù)由此進行匯總儲存則能夠在傳輸層的支持下最終傳遞至云平臺的數(shù)據(jù)中心。

  2.2傳輸層傳輸層

  本質(zhì)上屬于具備較高可靠性與高速性、較優(yōu)無縫性特點的數(shù)據(jù)傳輸網(wǎng)絡,而基于Hodoop云計算基礎開發(fā)平臺構建的物聯(lián)網(wǎng)挖掘系統(tǒng)則結合傳感器網(wǎng)絡、有線網(wǎng)絡、無線網(wǎng)絡實現(xiàn)了數(shù)據(jù)傳輸網(wǎng)絡的構建,這就使得物聯(lián)網(wǎng)感知層所搜集的信息能夠更快、更好的傳遞到云計算數(shù)據(jù)中心,由此實現(xiàn)的更高質(zhì)量互通互聯(lián),則保證了系統(tǒng)中監(jiān)測設備的網(wǎng)絡化高速數(shù)據(jù)傳輸?shù)靡詫崿F(xiàn)。

  2.3數(shù)據(jù)層

  物聯(lián)網(wǎng)數(shù)據(jù)具備著異構性、海量性等特點,這就使得基于Hodoop云計算基礎開發(fā)平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)對于物聯(lián)網(wǎng)數(shù)據(jù)的存儲與處理存在著較高要求,而在本文研究所構建的物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)層中,該數(shù)據(jù)層主要由數(shù)據(jù)源轉換模塊與分布式存儲模塊兩部分組成,其中前者主要負責物聯(lián)網(wǎng)異構數(shù)據(jù)的轉換,而后者則主要負責分布式存儲物聯(lián)網(wǎng)所產(chǎn)生的海量數(shù)據(jù),由此本文研究的物聯(lián)網(wǎng)挖掘系統(tǒng)的性能和可行性便得到了較好證實。值得注意的是,分布式存儲模塊需要結合Hodoop云計算基礎開發(fā)平臺中的HDFS文件系統(tǒng)實現(xiàn)。物聯(lián)網(wǎng)中的不同對象往往會透過不同的數(shù)據(jù)類型進行表示,這就使得異構性勢必屬于物聯(lián)網(wǎng)的根本性特征,一些相同對象使用不同數(shù)據(jù)表示便較為直觀說明了這一點,而這就使得物聯(lián)網(wǎng)對數(shù)據(jù)源轉換器有著較高需求。在本文構建的物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)中,數(shù)據(jù)源轉換器在其中發(fā)揮著保護數(shù)據(jù)存儲完整、保證數(shù)據(jù)挖掘科學順利等功能,數(shù)據(jù)包解碼、數(shù)據(jù)的分布式存儲也需要得到該轉化器的直接支持,這也是物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)中各NameNode節(jié)點文件類型為PML的原因。PML能夠透過一種通用的方式進行物體描述,而作為基于XML建立的語言,PML在與XML相同核心思想的影響下,其便能夠在物品的詳細信息帶給、物品信息交換等

  領域發(fā)揮不俗的功能。例如,在本文研究所構建的物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)中,PML便在節(jié)點數(shù)據(jù)采集、傳輸、存儲過程中發(fā)揮著建模功能,相關建模信息所收錄的物體屬性信息、位置信息、環(huán)境信息、歷史元素等資料,便能夠保證物品信息實現(xiàn)較高質(zhì)量的表達,這對于物聯(lián)網(wǎng)數(shù)據(jù)挖掘也將帶來較為用心影響。

  2.4數(shù)據(jù)挖掘服務層

  數(shù)據(jù)挖掘服務層能夠細分為數(shù)據(jù)準備模塊、數(shù)據(jù)挖掘引擎模塊、用戶模塊三部分,三部分模塊的具體功用如下所示:

  2.4.1數(shù)據(jù)準備模塊

  主要負責物聯(lián)網(wǎng)搜集數(shù)據(jù)的清理、變換、數(shù)據(jù)規(guī)約。

  2.4.2數(shù)據(jù)挖掘引擎模塊

  主要透過數(shù)據(jù)挖掘算法集、模式評估等功能為物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)帶給服務,特征、區(qū)分、關聯(lián)、聚類、局外者、趨勢和演化分析、偏差分析、類似性分析等能夠視作該模塊功能的具體組成,這些功能的實現(xiàn)得益于數(shù)據(jù)挖掘引擎模塊中的算法集,Hodoop云計算基礎開發(fā)平臺支持下實現(xiàn)的算法并行化處理則是該模塊功能實現(xiàn)的基礎。

  2.4.3用戶模塊

  實現(xiàn)對數(shù)據(jù)挖掘知識的可視化表示。用戶模塊是本文研究物聯(lián)網(wǎng)數(shù)據(jù)挖掘平臺面向使用人員的部分,因此在設計中筆者注重了系統(tǒng)操作的友好性,簡單的數(shù)據(jù)挖掘任務開展、簡單獲得能夠被理解知識均屬于設計的優(yōu)勢所在。值得注意的是,為了保證本文研究的物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)具備較高的可移植性,設計人員在設計之初便為數(shù)據(jù)挖掘服務層底層模塊設計了開放接口,由此該物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)的應用豐富性就能夠得到較好保障,表1對本文研究的物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)組成進行了直觀展示。

  3實驗驗證

  3.1物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)工作流程

  基于Hodoop云計算基礎開發(fā)平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)工作流程能夠概括為:“用戶→主控節(jié)點→主控節(jié)點允許用戶請求→主控節(jié)點調(diào)用數(shù)據(jù)挖掘算法→調(diào)用數(shù)據(jù)挖掘算法成功→準備物聯(lián)網(wǎng)數(shù)據(jù)→分布式數(shù)據(jù)挖掘→將結果傳遞給用戶”,而結合這一流程本文將圍繞以下幾部分開展具體的物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)工作流程描述,具體描述如下:

  3.1.1用戶請求

  在用戶請求物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)進行數(shù)據(jù)挖掘后,系統(tǒng)的主控節(jié)點將決定該任務是否能夠進行,而在確定能夠進行后系統(tǒng)將首先向用戶傳遞能夠進行的信息,并隨后開始具體的數(shù)據(jù)挖掘。

  3.1.2數(shù)據(jù)挖掘過程

  在確定物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)能夠進行數(shù)據(jù)挖掘后,系統(tǒng)的主控節(jié)點將有針對性的選取數(shù)據(jù)挖掘算法滿足用戶需要,并結合MapReduce思想與Master/Slave結構進行數(shù)據(jù)挖掘任務的劃分。

  3.1.3具體節(jié)點任務

  在數(shù)據(jù)挖掘任務的劃分下,需要完成具體工作的節(jié)點將被分配任務,由此物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)的具體數(shù)據(jù)處理便由此開展,同時JobTracker負責的調(diào)度和執(zhí)行則將最后將數(shù)據(jù)挖掘結果傳遞給用戶。

  3.2實驗驗證

  為了能夠直觀決定基于Hodoop云計算基礎開發(fā)平臺物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)可行性和性能水平,明晰MapReduce數(shù)據(jù)挖掘算法在系統(tǒng)中發(fā)揮的作用,本文選取了結合Apriori算法開展實驗驗證的方法,實驗驗證的環(huán)境、過程、結果如下所示。

  3.2.1實驗環(huán)境

  實驗選取了4G內(nèi)存、500G硬盤、Windows7系統(tǒng)的計算機作為實驗基礎,并在該計算機中透過虛擬機安裝部署了多個分布式節(jié)點,其中共3個虛擬機中的一個為NameNodeLinux系統(tǒng),其余兩個則為DateNodeLinux系統(tǒng)。為了保證實驗質(zhì)量與效率,筆者還在該計算機中安裝了專門用于Linux系統(tǒng)的Eclipse7.5集成開發(fā)環(huán)境,在Windows系統(tǒng)中安裝了SSHSecureShellClient、各個虛擬機操作系統(tǒng)中安裝了SSH服務,由此即可保證本文研究的基于Hodoop云計算基礎開發(fā)平臺物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)的順利使用。

  3.2.2實驗過程完成

  實驗環(huán)境的搭建后,本文選取了一組用于關聯(lián)規(guī)則算法的實驗數(shù)據(jù),并將該數(shù)據(jù)透過C++代碼編寫的程序透過關鍵字搜索方式轉換成立標準類型大小為1G的PML文件,在HDFS命令下該文件被放入Hadoop平臺進行分布式存儲,而在運行Java語言編寫的Apriori算法后,即可得到物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)的運行結果,透過查看系統(tǒng)使用中是否找到了實驗數(shù)據(jù)集中的所有頻繁項集便能夠直觀決定其性能。值得注意的是,為了提升實驗的有效性,本文選取了不同大小的文件開展實驗,由此實現(xiàn)比較物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)運行時間更深入了解其性能。

  3.2.3實驗結果

  表2對基于物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)的實驗結果進行了直觀展示,結合該表不難發(fā)現(xiàn),文件大小的提升直接導致物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)運行時間的增長,這種增長存在典型的線性趨勢,而由于應用Apriori算法的物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)實現(xiàn)了頻繁項集的發(fā)現(xiàn),本文研究的基于Hodoop云計算基礎開發(fā)平臺物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)的擴展性便得到了較為直觀展現(xiàn),其所具備的物聯(lián)網(wǎng)海量數(shù)據(jù)挖掘潛力也得到了較好證實。

  4結論

  綜上所述,云計算平臺能夠較好服務于物聯(lián)網(wǎng)的數(shù)據(jù)挖掘。而在此基礎上,本文研究所提出了完善性與科學性較高的基于Hodoop云計算基礎開發(fā)平臺物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng),便直觀證明了全文的實踐價值。因此,在相關領域的理論研究與實踐探索中,本文資料便能夠發(fā)揮必須參考作用。

  參考文獻

  [1]湯勇峰.基于云計算平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究[J].電腦知識與技術,2017,1307:218-219.

  [2]陳俊麗.基于云計算平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究[J].中國新通信,2016,1821:74-75.

  [3]武桂云.基于hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)研究與設計[D].天津大學,2012.

  [4]林昕.基于云計算的大數(shù)據(jù)挖掘平臺構建研究[J].山東工業(yè)技術,2015(17):104.

  數(shù)據(jù)挖掘論文(七):

  題目:數(shù)據(jù)挖掘技術在神經(jīng)根型頸椎病方劑研究中的優(yōu)勢及應用進展

  關鍵詞:數(shù)據(jù)挖掘技術;神經(jīng)根型頸椎病;方劑;綜述;

  1數(shù)據(jù)挖掘技術簡介

  數(shù)據(jù)挖掘技術[1](KnowledgeDiscoveryinDatebase,KKD),是一種新興的信息處理技術,它融匯了人工智能、模式別、模糊數(shù)學、數(shù)據(jù)庫、數(shù)理統(tǒng)計等多種技術方法,專門用于海量數(shù)據(jù)的處理,從超多的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中,提取隱含在其中的、人們事先不明白的、但又是潛在的有用的信息和知識,其目的是發(fā)現(xiàn)規(guī)律而不是驗證假設。數(shù)據(jù)挖掘技術主要適用于龐大的數(shù)據(jù)庫的研究,其特點在于:基于數(shù)據(jù)分析方法角度的分類,其本質(zhì)屬于觀察性研究,數(shù)據(jù)來源于日常診療工作資料,應用的技術較傳統(tǒng)研究更先進,分析工具、理論模型與傳統(tǒng)研究區(qū)別較大。其操作步驟包括[2]:選取數(shù)據(jù),數(shù)據(jù)處理,挖掘分析,結果解釋,其中結果解釋是數(shù)據(jù)挖掘技術研究的關鍵。其方法包括分類、聚類、關聯(lián)、序列、決策樹、貝斯網(wǎng)絡、因子、辨別等分析[3],其結果通常表示為概念、規(guī)則、規(guī)律、模式、約束、可視化等形式圖[4]。當今數(shù)據(jù)挖掘技術的方向主要在于:特定數(shù)據(jù)挖掘,高效挖掘算法,提高結果的有效性、確定性和表達性,結果的可視化,多抽象層上的交互式數(shù)據(jù)挖掘,多元數(shù)據(jù)挖掘及數(shù)據(jù)的安全性和保密性。因其優(yōu)勢和獨特性被運用于多個領域中,且結果運用后取得顯著成效,因此越來越多的中醫(yī)方劑研究者將其運用于

  方劑中藥物的研究。

  2數(shù)據(jù)挖掘術在神經(jīng)根型頸椎病治方研究中的優(yōu)勢

  中醫(yī)對于神經(jīng)根型頸椎病的治療準則為辨證論治,從古至今神經(jīng)根型頸椎病的中醫(yī)證型有很多,其治方是集中醫(yī)之理、法、方、藥為一體的數(shù)據(jù)集合,具有以“方-藥-證”為核心的多維結構。方劑配伍本質(zhì)上表現(xiàn)為方與方、方與藥、藥與藥、藥與劑量,以及方藥與證、病、癥交叉錯綜的關聯(lián)與對應[5],而中醫(yī)方劑講究君臣佐使的配伍,藥物有升降沉浮,四氣五味及歸經(jīng)之別,對于神經(jīng)根型頸椎病的治療,治方中藥物的種類、炮制方法、用量、用法等都是千變?nèi)f化的,而這些海量、模糊、看似隨機的藥物背后隱藏著對臨床有用的信息和規(guī)律,但這些大數(shù)據(jù)是無法在可承受的時間范圍內(nèi)可用常規(guī)軟件工具進行捕捉、管理和處理的,是需要一個新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化潛力,而數(shù)據(jù)挖掘技術有可能從這些海量的的數(shù)據(jù)中發(fā)現(xiàn)新知識,揭示背后隱藏的關系和規(guī)則,并且對未知的狀況進行預測[6]。再者,中醫(yī)辨治充滿非線性思維,“方-藥-證”間的多層關聯(lián)、序列組合、集群對應,構成了整體論的思維方式和原則,而數(shù)據(jù)挖掘技術數(shù)據(jù)挖掘在技術線路上與傳統(tǒng)數(shù)據(jù)處理方法不同在于其能對數(shù)據(jù)庫內(nèi)的數(shù)據(jù)以線性和非線性方式解析,尤善處理模糊的、非量化的數(shù)據(jù)。例如趙睿曦等[7]在研究張氏骨傷治療腰椎間盤突出癥的用藥

  規(guī)律時,選取了100張治方,因該病病因病機復雜,證候不一,骨傷名師張玉柱先生對該病的治則治法、藥物使用是不同的。因此他們利用Excel建立方證數(shù)據(jù)庫,采用SPPSClementine12.0軟件對這些數(shù)據(jù)的用藥頻次、藥物關聯(lián)規(guī)則及藥物聚類進行分析,最后總結出張氏骨傷治療腰椎間盤突出癥遵循病從肝治、病從血治、標本兼治的原則,也歸納出治療三種不同證型的腰突癥的三類自擬方。由此看出數(shù)據(jù)挖掘技術在方劑研究中的應用對數(shù)據(jù)背后信息、規(guī)律等的挖掘及名家經(jīng)驗的推廣具有重大好處,因此數(shù)據(jù)挖掘技術在神經(jīng)根型頸椎病的治方研究中也同樣發(fā)揮著巨大的作用。

  3數(shù)據(jù)挖掘技術在神經(jīng)根型頸椎治方中的應用進展

  神經(jīng)根型頸椎病在所有頸椎病中最常見,約占50%~60%[8],醫(yī)家對其治方的研究也是不計其數(shù)。近年來數(shù)據(jù)挖掘技術也被運用于其治方研究中,筆者透過萬方、中國知網(wǎng)等總共檢索出以下幾篇文獻,雖數(shù)量不多但其優(yōu)勢明顯。劉向前等[9]在挖掘古方治療神經(jīng)根型頸椎病的用藥規(guī)律時,透過檢索《中華醫(yī)典》并從中篩選以治療頸項肩臂痛為主的古方219首并建立數(shù)據(jù)庫,對不同證治古方的用藥類別、總味數(shù)、單味藥使用頻數(shù)及藥對(組)出現(xiàn)頻數(shù)進行統(tǒng)計,總結出風寒濕痹證、痰濕阻痹證、寒濕阻滯證、正虛不足證的用藥特點,得出解表藥、祛風濕藥、活血化瘀藥、補虛藥是治療頸項肩臂痛古方組成的主要藥物。古為今用,該研究對于現(xiàn)代醫(yī)家在治療該病中有很好的借鑒和參考好處。齊兵獻等[10]檢索CNKI(1980-2009年)相關文獻中治療神經(jīng)根型頸椎病的方劑建立數(shù)據(jù)庫,采用SPSS11.5統(tǒng)計軟件這些治方常用藥物使用頻次頻率、性味頻率、歸經(jīng)頻率分析比較,治療神經(jīng)根型頸椎病的中藥共計99味,使用頻次479味次;所用藥物種類依次以補益藥、活血化瘀藥、祛風濕藥運用最多,其中藥味以辛、苦為主,藥性以溫、寒為主,歸經(jīng)以肝、脾、心為主,而本病以肝腎虧虛,氣血瘀滯為主,臨床以補益藥、活血化瘀藥、祛風濕藥等中藥運用最多。這對于醫(yī)家

  治療該病選用藥物的性味、歸經(jīng)等具有指導好處。陳元川等[11]檢索2004年1月至2013年3月發(fā)表的以單純口服中藥治療神經(jīng)根型頸椎病的有關文獻,對其中的方劑和藥物進行統(tǒng)計、歸類、分析,最終納入32首方劑,涉及111味中藥,補氣藥、發(fā)散風寒藥、活血止痛藥、補血藥等使用頻次較高;葛根、白芍、黃芪、當歸、桂枝等藥物使用頻次較高,證實與古方桂枝加葛根湯主藥相同,且該方扶陽解表的治法與該研究得出的扶正祛邪的結果相吻合,同時也證實石氏傷科強調(diào)治傷科病當“以氣為主,以血為先”等正確性。所以大數(shù)據(jù)背后的規(guī)律和關系在很多方面古今是一致的,同時數(shù)據(jù)依據(jù)的支持也為現(xiàn)代神經(jīng)根型頸椎病治療帶給有力的保障。謝輝等[12]收集2009至2014年10月3日的166張治療神經(jīng)根型頸椎病的治方建立數(shù)據(jù)庫,采用關聯(lián)規(guī)則算法、復雜系統(tǒng)熵聚類等無監(jiān)督數(shù)據(jù)挖掘方法,利用中醫(yī)傳承輔助平臺(TCMISS)軟件分析處方中各種藥物的使用頻次、藥物之間的關聯(lián)規(guī)則、核心藥物組合和新處方,從中挖掘出治療該病中醫(yī)中的常用藥物、藥對,闡明了治療該病以解肌散寒藥、補氣活血藥、祛風勝濕藥和溫經(jīng)通絡藥為主,治法主要包括解肌舒筋、益氣活血和補益肝腎,這一方面很清晰明了地展示了藥物使用頻率、藥物之間的聯(lián)系,證實其與很多古代

  經(jīng)典中治療神經(jīng)根型頸椎病的治則、治法及用藥規(guī)律是吻合的,是臨床用藥的積累和升華,可有效地指導臨床并提高療效;另一方面也為中藥新藥的創(chuàng)制帶給處方來源,指導新藥研發(fā)[13]。

  4小結

  數(shù)據(jù)挖掘技術作為一種新型的研究技術,在神經(jīng)根型頸椎病的治方研究中的運用相對于其他領域是偏少的,并且基本上是研究文獻資料上出現(xiàn)的治方,在對名老中醫(yī)個人治療經(jīng)驗及用藥規(guī)律的總結是缺乏的,因此研究范圍廣而缺乏針對性,同時使用該技術的相關軟件種類往往是單一的。此刻研究者在研究中醫(yī)方劑時往往采用傳統(tǒng)的研究方法,這就導致在大數(shù)據(jù)的研究中耗時、耗力甚則無能為力,同樣也難以精準地提取大數(shù)據(jù)背后的隱藏的潛在關系和規(guī)則及缺乏對未知狀況的預測。產(chǎn)生這樣的現(xiàn)狀,一方面是很多研究者尚未清楚該技術在方劑研究中的優(yōu)勢所在,思維模式尚未更新;另一方面是很多研究者尚未清楚該技術的操作技能及軟件種類及其應用范圍。故以后應向更多研究者普及該技術的軟件種類、其中的優(yōu)勢及操作技能,讓該技術在臨床中使用更廣,產(chǎn)生更大的效益。

  參考文獻

  [1]舒正渝.淺談數(shù)據(jù)挖掘技術及應用[J].中國西部科技,2010,9(5):38-39.

  [2]曹毅,季聰華.臨床科研設計與分析[M].杭州:浙江科學技術出版社,2015:189.

  [3]王靜,崔蒙.數(shù)據(jù)挖掘技術在中醫(yī)方劑學研究中的應用[J].中國中醫(yī)藥信息雜志,2008,15(3):103-104.

  [4]陳丈偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:清華大學出版社,2006:5.

  [5]楊玉珠.數(shù)據(jù)挖掘技術綜述與應用[J].河南科技,2014,10(19):21.

  [6]余侃侃.數(shù)據(jù)挖掘技術在方劑配伍中的研究現(xiàn)狀及研究方法[J].中國醫(yī)藥指南,2008,6(24):310-312.

  [7]趙睿曦.方證數(shù)據(jù)挖掘分析張氏骨傷對腰椎間盤突出癥的辨證用藥規(guī)律[J].陜西中醫(yī)藥大學學報,2016,39(6):44-46.

  [8]李曙明,尹戰(zhàn)海,王瑩.神經(jīng)根型頸椎病的影像學特點和分型[J].中國矯形外科雜志,2013,21(1):7-11.

  [9]劉向前,陳民,黃廣平等.頸項肩臂痛內(nèi)治古方常用藥物的統(tǒng)計分析[J].中華中醫(yī)藥學刊,2012,30(9):42-44.

  [10]齊兵獻,樊成虎,李兆和.神經(jīng)根型頸椎病中醫(yī)用藥規(guī)律的文獻研究[J].河南中醫(yī),2012,32(4):518-519.

  [11]陳元川,王翔,龐堅,等.單純口服中藥治療神經(jīng)根型頸椎病用藥分析[J].上海中醫(yī)藥雜志,2014,48(6):78-80.

  [12]謝輝,劉軍,潘建科,等.基于數(shù)據(jù)挖掘方法的神經(jīng)根型頸椎病用藥規(guī)律研究[J].世界中西醫(yī)結合雜志,2015,10(6):849-852.

  [13]唐仕歡,楊洪軍.中醫(yī)組方用藥規(guī)律研究進展述評[J].中國實驗方劑學雜志,2013(5):359-363.

  數(shù)據(jù)挖掘論文(八):

  關于計算機Web數(shù)據(jù)及其在電子商務中的應用探析

  論文摘要:目前計算機Web數(shù)據(jù)挖掘技術被廣泛應用于電子商務活動,它是隨著網(wǎng)絡技術和數(shù)據(jù)庫技術的快速發(fā)展而出現(xiàn)的一種新技術,已成為現(xiàn)代電子商務企業(yè)獲取市場信息極為重要的工具。介紹了Web數(shù)據(jù)挖掘的含義、特征及類別,重點探究了計算機Web數(shù)據(jù)挖掘技術在電子商務中的幾種典型應用。

  論文關鍵詞:數(shù)據(jù)挖掘;電子商務;Web數(shù)據(jù)挖掘

  1引言

  當前,隨著網(wǎng)絡技術的發(fā)展和數(shù)據(jù)庫技術的迅猛發(fā)展,有效推動了商務活動由傳統(tǒng)活動向電子商務變革。電子商務就是利用計算機和網(wǎng)絡技術以及遠程通信技術,實現(xiàn)整個商務活動的電子化、數(shù)字化和網(wǎng)絡化。基于Internet的電子商務快速發(fā)展,使現(xiàn)代企業(yè)積累了超多的數(shù)據(jù),這些數(shù)據(jù)不僅僅能給企業(yè)帶來更多有用信息,同時還使其他現(xiàn)代企業(yè)管理者能夠及時準確的搜集到超多的數(shù)據(jù)。訪問客戶帶給更多更優(yōu)質(zhì)的服務,成為電子商務成敗的關鍵因素,因而受到現(xiàn)代電子商務經(jīng)營者的高度關注,這也對計算機web數(shù)據(jù)技術提出了新的要求,Web數(shù)據(jù)挖掘技術應運而生。它是一種能夠從網(wǎng)上獲取超多數(shù)據(jù),并能有效地提取有用信息供企業(yè)決策者分析參考,以便科學合理制定和調(diào)整營銷策略,為客戶帶給動態(tài)、個性化、高效率服務的全新技術。目前,它已成為電子商務活動中不可或缺的重要載體。

  2計算機web數(shù)據(jù)挖掘概述

  2.1計算機web數(shù)據(jù)挖掘的由來

  計算機Web數(shù)據(jù)挖掘是一個在Web資源上將對自己有用的數(shù)據(jù)信息進行篩選的過程。Web數(shù)據(jù)挖掘是把傳統(tǒng)的數(shù)據(jù)挖掘思想和方法移植到Web應用中,即從現(xiàn)有的Web文檔和活動中挑選自己感興趣且有用的模式或者隱藏的數(shù)據(jù)信息。計算機Web數(shù)據(jù)挖掘能夠在多領域中展示其作用,目前已被廣泛應用于數(shù)據(jù)庫技術、信息獲取技術、統(tǒng)計學、人工智能中的機器學習和神經(jīng)網(wǎng)絡等多個方面,其中對商務活動的變革起到重大的推動作用方面最為明顯。

  2.2計算機Web數(shù)據(jù)挖掘含義及特征

  (1)Web數(shù)據(jù)挖掘的含義。

  Web數(shù)據(jù)挖掘是指數(shù)據(jù)挖掘技術在Web環(huán)境下的應用,是一項數(shù)據(jù)挖掘技術與WWW技術相結合產(chǎn)生的新技術,綜合運用到了計算機語言、Internet、人工智能、統(tǒng)計學、信息學等多個領域的技術。具體說,就是透過充分利用網(wǎng)絡(Internet),挖掘用戶訪問日志文件、商品信息、搜索信息、購銷信息以及網(wǎng)絡用戶登記信息等資料,從中找出隱性的、潛在有用的和有價值的信息,最后再用于企業(yè)管理和商業(yè)決策。

  (2)Web數(shù)據(jù)挖掘的特點。

  計算機Web數(shù)據(jù)挖掘技術具有以下特點:一是用戶不用帶給主觀的評價信息;二是用戶“訪問模式動態(tài)獲取”不會過時;三是能夠處理大規(guī)模的數(shù)據(jù)量,并且使用方便;四是與傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫相比,Web是一個巨大、分布廣泛、全球性的信息服務中心。

  (3)計算機web數(shù)據(jù)挖掘技術的類別。

  web數(shù)據(jù)挖掘技術共有三類:第一類是Web使用記錄挖掘。就是透過網(wǎng)絡對Web日志記錄進行挖掘,查找用戶訪問Web頁面的模式及潛在客戶等信息,以此提高其站點所有服務的競爭力。第二類是Web資料挖掘。既是指從Web文檔中抽取知識的過程。第三類是Web結構挖掘。就是透過對Web上超多文檔集合的資料進行小結、聚類、關聯(lián)分析的方式,從Web文檔的組織結構和鏈接關系中預測相關信息和知識。

  3計算機web數(shù)據(jù)挖掘技術與電子商務的關系

  借助計算機技術和網(wǎng)絡技術的日臻成熟,電子商務正以其快速、便捷的特點受到越來越多的企業(yè)和個人的關注。隨著電子商務企業(yè)業(yè)務規(guī)模的不斷擴大,電子商務企業(yè)的商品和客戶數(shù)量也隨之迅速增加,電子商務企業(yè)以此獲得了超多的數(shù)據(jù),這些數(shù)據(jù)正成為了電子商務企業(yè)客戶管理和銷售管理的重要信息。為了更好地開發(fā)和利用這些數(shù)據(jù)資源,以便給企業(yè)和客戶帶來更多的便利和實惠,各種數(shù)據(jù)挖掘技術也逐漸被應用到電子商務網(wǎng)站中。目前,基于數(shù)據(jù)挖掘(個性是web數(shù)據(jù)挖掘)技術構建的電子商務推薦系統(tǒng)正成為電子商務推薦系統(tǒng)發(fā)展的一種趨勢。

  4計算機web數(shù)據(jù)挖掘在電子商務中的具體應用

  (1)電子商務中的web數(shù)據(jù)挖掘的過程。

  在電子商務中,web數(shù)據(jù)挖掘的過程主要有以下三個階段:既是數(shù)據(jù)準備階段、數(shù)據(jù)挖掘操作階段、結果表達和解釋階段。如果在結果表達階段中,分析結果不能讓電子商務企業(yè)的決策者滿意,就需要重復上述過程,直到滿意為止。

  (2)Web數(shù)據(jù)挖掘技術在電子商務中的應用。

  目前,電子商務在企業(yè)中得到廣泛應用,極大地促進了電子商務網(wǎng)站的興起,經(jīng)過分析必須時期內(nèi)站點上的用戶的訪問信息,便可發(fā)現(xiàn)該商務站點上潛在的客戶群體、相關頁面、聚類客戶等數(shù)據(jù)信息,企業(yè)信息系統(tǒng)因此會獲得超多的數(shù)據(jù),如此多的數(shù)據(jù)使Web數(shù)據(jù)挖掘有了豐富的數(shù)據(jù)基礎,使它在各種商業(yè)領域有著更加重要的實用價值。因而,電子商務必將是未來Web數(shù)據(jù)挖掘的主攻方向。Web數(shù)據(jù)挖掘技術在電子商務中的應用主要包含以下幾方面:

  一是尋找潛在客戶。電子商務活動中,企業(yè)的銷售商能夠利用分類技術在Internet上找到潛在客戶,透過挖掘Web日志記錄等信息資源,對訪問者進行分類,尋找訪問客戶共同的特征和規(guī)律,然后從已經(jīng)存在的分類中找到潛在的客戶。

  二是留住訪問客戶。電子商務企業(yè)透過商務網(wǎng)站能夠充分挖掘客戶瀏覽訪問時留下的信息,了解客戶的瀏覽行為,然后根據(jù)客戶不同的愛好和要求,及時做出讓訪問客戶滿意的頁面推薦和專屬性產(chǎn)品,以此來不斷提高網(wǎng)站訪問的滿意度,最大限度延長客戶駐留的時間,實現(xiàn)留住老客戶發(fā)掘新客戶的目的。

  三是帶給營銷策略參考。透過Web數(shù)據(jù)挖掘,電子商務企業(yè)銷售商能夠透過挖掘商品訪問狀況和銷售狀況,同時結合市場的變化狀況,透過聚類分析的方法,推導出客戶訪問的規(guī)律,不同的消費需求以及消費產(chǎn)品的生命周期等狀況,為決策帶給及時而準確的信息參考,以便決策者能夠適時做出商品銷售策略調(diào)整,優(yōu)化商品營銷。

  四是完善商務網(wǎng)站設計。電子商務網(wǎng)站站點設計者能夠利用關聯(lián)規(guī)則,來了解客戶的行為記錄和反饋狀況,并以此作為改善網(wǎng)站的依據(jù),不斷對網(wǎng)站的組織結構進行優(yōu)化來方便客戶訪問,不斷提高網(wǎng)站的點擊率。

  5結語

  本文對Web挖掘技術進行了綜述,講述了其在電子商務中廣泛應用。能夠看出,隨著計算機技術和數(shù)據(jù)庫技術快速發(fā)展,計算機Web數(shù)據(jù)技術的應用將更加廣泛,Web數(shù)據(jù)挖掘也將成為十分重要的研究領域,研究前景巨大、好處深遠。目前,我國的Web數(shù)據(jù)應用還處于探索和起步階段,還有許多問題值得深入研究。

  數(shù)據(jù)挖掘論文(九):

  題目:軟件工程數(shù)據(jù)挖掘研究進展

  摘要:數(shù)據(jù)挖掘是指在大數(shù)據(jù)中開發(fā)出有價值信息數(shù)據(jù)的過程。計算機技術的不斷進步,透過人工的方式進行軟件的開發(fā)與維護難度較大。而數(shù)據(jù)挖掘能夠有效的提升軟件開發(fā)的效率,并能夠在超多的數(shù)據(jù)中獲得有效的數(shù)據(jù)。文章主要探究軟件工程中數(shù)據(jù)挖掘技術的任務和存在的問題,并重點論述軟件開發(fā)過程中出現(xiàn)的問題和相關的解決措施。

  關鍵詞:軟件工程;數(shù)據(jù)挖掘;解決措施;

  在軟件開發(fā)過程中,為了能夠獲得更加準確的數(shù)據(jù)資源,軟件的研發(fā)人員就需要搜集和整理數(shù)據(jù)。但是在大數(shù)據(jù)時代,人工獲取數(shù)據(jù)信息的難度極大。當前,軟件工程中運用最多的就是數(shù)據(jù)挖掘技術。軟件挖掘技術是傳統(tǒng)數(shù)據(jù)挖掘技術在軟件工程方向的其中一部分。但是它具有自身的特征,體此刻以下三個方面:

  (1)在軟件工程中,對有效數(shù)據(jù)的挖掘和處理;

  (2)挖掘數(shù)據(jù)算法的選取問題;

  (3)軟件的開發(fā)者該如何選取數(shù)據(jù)。

  1在軟件工程中數(shù)據(jù)挖掘的主要任務

  在數(shù)據(jù)挖掘技術中,軟件工程數(shù)據(jù)挖掘是其中之一,其挖掘的過程與傳統(tǒng)數(shù)據(jù)的挖掘無異。通常包括三個階段:第一階段,數(shù)據(jù)的預處理;第二階段,數(shù)據(jù)的挖掘;第三階段,對結果的評估。第一階段的主要任務有對數(shù)據(jù)的分類、對異常數(shù)據(jù)的檢測以及整理和提取復雜信息等。雖然軟件工程的數(shù)據(jù)挖掘和傳統(tǒng)的數(shù)據(jù)挖掘存在相似性,但是也存在必須的差異,其主要體此刻以下三個方面:

  1.1軟件工程的數(shù)據(jù)更加復雜

  軟件工程數(shù)據(jù)主要包括兩種,一種是軟件報告,另外一種是軟件的版本信息。當然還包括一些軟件代碼和注釋在內(nèi)的非結構化數(shù)據(jù)信息。這兩種軟件工程數(shù)據(jù)的算法是不同的,但是兩者之間又有必須的聯(lián)系,這也是軟件工程數(shù)據(jù)挖掘復雜性的重要原因。

  1.2數(shù)據(jù)分析結果的表現(xiàn)更加特殊

  傳統(tǒng)的數(shù)據(jù)挖掘結果能夠透過很多種結果展示出來,最常見的有報表和文字的方式。但是對于軟件工程的數(shù)據(jù)挖掘來講,它最主要的職能是給軟件的研發(fā)人員帶給更加精準的案例,軟件漏洞的實際定位以及設計構造方面的信息,同時也包括數(shù)據(jù)挖掘的統(tǒng)計結果。所以這就要求軟件工程的數(shù)據(jù)挖掘需要更加先進的結果提交方式和途徑。

  1.3對數(shù)據(jù)挖掘結果難以達成一致的評價

  我國傳統(tǒng)的數(shù)據(jù)挖掘已經(jīng)初步構成統(tǒng)一的評價標準,而且評價體系相對成熟。但是軟件工程的數(shù)據(jù)挖掘過程中,研發(fā)人員需要更多復雜而又具體的數(shù)據(jù)信息,所以數(shù)據(jù)的表示方法也相對多樣化,數(shù)據(jù)之間難以進行比較,所以也就難以達成一致的評價標準和結果。不難看出,軟件工程數(shù)據(jù)挖掘的關鍵在于對挖掘數(shù)據(jù)的預處理和對數(shù)據(jù)結果的表示方法。

  2軟件工程研發(fā)階段出現(xiàn)的問題和解決措施

  軟件在研發(fā)階段主要的任務是對軟件運行程序的編寫。以下是軟件在編碼和結果的提交過程中出現(xiàn)的問題和相應的解決措施。

  2.1對軟件代碼的編寫過程

  該過程需要軟件的研發(fā)人員能夠?qū)ψ约盒枰帉懙拇a結構與功能有充分的了解和認識。并能夠依據(jù)自身掌握的信息,在數(shù)據(jù)庫中搜集到能夠使用的數(shù)據(jù)信息。通常狀況下,編程需要的數(shù)據(jù)信息能夠分為三個方面:

  (1)軟件的研發(fā)人員能夠在已經(jīng)存在的代碼中搜集能夠重新使用的代碼;

  (2)軟件的研發(fā)人員能夠搜尋能夠重用的靜態(tài)規(guī)則,比如繼承關系等。

  (3)軟件的開發(fā)人員搜尋能夠重用的動態(tài)規(guī)則。

  包括軟件的接口調(diào)用順序等。在尋找以上信息的過程中,通常是利用軟件的幫忙文檔、尋求外界幫忙和搜集代碼的方式實現(xiàn),但是以上方式在搜集信息過程中往往會遇到較多的問題,比如:幫忙文檔的準確性較低,同時不夠完整,可利用的重用信息不多等。

  2.2對軟件代碼的重用

  在對軟件代碼重用過程中,最關鍵的問題是軟件的研發(fā)人員務必掌握需要的類或方法,并能夠透過與之有聯(lián)系的代碼實現(xiàn)代碼的重用。但是這種方式哦足跡信息將會耗費工作人員超多的精力。而透過關鍵詞在代碼庫中搜集可重用的軟件代碼,同時按照代碼的相關度對搜集到的代碼進行排序,該過程使用的原理就是可重用的代碼必然模式基本類似,最終所展現(xiàn)出來的搜索結果是以上下文結構的方式展現(xiàn)的。比如:類與類之間的聯(lián)系。其實現(xiàn)的具體流程如下:

  (1)軟件的開發(fā)人員建立同時具備例程和上下文架構的代碼庫;

  (2)軟件的研發(fā)人員能夠向代碼庫帶給類的相關信息,然后對反饋的結果進行評估,建立新型的代碼庫。

  (3)未來的研發(fā)人員在搜集過程中能夠按照評估結果的高低排序,便于查詢,極大地縮減工作人員的任務量,提升其工作效率。

  2.3對動態(tài)規(guī)則的重用

  軟件工程領域內(nèi)對動態(tài)規(guī)則重用的研究已經(jīng)相對成熟,透過在編譯器內(nèi)安裝特定插件的方式檢驗代碼是否為動態(tài)規(guī)則最適用的,并能夠?qū)⒉贿m合的規(guī)則反饋給軟件的研發(fā)人員。其操作流程為:

  (1)軟件的研發(fā)人員能夠規(guī)定動態(tài)規(guī)則的順序,主要表此刻:使用某一函數(shù)是不能夠調(diào)用其他的函數(shù)。

  (2)實現(xiàn)對相關數(shù)據(jù)的保存,能夠透過隊列等簡單的數(shù)據(jù)結構完成。在利用編譯拓展中檢測其中的順序。

  (3)能夠?qū)㈠e誤的信息反饋給軟件的研發(fā)人員。

  3結束語

  在軟件工程的數(shù)據(jù)挖掘過程中,數(shù)據(jù)挖掘的概念才逐步被定義,但是所需要挖掘的數(shù)據(jù)是已經(jīng)存在的。數(shù)據(jù)挖掘技術在軟件工程中的運用能夠降低研發(fā)人員的工作量,同時軟件工程與數(shù)據(jù)挖掘的結合是計算機技術必然的發(fā)展方向。從數(shù)據(jù)挖掘的過程來講,在其整個實施過程和周期中都包括軟件工程。而對數(shù)據(jù)挖掘的技術手段來講,它在軟件工程中的運用更加普遍。在對數(shù)據(jù)挖掘技術的研究過程中能夠發(fā)現(xiàn),該技術雖然已經(jīng)獲得必須的效果,但是還有更多未被挖掘的空間,還需要進一步的研究和發(fā)現(xiàn)。

  參考文獻

  [1]王藝蓉.試析面向軟件工程數(shù)據(jù)挖掘的開發(fā)測試技術[J].電子技術與軟件工程,2017(18):64.

  [2]吳彥博.軟件工程中數(shù)據(jù)挖掘技術的運用探索[J].數(shù)字通信世界,2017(09):187.

  [3]周雨辰.數(shù)據(jù)挖掘技術在軟件工程中的應用研究[J].電腦迷,2017(08):27-28.

  [4]劉桂林.分析軟件工程中數(shù)據(jù)挖掘技術的應用方式[J].中國新通信,2017,19(13):119.

  數(shù)據(jù)挖掘論文(十):

  數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)的應用

  摘要:電力調(diào)度自動化系統(tǒng)主要是被應用在線調(diào)度生產(chǎn)運行中,能夠?qū)?shù)據(jù)信息進行分析、控制、傳輸。數(shù)據(jù)挖掘技術作為一種人工智能和數(shù)據(jù)庫技術結合的新型技術形式,將其應用到電力調(diào)度自動化系統(tǒng)中能夠有效解決電力調(diào)動自動化系統(tǒng)數(shù)據(jù)信息應用不合理的問題。文章在闡述數(shù)據(jù)挖掘和電力調(diào)度自動化系統(tǒng)內(nèi)涵的基礎上,結合蟻群算法改善原有周期性數(shù)據(jù)挖掘方法,旨在進一步提升電力調(diào)度自動化系統(tǒng)運行速度,為相關人員的報表制定、事故預警帶給幫忙。

  關鍵詞:數(shù)據(jù)挖掘;電力調(diào)度自動化系統(tǒng);應用

  在大數(shù)據(jù)技術的不斷發(fā)展下,人們對數(shù)據(jù)信息的需求增加,但是現(xiàn)階段社會發(fā)展中缺乏對數(shù)據(jù)信息進行有效分析、處理的工具。數(shù)據(jù)庫系統(tǒng)也僅僅是對數(shù)據(jù)信息的簡單處理,無法充分挖掘數(shù)據(jù)信息背后的隱藏信息,因而無法發(fā)揮出數(shù)據(jù)信息在人類社會發(fā)展中的重要作用。電力調(diào)度自動化系統(tǒng)中包含超多電力數(shù)據(jù)信息,但是在實際應用中這些信息是很難被完全挖掘出來的。數(shù)據(jù)挖掘的出現(xiàn)有效解決了信息無法充分挖掘的問題,能夠?qū)崿F(xiàn)對噪聲數(shù)據(jù)、不完全數(shù)據(jù)的有效處理。在數(shù)據(jù)挖掘中,關聯(lián)規(guī)則數(shù)據(jù)是數(shù)據(jù)挖掘的重要課題,透過關聯(lián)規(guī)則能夠發(fā)現(xiàn)不同數(shù)據(jù)庫數(shù)據(jù)信息之間的關聯(lián),為數(shù)據(jù)挖掘帶給有力支持。為此,文章重點分析基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)中的應用。

  1數(shù)據(jù)挖掘概述

  1.1內(nèi)涵和分類

  在信息技術的發(fā)展下,我國數(shù)據(jù)庫庫存容量急劇擴張,在龐大的數(shù)據(jù)信息中怎樣獲取有效的數(shù)據(jù)信息成為相關人員重點思考的問題。數(shù)據(jù)挖掘能夠從技術層面來分析、處理這些數(shù)據(jù)信息,透過各種分析工具的利用來找到數(shù)據(jù)信息和模型構建之間的關聯(lián),為相關領域的發(fā)展帶給重要決策支持。在信息挖掘技術的發(fā)展下,出現(xiàn)了不同類型的數(shù)據(jù)挖掘技術和方法。

  1.2關聯(lián)規(guī)則挖掘

  關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的重要分支,是常見的數(shù)據(jù)挖掘方法,主要是對超多數(shù)據(jù)之間關聯(lián)問題的發(fā)現(xiàn)和分析,在找到數(shù)據(jù)聯(lián)系之后決定哪些事件能夠一齊發(fā)生。數(shù)據(jù)庫中的關聯(lián)規(guī)則描述如下所示:假設I={i1、i2......im}是由m個不同項目組合構成的集合,項的集合是項集,包括k個項集,給定事務D(交易數(shù)據(jù)庫),事務(交易)T從屬于數(shù)據(jù)項(I),T是唯一的標示符。在X屬于T的時候,交易T則是包含項集X,關聯(lián)規(guī)則X=Y在交易數(shù)據(jù)庫中成立。

  2電力調(diào)度自動化系統(tǒng)概述

  2.1內(nèi)涵

  電力調(diào)度自動化系統(tǒng)能夠為電網(wǎng)系統(tǒng)安全、穩(wěn)定運行帶給重要支持,并為相關電力人員工作、決策帶給有力信息的支持。電力調(diào)度自動化系統(tǒng)的組成如下所示:第一,前置機。前置機能夠從RTU從完成數(shù)據(jù)信息的收集整理工作,并能夠結合實際對系統(tǒng)的指令進行接收、解釋。第二,主備用服務器。主備泳服務器包括數(shù)據(jù)庫和實時庫服務器,是電力調(diào)度系統(tǒng)的重要組成部件,能夠?qū)ο到y(tǒng)各個工作站的運行進行監(jiān)督。第三,網(wǎng)絡服務器。網(wǎng)絡服務器主要是對數(shù)據(jù)信息分布和數(shù)據(jù)表整理工作的監(jiān)督。第四,衛(wèi)星鐘。衛(wèi)星鐘系統(tǒng)將全球定位時間作為系統(tǒng)時間。第五,物理隔離開關。物理隔離開關能夠解決數(shù)據(jù)的隔離應用問題。

  2.2電力調(diào)度自動化系統(tǒng)對數(shù)據(jù)挖掘技術的需求

  電力導調(diào)度自動化系統(tǒng)對數(shù)據(jù)挖掘技術的需求具體表此刻以下幾個方面:第一,透過數(shù)據(jù)挖掘技術減少電力調(diào)度自動化系統(tǒng)的工作時間,提高工作效率。第二,數(shù)據(jù)挖掘能夠提高數(shù)據(jù)挖掘技術的管理應用水平,減少外界因素對電力調(diào)度自動化的干擾。第三,能夠從不同角度對數(shù)據(jù)信息進行定量、定性分析。第四,為電網(wǎng)報告的分析和制定帶給輔助支持。第五,實現(xiàn)了對數(shù)據(jù)信息的及時查詢,為電力調(diào)度自動化工作帶給了支持。

  3基于蟻群算法的周期性關聯(lián)規(guī)則數(shù)據(jù)挖掘

  3.1周期關聯(lián)規(guī)則

  周期性關聯(lián)規(guī)則挖掘是時態(tài)約束關聯(lián)規(guī)則的一種,適用于對周期性關聯(lián)的發(fā)現(xiàn)層面,比如每年夏季城市居民用電量的均值比其他季節(jié)高,城市居民周末用電量平均值比其他周末時間高等。

  3.2蟻群算法

  螞蟻的群體行為表現(xiàn)出一種信息正反饋現(xiàn)象,蟻群算法由轉移規(guī)則和信息素更新規(guī)則組成,具體能夠描述成:假設平面上有n個城市,n個城市的TSP問題來找到n個城市的最短路徑。假設蟻群系統(tǒng)中螞蟻的數(shù)量是m、d(i,j=1,2,…,n),代表的是城市i到城市j之間的距離,b(t)表示t時刻位于城市i的螞蟻個數(shù)。在初始階段,各個線路上的信息量是對等的,假設τij(0)=c,螞蟻k在運動的過程中根據(jù)信息量來選取下一步所走的方向,t時刻螞蟻k由城市i轉移到城市j的概率表示如(1)所示。

  3.3基于蟻群算法的周期性關聯(lián)規(guī)則

  假設T1、T2,Tmin為系統(tǒng)時間定義單位組成的時間表達式,都比零大,假設T1<T2,差的絕對值比極小時間值的小,稱作T1在T2之前發(fā)生。如果T1=T2,差的絕對值和極小時間值相等,則是說明T1和T2同時發(fā)生。假設T1,T2是系統(tǒng)時間定義單位組成的時間表達式,都比零大,int=[T1、T2]是T1到T2的時間隔。基于蟻群算法的周期性關聯(lián)規(guī)則操作首先需要對數(shù)據(jù)集進行分類整理,在時間差表滿足數(shù)據(jù)庫要求的狀況下將數(shù)據(jù)集按照時間分成多個分塊,并按照時態(tài)屬性進行升序排列,結合每個類別進行周期性關聯(lián)規(guī)則挖掘,構成多個數(shù)據(jù)集。其次,對各個分類數(shù)據(jù)集進行周期性數(shù)據(jù)挖掘分析、改善。最后,對周期性數(shù)據(jù)集挖掘的改善。對數(shù)據(jù)信息進行排列整理,如果兩個周期性序列相交,以周期小的為主,在數(shù)據(jù)的時間跨度內(nèi)對數(shù)據(jù)的子集進行截取。

  4數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)中的應用

  4.1基于周期性關聯(lián)規(guī)則挖掘的數(shù)據(jù)分析系統(tǒng)平臺

  在社會經(jīng)濟的發(fā)展下,電力調(diào)度自動化系統(tǒng)從原先的實時性監(jiān)控報表查詢系統(tǒng)轉變?yōu)橹悄苷{(diào)度自動化系統(tǒng),高級應用軟件的應用促進了電力調(diào)度系統(tǒng)朝著智能化的方向發(fā)展。基于周期性關聯(lián)規(guī)則挖掘的數(shù)據(jù)分析系統(tǒng)平臺選取微軟的平臺,在該平臺的支持下為電力調(diào)度系統(tǒng)運行帶給了豐富數(shù)據(jù)資源的支持,且具備強大的數(shù)據(jù)庫訪問潛力。

  4.2基于數(shù)據(jù)橋的數(shù)據(jù)集成模塊設計

  在電力調(diào)度自動化系統(tǒng)的應用中存在多個標準,這些標準對分布式電力系統(tǒng)發(fā)展起到了重要作用,但是在各個數(shù)據(jù)集成規(guī)約不同的影響下,電力企業(yè)發(fā)展容易出現(xiàn)信息混亂的現(xiàn)象。為了避免這種現(xiàn)象的發(fā)生,在數(shù)據(jù)集成模塊中需要進行數(shù)據(jù)清洗操作。

  4.3數(shù)據(jù)分析功能模塊設計

  第一,同期數(shù)據(jù)分析模塊。同期數(shù)據(jù)分析模塊一般被人們用在調(diào)度自動化數(shù)據(jù)系統(tǒng)的橫縱向比較,透過對同期數(shù)據(jù)的比對分析能夠為電力調(diào)度系統(tǒng)數(shù)據(jù)評估帶給更多便利。同期比較分析模塊應用了動態(tài)生成查詢語句,能夠?qū)?shù)據(jù)信息進行動態(tài)化的查詢和分析整理。第二,周期性數(shù)據(jù)分析。周期性數(shù)據(jù)分析主要是在數(shù)據(jù)庫系統(tǒng)中挖掘具有周期性特點的數(shù)據(jù)集,從而對數(shù)據(jù)波動狀況進行清晰的反應。在周期性數(shù)據(jù)分析模塊挖掘算法中存在一個最小時間的誤差參數(shù),這參數(shù)是周期數(shù)據(jù)集的基礎數(shù)據(jù),影響周期性數(shù)據(jù)分析的精確度。第三,數(shù)據(jù)預警分析。數(shù)據(jù)預警主要是結合現(xiàn)有的調(diào)度自動化系統(tǒng)報警信息和數(shù)據(jù)挖掘周期數(shù)據(jù)集來對關聯(lián)數(shù)據(jù)進行分析,數(shù)據(jù)分析系統(tǒng)采取了有限權值分配的方法,預警列表按照預警信息的大小進行有序排列,具體包含報警周期性數(shù)據(jù)集、預警信息周期性數(shù)據(jù)集大小、預警模式等資料。

  5結束語

  綜上所述,文章在闡述數(shù)據(jù)挖掘內(nèi)涵和電力調(diào)度自動化系統(tǒng)內(nèi)涵的基礎上研究了周期性關聯(lián)規(guī)則的數(shù)據(jù)挖掘算法知識,并將其應用到電力調(diào)度自動化系統(tǒng)中,取得了良好的效果。周期性關聯(lián)規(guī)則算法是數(shù)據(jù)挖掘技術的主流發(fā)展方向,在從歷史數(shù)據(jù)中尋找規(guī)律的同時能夠為電力調(diào)度自動化系統(tǒng)運行帶給支持,需要引起相關人員的重視。

  參考文獻:

  [1]肖福明.淺析數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)中的應用[J].通訊世界,2014(17):58-59.

  [2]李陽.數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)中的應用[D].華北電力大學(河北),2009.

  [3]朱維佳,曹堅.電力調(diào)度自動化系統(tǒng)中數(shù)據(jù)挖掘技術的應用[J].電氣時代,2015(07):108-111.

  [4]于存水.基于智能電網(wǎng)調(diào)度系統(tǒng)的調(diào)度監(jiān)控平臺的設計與實現(xiàn)[D].吉林大學,2013.

  [5]李艷.關于數(shù)據(jù)挖掘中關聯(lián)規(guī)則算法的相關問題研究[J].科技創(chuàng)新與應用,2017(33):161+163.

【數(shù)據(jù)挖掘論文】相關文章:

數(shù)據(jù)挖掘工程師崗位職責02-11

數(shù)據(jù)挖掘工程師的崗位職責02-23

數(shù)據(jù)挖掘工程師崗位職責04-08

數(shù)據(jù)挖掘工程師工作的崗位職責03-15

數(shù)據(jù)挖掘工程師崗位職責15篇06-04

數(shù)據(jù)挖掘工程師崗位職責(15篇)06-04

數(shù)據(jù)挖掘工程師的崗位職責15篇02-23

數(shù)據(jù)挖掘工程師崗位職責(精選23篇)03-23

數(shù)據(jù)挖掘工程師崗位職責合集15篇06-04

久久一级2021视频,久久人成免费视频,欧美国产亚洲卡通综合,久久综合亚洲一区二区三区色
在线观看黄a∨免费无毒网站 | 中文字幕乱码一区二区免费 | 最新亚洲中文字幕乱码 | 亚洲一区二区经典在线播放 | 亚洲一区二区三区下卡精品 | 亚洲午夜国产精品福利 |