隨著數(shù)據(jù)量的高速增長,數(shù)據(jù)的內在價值日益受到關注。數(shù)據(jù)量激增已經(jīng)給各行各業(yè)帶來深刻影響。目前,網(wǎng)絡文本信息本質并沒有隨時代的變化而變化,但其符號、載體和記錄復制方式正在發(fā)生翻天覆地變化;電子形式或網(wǎng)絡空間中的文本信息正在向綜合化方向發(fā)展,數(shù)字化、多媒體、可視化等正在成為文本信息記錄、保存和傳播的發(fā)展方向。面對這種形勢,社會科學的研究方法、研究內容和學科疆界也在發(fā)生變化。在海量數(shù)據(jù)和信息面前,如果沒有數(shù)據(jù)管控,沒有數(shù)據(jù)和知識挖掘、發(fā)現(xiàn)、組織、導航、表達的科學化管理過程,數(shù)據(jù)分析人員就有可能迷失在數(shù)據(jù)和信息的汪洋大海中。
數(shù)據(jù)挖掘的應用領域涉及廣泛,主要包括數(shù)據(jù)庫系統(tǒng),基于知識的系統(tǒng),人工智能,機器學習,知識獲取,統(tǒng)計學,空間數(shù)據(jù)庫和數(shù)據(jù)可現(xiàn)化等領域。
(一)統(tǒng)計學
統(tǒng)計學在數(shù)據(jù)樣本選擇、數(shù)據(jù)預處理及評價抽取知識的步驟中有非常重要的作用。在數(shù)據(jù)預處理步驟中,統(tǒng)計學提出了估計噪聲參數(shù)過程中要用的平滑處理的技術,在一定程度上對補足丟失數(shù)據(jù)有相當?shù)淖饔。統(tǒng)計學對檢測數(shù)據(jù)分析、聚類和實驗數(shù)據(jù)參數(shù)設計上也有用。統(tǒng)計學的工作大多是針對技術和模型的理論方面。于是許多工作是著眼于線性模型、遞增的高斯噪聲模型、參數(shù)估計和嚴格分類參數(shù)模型上。
(二)模式識別
在模式識別工作中,傳統(tǒng)上是把注意力集中在符號形式化直接結合實際技術的工作過程中。模式識別主要用于分類技術和數(shù)據(jù)的聚類技術上。模式識別中的分類和含義分析是對數(shù)據(jù)挖掘概念形成的開端。多數(shù)模式識別的算法和方法對降維、變換和設置都有直接的參考意義。在數(shù)據(jù)挖掘的步驟中,模式識別比統(tǒng)計學更為重要,因為它強調了計算機算法、更加復雜的數(shù)據(jù)結構和更多的搜索。典型的數(shù)據(jù)分類是用一定的分類技術把數(shù)據(jù)從一個向量空間映射到另外一個向量空間。
(三)人工智能
人工智能對于數(shù)據(jù)挖掘來說原來一直是在符號的層次上處理數(shù)據(jù),而對于連續(xù)變量注意較少。在機器學習和基于案例的推理中,分類和聚類算法著重于啟發(fā)式搜索和非參數(shù)模型。對于其結果,并不象模式識別和統(tǒng)計學在數(shù)學上的精確和要求嚴格分析。隨著計算機學習理論的發(fā)展。人工智能把注意力集中在了表達廣義分類的模糊邊緣上。機器學習主要是對數(shù)據(jù)挖掘過程中的數(shù)據(jù)變量選擇處理極有幫助,在通過大量搜索表達式和選擇變量上有很大作用。人工智能的其他技術,包括知識獲取技術、知識搜索和知識表達在數(shù)據(jù)挖掘的數(shù)據(jù)變換、數(shù)據(jù)選擇、數(shù)據(jù)預處理等步驟中都有作用。
(四)數(shù)據(jù)庫
數(shù)據(jù)庫及其相關技術顯然與數(shù)據(jù)挖掘有直接的關系。數(shù)據(jù)庫是原始數(shù)據(jù)的處理、儲存和操作的基礎。隨著平行和分布式數(shù)據(jù)庫的使用,對數(shù)據(jù) |
 |
|