1.墓于粗糙集( Rough Set)理論的約簡方法
粗糙集理論是一種研究不精確、不確定性知識的數學工具。目前受到了KDD的廣泛重視,利用粗糙集理論對數據進行處理是一種十分有效的精簡數據維數的方法。我們所處理的數據一般存在信息的含糊性(Vagueness)問題。含糊性有三種:術語的模糊性,如高矮;數據的不確定性,如噪聲引起的;知識自身的不確定性,如規(guī)則的前后件間的依賴關系并不是完全可靠的。在KDD中,對不確定數據和噪聲干擾的處理是粗糙集方法的
2.基于概念樹的數據濃縮方法
在數據庫中,許多屬性都是可以進行數據歸類,各屬性值和概念依據抽象程度不同可以構成一個層次結構,概念的這種層次結構通常稱為概念樹。概念樹一般由領域專家提供,它將各個層次的概念按一般到特殊的順序排列。
3.信息論思想和普化知識發(fā)現(xiàn)
特征知識和分類知識是普化知識的兩種主要形式,其算法基本上可以分為兩類:數據立方方法和面向屬性歸納方法。
普通的基于面向屬性歸納方法在歸納屬性的選擇上有一定的盲目性,在歸納過程中,當供選擇的可歸納屬性有多個時,通常是隨機選取一個進行歸納。事實上,不同的屬性歸納次序獲得的結果知識可能是不同的,根據信息論最大墑的概念,應該選用一個信息丟失最小的歸納次序。
4.基于統(tǒng)計分析的屬性選取方法
我們可以采用統(tǒng)計分析中的一些算法來進行特征屬性的選取,比如主成分分析、逐步回歸分析、公共因素模型分析等。這些方法的共同特征是,用少量的特征元組去描述高維的原始知識基。
5.遺傳算法〔GA, Genetic Algo}thrn})
遺傳算法是一種基于生物進化論和分子遺傳學的全局隨機搜索算法。遺傳算法的基本思想是:將問題的可能解按某種形式進行編碼,形成染色體。隨機選取N個染色體構成初始種群。再根據預定的評價函數對每個染色體計算適應值。選擇適應值高的染色體進行復制,通過遺傳運算(選擇、交叉、變異)來產生一群新的更適應環(huán)境的染色體,形成新的種群。這樣一代一代不斷繁殖進化,最后收斂到一個最適合環(huán)境的個體上,從而求得問題的最優(yōu)解。遺傳算法應用的關鍵是適應度函數的建立和染色體的描述。在實際應用中,通常將它和神經網絡方法綜合使用。通過遺傳算法來搜尋出更重要的變量組合。
數據預處理(datapreprocessing)是指在主要的處理以前對數據進行的一些處理。如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前,首先將不規(guī)則分布的測網經過插值轉換為規(guī)則網的處理,以利于計算機的運算。另外,對于一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數據預處理的方法:
1、數據清理
數據清理例程通過填寫缺失的值、光滑噪聲數據、識別或刪除離群點并解決不一致性來“清理”數據。主要是達到如下目標:格式標準化,異常數據清除,錯誤糾正,重復數據的清除。
2、數據集成
數據集成例程將多個數據源中的數據結合起來并 統(tǒng)一存儲,建立數據倉庫的過程實際上就是數據集成。
3、數據變換
通過平滑聚集,數據概化,規(guī)范化等方式將數據轉換成適用于數據挖掘的形式。
4、數據歸約
數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍然接近于保持原數據的完整性,并結果與歸約前結果相同或幾乎相同。
1)數據清理
數據清理例程就是通過填寫缺失值、光滑噪聲數據、識別或者刪除離群點,并且解決不一致性來進行“清理數據”。
2)數據集成
數據集成過程將來自多個數據源的數據集成到一起。
3)數據規(guī)約
數據規(guī)約是為了得到數據集的簡化表示。數據規(guī)約包括維規(guī)約和數值規(guī)約。
4)數據變換
通過變換使用規(guī)范化、數據離散化和概念分層等方法,使得數據的挖掘可以在多個抽象層面上進行。數據變換操作是提升數據挖掘效果的附加預處理過程。
數據預處理(datapreprocessing)是指在主要的處理以前對數據進行的一些處理。
如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前,首先將不規(guī)則分布的測網經過插值轉換為規(guī)則網的處理,以利于計算機的運算。另外,對于一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數據預處理的方法:1、數據清理數據清理例程通過填寫缺失的值、光滑噪聲數據、識別或刪除離群點并解決不一致性來“清理”數據。主要是達到如下目標:格式標準化,異常數據清除,錯誤糾正,重復數據的清除。
2、數據集成數據集成例程將多個數據源中的數據結合起來并 統(tǒng)一存儲,建立數據倉庫的過程實際上就是數據集成。3、數據變換通過平滑聚集,數據概化,規(guī)范化等方式將數據轉換成適用于數據挖掘的形式。
4、數據歸約數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍然接近于保持原數據的完整性,并結果與歸約前結果相同或幾乎相同。
一、數據挖掘工具分類數據挖掘工具根據其適用的范圍分為兩類:專用挖掘工具和通用挖掘工具。
專用數據挖掘工具是針對某個特定領域的問題提供解決方案,在涉及算法的時候充分考慮了數據、需求的特殊性,并作了優(yōu)化。對任何領域,都可以開發(fā)特定的數據挖掘工具。
例如,IBM公司的AdvancedScout系統(tǒng)針對NBA的數據,幫助教練優(yōu)化戰(zhàn)術組合。特定領域的數據挖掘工具針對性比較強,只能用于一種應用;也正因為針對性強,往往采用特殊的算法,可以處理特殊的數據,實現(xiàn)特殊的目的,發(fā)現(xiàn)的知識可靠度也比較高。
通用數據挖掘工具不區(qū)分具體數據的含義,采用通用的挖掘算法,處理常見的數據類型。通用的數據挖掘工具不區(qū)分具體數據的含義,采用通用的挖掘算法,處理常見的數據類型。
例如,IBM公司Almaden研究中心開發(fā)的QUEST系統(tǒng),SGI公司開發(fā)的MineSet系統(tǒng),加拿大SimonFraser大學開發(fā)的DBMiner系統(tǒng)。通用的數據挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據自己的應用來選擇。
二、數據挖掘工具選擇需要考慮的問題數據挖掘是一個過程,只有將數據挖掘工具提供的技術和實施經驗與企業(yè)的業(yè)務邏輯和需求緊密結合,并在實施的過程中不斷的磨合,才能取得成功,因此我們在選擇數據挖掘工具的時候,要全面考慮多方面的因素,主要包括以下幾點:(1)可產生的模式種類的數量:分類,聚類,關聯(lián)等(2)解決復雜問題的能力(3)操作性能(4)數據存取能力(5)和其他產品的接口三、數據挖掘工具介紹:1.QUESTQUEST是IBM公司Almaden研究中心開發(fā)的一個多任務數據挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應用開發(fā)提供高效的數據開采基本構件。系統(tǒng)具有如下特點:提供了專門在大型數據庫上進行各種開采的功能:關聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時間序列聚類、決策樹分類、遞增式主動開采等。
各種開采算法具有近似線性計算復雜度,可適用于任意大小的數據庫。算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。
為各種發(fā)現(xiàn)功能設計了相應的并行算法。2.MineSetMineSet是由SGI公司和美國Standford大學聯(lián)合開發(fā)的多任務數據挖掘系統(tǒng)。
MineSet集成多種數據挖掘算法和可視化工具,幫助用戶直觀地、實時地發(fā)掘、理解大量數據背后的知識。MineSet有如下特點:MineSet以先進的可視化顯示方法聞名于世。
支持多種關系數據庫??梢灾苯訌腛racle、Informix、Sybase的表讀取數據,也可以通過SQL命令執(zhí)行查詢。
多種數據轉換功能。在進行挖掘前,MineSet可以去除不必要的數據項,統(tǒng)計、集合、分組數據,轉換數據類型,構造表達式由已有數據項生成新的數據項,對數據采樣等。
操作簡單、支持國際字符、可以直接發(fā)布到Web。3.DBMinerDBMiner是加拿大SimonFraser大學開發(fā)的一個多任務數據挖掘系統(tǒng),它的前身是DBLearn。
該系統(tǒng)設計的目的是把關系數據庫和數據開采集成在一起,以面向屬性的多級概念為基礎發(fā)現(xiàn)各種知識。DBMiner系統(tǒng)具有如下特色:能完成多種知識的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關聯(lián)規(guī)則、分類規(guī)則、演化知識、偏離知識等。
綜合了多種數據開采技術:面向屬性的歸納、統(tǒng)計分析、逐級深化發(fā)現(xiàn)多級規(guī)則、元規(guī)則引導發(fā)現(xiàn)等方法。提出了一種交互式的類SQL語言——數據開采查詢語言DMQL。
能與關系數據庫平滑集成。實現(xiàn)了基于客戶/服務器體系結構的Unix和PC(Windows/NT)版本的系統(tǒng)。
4.IntelligentMiner由美國IBM公司開發(fā)的數據挖掘軟件IntelligentMiner是一種分別面向數據庫和文本信息進行數據挖掘的軟件系列,它包括和??梢酝诰虬跀祿臁祿}庫和數據中心中的隱含信息,幫助用戶利用傳統(tǒng)數據庫或普通文件中的結構化數據進行數據挖掘。
它已經成功應用于市場分析、詐騙行為監(jiān)測及客戶聯(lián)系管理等;允許企業(yè)從文本信息進行數據挖掘,文本數據源可以是文本文件、Web頁面、電子郵件、LotusNotes數據庫等等。5.SASEnterpriseMiner這是一種在我國的企業(yè)中得到采用的數據挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應用和鐵路部門在春運客運研究中的應用。
SASEnterpriseMiner是一種通用的數據挖掘工具,按照"抽樣--探索--轉換--建模--評估"的方法進行數據挖掘??梢耘cSAS數據倉庫和OLAP集成,實現(xiàn)從提出數據、抓住數據到得到解答的"端到端"知識發(fā)現(xiàn)。
6.是一個開放式數據挖掘工具,曾兩次獲得英國政府SMART創(chuàng)新獎,它不但支持整個數據挖掘流程,從數據獲取、轉化、建模、評估到最終部署的全部過程,還支持數據挖掘的行業(yè)標準--CRISP-DM。Clementine的可視化數據挖掘使得"思路"分析成為可能,即將集中精力在要解決的問題本身,而不是局限于完成一些技術性工作(比如編寫代碼)。
提供了多種圖形化技術,有助理解數據間的關鍵性聯(lián)系,指導用戶以最便捷的途徑找到問題的最終解決法。7.數據庫廠商集成的挖掘工具SQLServer2000包含由Microsoft研究院開發(fā)的兩種數據挖掘算法:。
在數據分析之前,我們通常需要先將數據標準化(normalization),利用標準化后的數據進行數據分析。數據標準化也就是統(tǒng)計數據的指數化。數據標準化處理主要包括數據同趨化處理和無量綱化處理兩個方面。
數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。
數據無量綱化處理主要解決數據的可比性。去除數據的單位限制,將其轉化為無量綱的純數值,便于不同單位或量級的指標能夠進行比較和加權。
數據標準化的方法有很多種,常用的有“最小—最大標準化”、“Z-score標準化”和“按小數定標標準化”等。經過上述標準化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處于同一個數量級別上,可以進行綜合測評分析。
一、Min-max 標準化
min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區(qū)間[0,1]中的值x',其公式為:
新數據=(原數據-極小值)/(極大值-極小值)
二、z-score 標準化
這種方法基于原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。將A的原始值x使用z-score標準化到x'。
z-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
新數據=(原數據-均值)/標準差
spss默認的標準化方法就是z-score標準化。
用Excel進行z-score標準化的方法:在Excel中沒有現(xiàn)成的函數,需要自己分步計算,其實標準化的公式很簡單。
步驟如下:
1.求出各變量(指標)的算術平均值(數學期望)xi和標準差si ;
2.進行標準化處理:
zij=(xij-xi)/si
其中:zij為標準化后的變量值;xij為實際變量值。
3.將逆指標前的正負號對調。
標準化后的變量值圍繞0上下波動,大于0說明高于平均水平,小于0說明低于平均水平。
三、Decimal scaling小數定標標準化
這種方法通過移動數據的小數點位置來進行標準化。小數點移動多少位取決于屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標準化到x'的計算方法是:
x'=x/(10*j)
其中,j是滿足條件的最小整數。
例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數定標標準化,我們用1000(即,j=3)除以每個值,這樣,-986被規(guī)范化為-0.986。
注意,標準化會對原始數據做出改變,因此需要保存所使用的標準化方法的參數,以便對后續(xù)的數據進行統(tǒng)一的標準化。
除了上面提到的數據標準化外還有對數Logistic模式、模糊量化模式等等:
對數Logistic模式:新數據=1/(1+e^(-原數據))
模糊量化模式:新數據=1/2+1/2sin[派3.1415/(極大值-極小值)*(X-(極大值-極小值)/2) ] X為原數據

                                聲明:本網站尊重并保護知識產權,根據《信息網絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內通知我們,我們會及時刪除。
 蜀ICP備2020033479號-4  Copyright ? 2016  學習鳥. 頁面生成時間:2.637秒