SQL Server 2005數據挖掘實(shí)例分析

-
【作 者】王欣 等編著(zhù)
【I S B N 】978-7-5084-5346-0
【責任編輯】宋俊娥
【適用讀者群】本科
【出版時(shí)間】2008-03-01
【開(kāi) 本】16開(kāi)本
【裝幀信息】平裝(光膜)
【版 次】2008年03月第1版
【頁(yè) 數】256
【千字數】
【印 張】
【定 價(jià)】¥28
【叢 書(shū)】21世紀高等院校計算機系列教材
【備注信息】
簡(jiǎn)介
本書(shū)特色
前言
章節列表
精彩閱讀
下載資源
相關(guān)圖書(shū)
數據挖掘的目的在于使用所發(fā)現的模式幫助解釋當前的行為或預測未來(lái)的結果。數據挖掘過(guò)程涉及下列7個(gè)研究方面:數據倉庫及OLAP技術(shù)、數據預處理、使用SQL Server Data Mining、關(guān)聯(lián)規則、分類(lèi)和預測、聚類(lèi)分析和時(shí)序和序列數據的挖掘。
本書(shū)對數據挖掘和知識發(fā)現的各個(gè)方面都進(jìn)行了必要的解說(shuō),側重于用SSAS進(jìn)行數據挖掘模型的建立、挖掘結果的分析與檢驗,以及解釋與驗證結果。本書(shū)對主要的挖掘技術(shù)提供了詳細的SQL Server2005數據挖掘的實(shí)例,讀者通過(guò)案例來(lái)實(shí)驗性地建立和檢驗數據挖掘模型。
本書(shū)適合希望學(xué)習SQL Server2005挖掘技術(shù)的讀者,可以作為數據挖掘工程師的參考用書(shū)。本書(shū)適合作為高校教學(xué)數據挖掘的教程,也是公司培訓不可多得的參考用書(shū)。
隨著(zhù)計算機技術(shù),特別是數據庫技術(shù)的快速發(fā)展和廣泛應用,各行各業(yè)積累的數據量越來(lái)越大,傳統的數據處理方式已經(jīng)很難充分利用蘊藏在這些數據中的有用知識,于是數據挖掘技術(shù)應運而生。
數據挖掘(Data Mining)又稱(chēng)為數據庫中的知識發(fā)現,可以把數據轉化為有用的信息以幫助制定決策,從而在市場(chǎng)競爭中獲得優(yōu)勢地位。數據挖掘是一個(gè)過(guò)程——一個(gè)不斷把商業(yè)經(jīng)驗和知識與數據相結合的過(guò)程。數據挖掘的目標是找到能夠幫助他們做出對其成功至關(guān)重要的決策的信息。例如,他們想知道這樣一些情況:“現在客戶(hù)中哪些會(huì )對我們的新產(chǎn)品感興趣?”,“這個(gè)貸款申請有合理的信用風(fēng)險嗎?”等等。數據挖掘中應用的方法包括概念描述、分類(lèi)與預測、關(guān)聯(lián)規則、聚集和神經(jīng)網(wǎng)絡(luò )等。
基于數據挖掘技術(shù),微軟公司于2005年12月2日發(fā)布了新一代企業(yè)級應用平臺 SQL Server 2005、Visual Studio 2005。使用 SQL Server 2005 Analysis Services (SSAS)可以很方便地創(chuàng )建復雜的數據挖掘解決方案。SSAS工具提供了設計、創(chuàng )建和管理數據挖掘模型的功能,并且使客戶(hù)端能夠訪(fǎng)問(wèn)數據及挖掘數據。
數據挖掘的目的在于使用所發(fā)現的模式幫助解釋當前的行為或預測未來(lái)的結果。數據挖掘過(guò)程涉及下列7個(gè)研究方面:數據倉庫及OLAP技術(shù)、數據預處理、使用SQL Server Data Mining、關(guān)聯(lián)規則、分類(lèi)和預測、聚類(lèi)分析及時(shí)序和序列數據的挖掘。
本書(shū)對數據挖掘和知識發(fā)現的各個(gè)方面都進(jìn)行了必要的解說(shuō),側重于用SSAS進(jìn)行數據挖掘模型的建立、挖掘結果的分析與檢驗,以及解釋與驗證結果。為了更好地理解數據挖掘過(guò)程,本書(shū)對主要的挖掘技術(shù)提供了詳細的SQL Server 2005數據挖掘的實(shí)例,讀者通過(guò)實(shí)例來(lái)實(shí)驗性地建立和檢驗數據挖掘模型。
本書(shū)讀者
本書(shū)闡述了數據挖掘的部分原理以及使用SSAS進(jìn)行數據挖掘的基本方法和各種可視化工具。本書(shū)還針對不同的挖掘模型設計了實(shí)用的案例,幫助讀者深入理解數據挖掘和熟悉SSAS。對于數據挖掘的用戶(hù)而言,本書(shū)將成為他們的入門(mén)工具和實(shí)踐指南。相信大多數數據庫管理人員、IT專(zhuān)業(yè)人員和數據挖掘方面的學(xué)生都會(huì )從本書(shū)中獲益。
本書(shū)內容
全書(shū)分為9個(gè)章節,細致地講解了SQL Server 2005數據挖掘的原理和實(shí)務(wù),幫助讀者快速入門(mén)學(xué)習深奧的數據挖掘知識。本書(shū)的內容包括:
第1章 數據挖掘基本知識:提供關(guān)于數據挖掘的多學(xué)科領(lǐng)域的導論,討論導致需要數據挖掘的數據庫技術(shù)的發(fā)展道路和數據挖掘應用的重要性;考察挖掘的數據類(lèi)型,包括關(guān)系、事務(wù)和數據倉庫數據,以及復雜數據類(lèi)型,如數據流、時(shí)間序列、序列、圖形、社會(huì )網(wǎng)絡(luò )和多重關(guān)系數據、時(shí)空數據、多媒體數據、文本數據以及Web數據;根據所挖掘的知識類(lèi)型,對數據挖掘任務(wù)進(jìn)行一般分類(lèi)。
第2章 數據倉庫及OLAP技術(shù):介紹了數據倉庫和聯(lián)機分析處理的基本概念、系統結構和一般實(shí)現,以及數據倉庫和數據挖掘的關(guān)系;更深入地考察數據倉庫和OLAP技術(shù),詳細地研究數據立方體的計算方法;討論數據倉庫和OLAP的進(jìn)一步探查,如發(fā)現驅動(dòng)的立方體探查,復雜數據挖掘查詢(xún)的多特征立方體和立方體梯度分析;討論另一種數據泛化和概念描述方法——面向屬性的歸納。
第3章 數據預處理:介紹挖掘之前的數據預處理技術(shù),包括描述性數據匯總的各種統計方法,包括數據的中心趨勢和散布的度量。加強了數據清理方法的介紹,討論了數據集成和變換、數據歸約的方法,包括動(dòng)態(tài)和靜態(tài)離散化概念分層的使用;介紹概念分層的自動(dòng)產(chǎn)生。
第4章 使用SQL Server 2005進(jìn)行數據挖掘:通過(guò)Business Intelligence Development Studio的使用,數據源、數據源視圖、數據挖掘對象的管理,數據查看及模型評估,介紹SSAS的特性以及設計、創(chuàng )建和管理數據挖掘模型的功能。
第5章 關(guān)聯(lián)規則:介紹挖掘關(guān)系數據庫中的頻繁模式、關(guān)聯(lián)和相關(guān)性的方法。除介紹諸如購物籃分析等基本概念外,進(jìn)一步介紹了關(guān)聯(lián)規則挖掘模型。通過(guò)完整的實(shí)例闡述了 關(guān)聯(lián)規則的挖掘步驟以及結果分析。
第6章 分類(lèi)和預測:介紹數據分類(lèi)和預測方法,包括決策樹(shù)歸納、貝葉斯分類(lèi)、后向傳播的神經(jīng)網(wǎng)絡(luò )技術(shù)。還介紹了 決策樹(shù)挖掘模型、 貝葉斯挖掘模型、 神經(jīng)網(wǎng)絡(luò )挖掘模型。通過(guò)決策樹(shù)、神經(jīng)網(wǎng)絡(luò )兩個(gè)實(shí)例介紹完整的挖掘方法和結果分析。
第7章 聚類(lèi)分析:主要介紹數據的聚類(lèi)方法,包括劃分方法、層次方法、基于密度的方法等。通過(guò)對 聚類(lèi)挖掘模型及基于該模型的案例的介紹,闡述如何利用 聚類(lèi)挖掘技術(shù)進(jìn)行挖掘、分析、可靠性檢驗等。
第8章 時(shí)序和序列數據的挖掘:主要討論流數據、時(shí)間序列數據和序列數據(包括事務(wù)序列和生物學(xué)序列)的挖掘,簡(jiǎn)要介紹了 順序分析挖掘模型。
第9章 數據挖掘的應用和發(fā)展趨勢:總結本書(shū)介紹的概念,并討論數據挖掘的應用和發(fā)展趨勢。添加了一些新的數據挖掘材料,涉及生物學(xué)和生物醫學(xué)數據分析、其他科學(xué)應用、入侵檢測和協(xié)同過(guò)濾。除了具有挑戰性的研究問(wèn)題之外,還討論了數據挖掘對社會(huì )的影響,如隱私和數據安全問(wèn)題。
本書(shū)特色
簡(jiǎn)單而詳細的例子。本書(shū)通過(guò)列舉不同數據挖掘技術(shù)如何建立模型的簡(jiǎn)單、詳細的例子,揭去了數據挖掘的神秘面紗。
章節之間是獨立的,讀者可以按自己的興趣選擇閱讀順序,實(shí)現按需閱讀,提高問(wèn)題的解決能力。
精選數據挖掘經(jīng)典分析方向,核心講解必要的原理,將深奧的數據挖掘原理淺顯地講解出來(lái)。
與實(shí)際分析項目結合,全書(shū)以作者從事的實(shí)際分析項目為藍本,講解復雜數據挖掘的具體實(shí)踐。
致謝
本書(shū)由王欣(西南交通大學(xué))、徐騰飛、唐連章編著(zhù),姚新軍負責前期的策劃和后期質(zhì)量監控。王欣從事數據倉庫與數據挖掘領(lǐng)域的教學(xué)、研究與應用工作,對SSAS有著(zhù)豐富的實(shí)踐經(jīng)驗和獨特的理解。在本書(shū)的編寫(xiě)過(guò)程中,參與具體工作的還有萬(wàn)雷、王斌、厲劍梁、殷世欽、江廣順、李強、吳志俊、杜長(cháng)城、余松、劉羽宇、郭敏、董茜、陳鯤、王曉、陳洪軍、余偉煒、王呼佳、許志清、張賽橋、夏惠軍。還要感謝中國水利水電出版社計算機編輯室的老師們的辛苦努力,正是因為你們辛苦的付出,才使本書(shū)能在第一時(shí)間和讀者見(jiàn)面。
本書(shū)的內容涉及面廣,專(zhuān)業(yè)性強,雖幾經(jīng)斟酌,多方查找資料,但由于作者水平有限,難免有錯誤和不當之處,敬請各位讀者批評指正。
第1章 數據挖掘基本知識 1
1.1 數據挖掘的概念 1
1.2 數據挖掘的存儲對象 4
1.2.1 關(guān)系數據庫 4
1.2.2 數據倉庫 7
1.2.3 事務(wù)數據庫 9
1.2.4 高級數據庫系統和高級數據庫應用 10
1.3 基本數據挖掘任務(wù) 14
1.3.1 特征和區分 14
1.3.2 關(guān)聯(lián)分析 14
1.3.3 分類(lèi)和預測 15
1.3.4 聚類(lèi)分析 15
1.3.5 局外者分析 15
1.4 數據挖掘系統的分類(lèi) 15
1.5 數據挖掘的主要問(wèn)題 16
第2章 數據倉庫及OLAP技術(shù) 20
2.1 數據倉庫的概念 20
2.1.1 數據倉庫的定義 20
2.1.2 數據倉庫的建立 21
2.1.3 操作數據庫系統與數據倉庫的區別 22
2.1.4 分離的數據倉庫 23
2.2 多維數據模型 24
2.2.1 由表和電子數據表到數據方 24
2.2.2 多維數據庫模式 26
2.2.3 定義星型、雪花和星座的實(shí)例 29
2.2.4 度量的計算 30
2.2.5 概念分層 32
2.2.6 多維數據模型上的OLAP操作 34
2.2.7 多維數據庫的星型查詢(xún)模型 36
2.3 數據倉庫的系統結構 37
2.3.1 數據倉庫的設計步驟和結構 37
2.3.2 三層數據倉庫結構 39
2.3.3 OLAP服務(wù)器類(lèi)型(ROLAP、MOLAP、HOLAP)的比較 41
2.4 數據倉庫實(shí)現 43
2.4.1 數據方的有效計算 43
2.4.2 索引OLAP數據 48
2.4.3 OLAP查詢(xún)的有效處理 50
2.4.4 元數據存儲 51
2.4.5 數據倉庫后端工具和實(shí)用程序 52
2.5 數據方技術(shù)的進(jìn)一步發(fā)展 52
2.5.1 數據方發(fā)現驅動(dòng)的探查 53
2.5.2 多粒度上的復雜聚集:多特征方 55
2.5.3 其他進(jìn)展 57
2.6 由數據倉庫到數據挖掘 58
2.6.1 數據倉庫的使用 58
2.6.2 由聯(lián)機分析處理到聯(lián)機分析挖掘 59
第3章 數據預處理 62
3.1 數據預處理的重要性 62
3.2 數據清洗 64
3.2.1 遺漏數據處理 64
3.2.2 噪聲數據處理 64
3.2.3 不一致數據處理 66
3.3 數據集成與轉換 66
3.3.1 數據集成處理 66
3.3.2 數據轉換處理 67
3.4 數據消減 69
3.4.1 數據立方合計 70
3.4.2 維數消減 71
3.4.3 數據塊消減 72
3.5 離散化和概念層次樹(shù)生成 75
3.5.1 數值概念層次樹(shù)生成 76
3.5.2 類(lèi)別概念層次樹(shù)生成 78
第4章 使用SQL Server 2005進(jìn)行數據挖掘 81
4.1 關(guān)于Business Intelligence Development Studio 81
4.1.1 關(guān)于用戶(hù)界面 81
4.1.2 聯(lián)機模式和離線(xiàn)模式 83
4.1.3 如何創(chuàng )建數據挖掘對象 87
4.2 對數據源進(jìn)行設置 87
4.2.1 數據源 87
4.2.2 使用數據源視圖 90
4.3 創(chuàng )建和編輯模型 101
4.3.1 挖掘結構與模型 102
4.3.2 使用數據挖掘向導 102
4.3.3 創(chuàng )建MovieClick的數據挖掘結構和模型 106
4.3.4 使用數據挖掘設計器 110
4.4 處理 113
4.5 使用模型 115
4.5.1 掌握模型查看器 115
4.5.2 使用挖掘準確性圖表 118
4.5.3 在MovieClick上建立提升圖 121
4.5.4 使用【挖掘模型預測】窗口 123
4.5.5 創(chuàng )建數據挖掘報告 124
第5章 關(guān)聯(lián)規則 125
5.1 關(guān)聯(lián)規則簡(jiǎn)介 125
5.1.1 購物籃分析 126
5.1.2 關(guān)聯(lián)規則挖掘路線(xiàn) 127
5.2 關(guān)聯(lián)規則挖掘算法 128
5.2.1 Apriori算法:使用候選項集找頻繁項集 128
5.2.2 由頻繁項集產(chǎn)生關(guān)聯(lián)規則 130
5.2.3 提高Apriori的有效性 131
5.3 Microsoft關(guān)聯(lián)規則挖掘模型簡(jiǎn)介 133
5.4 Microsoft關(guān)聯(lián)規則挖掘模型的使用 134
5.4.1 挖掘問(wèn)題的提出 134
5.4.2 數據準備 135
5.4.3 挖掘模型簡(jiǎn)介 137
5.4.4 挖掘操作流程 138
5.4.5 挖掘結果分析 147
第6章 分類(lèi)和預測 148
6.1 分類(lèi)與預測的內涵 148
6.2 有關(guān)分類(lèi)和預測的若干問(wèn)題 150
6.3 基于決策樹(shù)的分類(lèi) 151
6.3.1 決策樹(shù)生成算法 152
6.3.2 樹(shù)剪枝 155
6.3.3 由決策樹(shù)提取分類(lèi)規則 157
6.4 Microsoft決策樹(shù)挖掘模型簡(jiǎn)介 158
6.5 Microsoft決策樹(shù)挖掘模型的使用 159
6.5.1 挖掘問(wèn)題的提出 160
6.5.2 數據準備 160
6.5.3 挖掘模型簡(jiǎn)介 161
6.5.4 挖掘操作流程 161
6.5.5 挖掘結果分析 169
6.6 貝葉斯分類(lèi) 169
6.6.1 貝葉斯定理 170
6.6.2 樸素貝葉斯定理 170
6.6.3 Microsoft貝葉斯挖掘模型簡(jiǎn)介 172
6.6.4 Microsoft貝葉斯挖掘模型的使用 172
6.6.5 挖掘結果分析 174
6.7 神經(jīng)網(wǎng)絡(luò ) 175
6.7.1 神經(jīng)網(wǎng)絡(luò )概述 175
6.7.2 前饋神經(jīng)網(wǎng)絡(luò ) 176
6.7.3 Microsoft神經(jīng)網(wǎng)絡(luò )挖掘模型簡(jiǎn)介 180
6.7.4 挖掘操作流程 181
6.7.5 挖掘結果分析 183
第7章 聚類(lèi)分析 185
7.1 聚類(lèi)的概念 185
7.2 聚類(lèi)分析中的數據類(lèi)型 187
7.2.1 區間標度(Interval-Scaled)變量 188
7.2.2 二元(Binary)變量 188
7.2.3 標稱(chēng)型、序數型和比例標度型變量 188
7.2.4 混合類(lèi)型的變量 189
7.3 主要聚類(lèi)方法的分類(lèi) 190
7.3.1 劃分方法 190
7.3.2 層次方法 193
7.3.3 基于密度的方法 195
7.3.4 基于網(wǎng)格的方法 197
7.3.5 基于模型的方法 198
7.4 Microsoft聚類(lèi)挖掘模型簡(jiǎn)介 199
7.4.1 典型的劃分方法 199
7.4.2 算法參數 202
7.5 Microsoft聚類(lèi)挖掘模型的使用 205
7.5.1 挖掘問(wèn)題的提出 206
7.5.2 數據準備 206
7.5.3 挖掘模型簡(jiǎn)介 207
7.5.4 挖掘操作流程 207
7.5.5 挖掘結果分析 211
第8章 時(shí)序和序列數據的挖掘 214
8.1 時(shí)序數據的挖掘 214
8.1.1 時(shí)序分析中的相似性搜索 214
8.1.2 Microsoft時(shí)序分析挖掘模型簡(jiǎn)介 217
8.1.3 Microsoft時(shí)序分析挖掘模型的使用 220
8.2 序列數據聚類(lèi) 221
8.2.1 Microsoft順序分析挖掘模型簡(jiǎn)介 222
8.2.2 Microsoft順序分析挖掘模型的使用 225
第9章 數據挖掘的應用和發(fā)展趨勢 227
9.1 數據挖掘的應用 227
9.1.1 針對生物醫學(xué)和DNA數據分析的數據挖掘 227
9.1.2 針對金融數據分析的數據挖掘 229
9.1.3 零售業(yè)中的數據挖掘 230
9.1.4 電信業(yè)中的數據挖掘 231
9.2 數據挖掘系統產(chǎn)品和研究原型 231
9.2.1 怎樣選擇一個(gè)數據挖掘系統 232
9.2.2 商用數據挖掘系統的例子 234
9.3 數據挖掘的其他主題 234
9.3.1 視頻和音頻數據挖掘 235
9.3.2 科學(xué)和統計數據挖掘 235
9.3.3 數據挖掘的理論基礎 236
9.3.4 數據挖掘和智能查詢(xún)應答 237
9.4 數據挖掘的社會(huì )影響 238
9.5 數據挖掘的發(fā)展趨勢 242
參考文獻 244
- 數據庫技術(shù)與應用實(shí)踐教程(SQL Server 2019) [主 編 嚴暉 周肆清]
- 數據庫技術(shù)與應用(SQL Server 2019) [主編 嚴暉 劉衛國]
- 數據庫原理及應用SQL Server 2014(微課版) [主 編 趙德福]
- 數據挖掘算法—基于C++及CUDA C [蒂莫西•馬斯特斯(Timothy]
- 數據庫技術(shù)與應用(SQL Server 2019) [主 編 沙有闖]
- 數據庫原理與應用——基于SQL Server 2016 [主編 彭浩 黃勝 鄒競]
- 深入SQL Server 2016高可用 [[美]Paul Bertucci 著(zhù)]
- 數據庫技術(shù)與應用(SQL Server 2008版)(第二版) [主編 嚴暉 王小玲]
- 數據庫技術(shù)與應用實(shí)踐教程(SQL Server 2008)(第二版) [主編 嚴暉 周肆清]
- 數據庫原理及應用——SQL Server 2012 [主編 賴(lài)玲 李祥琴 胡秀]
- 數據庫原理及應用上機指導與習題解答——SQL Server 2012 [主編 王婭紛 賴(lài)玲 李祥琴 胡]
- 跟韓老師學(xué)SQL Server數據庫設計與開(kāi)發(fā) [韓立剛]
- SQL Server 2008網(wǎng)絡(luò )數據庫管理項目教程 [李桂香 王昌云]
- 數據庫系統原理與應用(第三版)(SQL Server 2012) [主編 劉淳]
- SQL Server數據挖掘與商業(yè)智能基礎及案例實(shí)戰 [謝邦昌]
- SQL Server 2008數據庫基礎 [芮素娟]
- SQL Server 2012項目教程—分銷(xiāo)系統項目導向 [梁競敏]
- SQL Server實(shí)用數據庫技術(shù) [張新成 孫 凌 ]
- 數據庫應用技術(shù)——SQL Server 2008 [何繼業(yè) 易丹 陳國榮]
- 數據庫技術(shù)與應用(SQL Server 2008版)實(shí)踐教程 [主編 王小玲 嚴暉]
- 數據庫技術(shù)與應用(SQL Server 2008版) [主編 王小玲 安劍奇]
- SQL Server 2008數據庫開(kāi)發(fā)經(jīng)典案例教程 [呂玉桂 嚴波]
- 歷史災害數據挖掘與建模 [胡明生]
- SQL Server數據庫及應用(第二版) [主編 賈振華]
- SQL Server 2008 R2 Reporting Services報表服務(wù) [尹相志 胡百敬 著(zhù)]
- 試卷質(zhì)量統計分析與數據挖掘原理、設計與實(shí)現 [張春生 著(zhù)]
- 數據挖掘技術(shù)在生物信息學(xué)中的應用 [裴志利 著(zhù)]
- SQL Server 2008 R2數據挖掘與商業(yè)智能基礎及高級案例實(shí)戰 [謝邦昌 鄭宇庭 蘇志雄 著(zhù)]
- 數據庫系統原理及應用——PowerBuilder+SQL Server版 [陳剛 李建義 主編]
- 數據庫原理與應用SQL Server 2005項目教程 [郭庚麒 王槐彬]

- 教材類(lèi)more>>
- 生活經(jīng)管more>>
- 計算機繪圖應用教程—CAXA電子圖板X(qián)P
- 計算機導論(第四版)
- 常用工具軟件實(shí)用教程(第二版)
- C#語(yǔ)言程序設計教程
- 單片微型計算機原理及接口技術(shù)實(shí)驗指導
- 數據庫Access案例教程
- 計算機應用基礎上機實(shí)驗指導(第三版)
- 計算機應用基礎教程(第三版)
- 微型計算機通信與接口技術(shù)
- 大學(xué)計算機基礎教程及實(shí)驗指導
- Access基礎教程(第二版)
- 計算機網(wǎng)絡(luò )實(shí)驗教程
- 模擬電子技術(shù)
- Visual FoxPro 6.0程序設計實(shí)驗指導與
- 微型計算機原理及應用
- PowerBuilder 10.0應用基礎與實(shí)例教程