
0人評分過此書
【想深入了解大數據、資料探勘的讀者請進!!】
什麼是資料前處理?
電信業者跟資料探勘有什麼關係?
神經網路具體到底是什麼?
集群分析的演算法有哪些?
◎資料探勘的「十大經典演算法」你都認識嗎?
國際權威的學術組織theIEEEInternationalConferenceonDataMining(ICDM)評出了資料探勘領域的十大經典演算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、NaiveBayes和CART。
1.C4.5演算法
C4.5是一種用在機器學習和資料探勘領域的分類問題中的演算法。它基於以下假設:給定一個資料集,其中的每一個元組都能用一組屬性值來描述,每一個元組屬於一個互斥的類別中的某一類。C4.5的目標是透過學習,找到一個從屬性值到類別的映射關係,並且這個映射能用於對新的類別未知的實體進行分類。
2.TheK-MeansAlgorithm(K-Means演算法)
K-MeansAlgorithm是一種聚類演算法,它把n個對象根據他們的屬性分為k個分割,k
◎結構化/半結構化/非結構化資料有什麼不同?
(一)結構化資料:能夠用數據或統一的結構加以表示的資料,如數字、符號。傳統的關係資料模型,儲存於資料庫,通常可用二維表結構表示。
(二)非結構化資料:是指其欄位長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子欄位構成的資料庫,用它不僅可以處理結構化資料(如數字、符號等資訊)而且更適合處理非結構化資料(全文文字、圖像、聲音、影視、超媒體等資訊)。
(三)半結構化資料:XML、HTML文檔就屬於半結構化資料。它一般是自描述的,資料結構和內容混在一起,沒有明顯的區分。
◎如何設計神經網路的拓撲結構?
在開始訓練之前,用戶必須確定網路拓撲,說明輸入層的單元數、隱藏層數(如果多於一層)、每個隱藏層的單元數和輸出層的單元數。
對訓練元組中每個屬性的輸入測量值進行規範化將有助於加快學習過程。通常,對輸入值規範化,使得它們落入0.0和1.0之間。離散值屬性可以重新編碼,使得每個域值有一個輸入單元。例如,如果屬性A有3個可能的或已知的值{a0,a1,a2}則可以分配三個輸入單元表示A,即我們可以用I0,I1,I2作為輸入單元。每個單元都初始化為0。如果A=a0,則I0置為1,其餘為0;如果A=a1,則I1置1,其餘為0;諸如此類。
神經網路可以用於分類(預測給定元組的類標號)和數值預測(預測連續值輸出)。對於分類,一個輸出單元可以用來表示兩個類(其中值1代表一個類,而值0代表另一個類)。如果多於兩個類,則每個類使用一個輸出單元。
★全書特色
全書分為九章,內容包括:大資料探勘與智慧營運的概念,資料前處理,資料探勘中的四種主流演算法:集群分析、分類分析、迴歸分析、關聯分析,增強型資料探勘演算法,資料探勘在營運商智慧營運中的應用案例,未來大資料探勘的發展趨勢等。主要提供給電信業者及其他高科技企業員工、大專院校學生和研究生,以及其他對資料探勘與精準行銷感興趣的讀者。
什麼是資料前處理?
電信業者跟資料探勘有什麼關係?
神經網路具體到底是什麼?
集群分析的演算法有哪些?
◎資料探勘的「十大經典演算法」你都認識嗎?
國際權威的學術組織theIEEEInternationalConferenceonDataMining(ICDM)評出了資料探勘領域的十大經典演算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、NaiveBayes和CART。
1.C4.5演算法
C4.5是一種用在機器學習和資料探勘領域的分類問題中的演算法。它基於以下假設:給定一個資料集,其中的每一個元組都能用一組屬性值來描述,每一個元組屬於一個互斥的類別中的某一類。C4.5的目標是透過學習,找到一個從屬性值到類別的映射關係,並且這個映射能用於對新的類別未知的實體進行分類。
2.TheK-MeansAlgorithm(K-Means演算法)
K-MeansAlgorithm是一種聚類演算法,它把n個對象根據他們的屬性分為k個分割,k
◎結構化/半結構化/非結構化資料有什麼不同?
(一)結構化資料:能夠用數據或統一的結構加以表示的資料,如數字、符號。傳統的關係資料模型,儲存於資料庫,通常可用二維表結構表示。
(二)非結構化資料:是指其欄位長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子欄位構成的資料庫,用它不僅可以處理結構化資料(如數字、符號等資訊)而且更適合處理非結構化資料(全文文字、圖像、聲音、影視、超媒體等資訊)。
(三)半結構化資料:XML、HTML文檔就屬於半結構化資料。它一般是自描述的,資料結構和內容混在一起,沒有明顯的區分。
◎如何設計神經網路的拓撲結構?
在開始訓練之前,用戶必須確定網路拓撲,說明輸入層的單元數、隱藏層數(如果多於一層)、每個隱藏層的單元數和輸出層的單元數。
對訓練元組中每個屬性的輸入測量值進行規範化將有助於加快學習過程。通常,對輸入值規範化,使得它們落入0.0和1.0之間。離散值屬性可以重新編碼,使得每個域值有一個輸入單元。例如,如果屬性A有3個可能的或已知的值{a0,a1,a2}則可以分配三個輸入單元表示A,即我們可以用I0,I1,I2作為輸入單元。每個單元都初始化為0。如果A=a0,則I0置為1,其餘為0;如果A=a1,則I1置1,其餘為0;諸如此類。
神經網路可以用於分類(預測給定元組的類標號)和數值預測(預測連續值輸出)。對於分類,一個輸出單元可以用來表示兩個類(其中值1代表一個類,而值0代表另一個類)。如果多於兩個類,則每個類使用一個輸出單元。
★全書特色
全書分為九章,內容包括:大資料探勘與智慧營運的概念,資料前處理,資料探勘中的四種主流演算法:集群分析、分類分析、迴歸分析、關聯分析,增強型資料探勘演算法,資料探勘在營運商智慧營運中的應用案例,未來大資料探勘的發展趨勢等。主要提供給電信業者及其他高科技企業員工、大專院校學生和研究生,以及其他對資料探勘與精準行銷感興趣的讀者。
- 前言
-
第1章 大數據、資料探勘與智慧營運綜述
-
1.1 資料探勘的發展史
-
1.2 資料探勘的主要流程與金字塔模型
-
1.3 資料探勘對智慧營運的意義
-
1.4 大數據時代已經來臨
-
1.5 非結構化資料探勘的研究進展
-
1.6 資料探勘與機器學習、深度學習、人工智慧及雲端計算
-
1.7 現有資料探勘的主要分析軟體與系統
-
-
第2章 資料統計與資料前處理
-
2.1 資料屬性類型
-
2.2 資料的統計特性
-
2.3 資料前處理
-
2.4 資料欄位的衍生
-
2.5 SPSS軟體中的資料前處理案例
-
-
第3章 集群分析
-
3.1 概述
-
3.2 聚類演算法的評估
-
3.3 基於劃分的聚類:K-means
-
3.4 基於層次化的聚類:BIRCH
-
3.5 基於密度的聚類:DBSCAN
-
3.6 基於網格的聚類:CLIQUE
-
-
第4章 分類分析
-
4.1 分類分析概述
-
4.2 分類分析的評估
-
4.3 決策樹分析
-
4.4 最近鄰分析(KNN)
-
4.5 貝氏分析
-
4.6 神經網路
-
4.7 支援向量機
-
-
第5章 迴歸分析
-
5.1 迴歸分析概述
-
5.2 一元線性迴歸
-
5.3 多元線性迴歸
-
5.4 非線性迴歸
-
5.5 邏輯迴歸
-
-
第6章 關聯分析
-
6.1 關聯分析概述
-
6.2 關聯分析的評估指標
-
6.3 Apriori演算法
-
6.4 FP-tree演算法
-
6.5 SPSSModeler關聯分析實例
-
-
第7章 增強型資料探勘演算法
-
7.1 增強型資料探勘演算法概述
-
7.2 隨機森林
-
7.3 Bagging演算法
-
7.4 AdaBoost演算法
-
7.5 提高不平衡資料的分類準確率
-
7.6 遷移學習
-
-
第8章 資料探勘在營運商智慧營運中的應用
-
8.1 概述
-
8.2 單個業務的精準行銷-合約機外呼行銷
-
8.3 多種互聯網業務的精準推送
-
8.4 方案精準適配
-
8.5 客戶保有
-
8.6 投訴預警
-
8.7 網路品質柵格化呈現
-
8.8 無線室內定位
-
- 出版地 : 臺灣
- 語言 : 繁體中文
評分與評論
請登入後再留言與評分