
0人評分過此書
學習熱門的機器學習演算法
本書介紹熱門的機器學習演算法及其實作方式。你將會了解如何在Spark ML這套開發框架之內,實作各種機器學習概念。首先,我們會帶你在單一節點與多重節點的運算叢集上,完成Spark的安裝工作;接著,說明如何執行以Scala和Python語言撰寫的Spark ML程式;然後以幾套資料集為範例,深入探索分群、分類與迴歸;最後,利用Spark ML來處理文字資料。
打造可以應用於工作中的機器學習程式
弄懂概念之後,便可運用來實作演算法,可能是從頭開始,或是將既有的系統轉移到這個新平台,像是從Mahout或Scikit轉移到Spark ML。當你讀完本書之時,應該能夠善加運用Spark,打造可以應用於工作中的機器學習程式。
本書將帶您:
.實際動手嘗試最新版的Spark ML
.以Scala與Python語言撰寫Spark程式
.在本機以及Amazon ECS雲端平台上,安裝並設置Spark開發環境
.取用公開的機器學習資料集,使用Spark進行資料的載入、處理、清理與轉換等動作
.處理巨量的文字資料,包括特徵萃取,並使用文字資料作為輸入餵給機器學習模型
.撰寫Spark函式,評估機器學習模型的表現能力
本書介紹熱門的機器學習演算法及其實作方式。你將會了解如何在Spark ML這套開發框架之內,實作各種機器學習概念。首先,我們會帶你在單一節點與多重節點的運算叢集上,完成Spark的安裝工作;接著,說明如何執行以Scala和Python語言撰寫的Spark ML程式;然後以幾套資料集為範例,深入探索分群、分類與迴歸;最後,利用Spark ML來處理文字資料。
打造可以應用於工作中的機器學習程式
弄懂概念之後,便可運用來實作演算法,可能是從頭開始,或是將既有的系統轉移到這個新平台,像是從Mahout或Scikit轉移到Spark ML。當你讀完本書之時,應該能夠善加運用Spark,打造可以應用於工作中的機器學習程式。
本書將帶您:
.實際動手嘗試最新版的Spark ML
.以Scala與Python語言撰寫Spark程式
.在本機以及Amazon ECS雲端平台上,安裝並設置Spark開發環境
.取用公開的機器學習資料集,使用Spark進行資料的載入、處理、清理與轉換等動作
.處理巨量的文字資料,包括特徵萃取,並使用文字資料作為輸入餵給機器學習模型
.撰寫Spark函式,評估機器學習模型的表現能力
-
CHAPTER 01 與Spark一起奔跑
-
在本地端安裝並設定Spark
-
Spark叢集
-
Spark程式設計模型
-
SchemaRDD
-
Spark資料框
-
邁出第一步撰寫Spark程式:使用Scala語言
-
邁出第一步撰寫Spark程式:使用Java語言
-
邁出第一步撰寫Spark程式:使用Python語言
-
邁出第一步撰寫Spark程式:使用R語言
-
在Amazon EC2上執行Spark
-
設定Amazon Elastic MapReduce並執行Spark
-
Spark的使用者介面
-
Spark支援的機器學習演算法
-
與其他程式庫相比,Spark ML的優勢
-
在Google Compute Engine上頭建立Spark叢集:Cloud Dataproc
-
總結
-
-
CHAPTER 02 機器學習需要的數學知識
-
線性代數
-
梯度下降法
-
過去經驗、可能性、事後機率
-
微積分
-
圖表繪製
-
總結
-
-
CHAPTER 03 設計機器學習系統
-
何謂機器學習?
-
介紹MovieStream
-
機器學習系統的商業案例
-
機器學習模型的種類
-
以資料驅動的機器學習系統的組成元件
-
機器學習系統的架構
-
Spark MLlib
-
效能提升:在Spark MLlib之上的Spark ML
-
比較MLlib支援的演算法
-
MLlib支援的方法和開發人員API
-
MLlib版本
-
MLlib版本比較
-
總結
-
-
CHAPTER 04 Spark取得資料並進行處理準備
-
存取公開資料
-
資料探索與視覺化
-
資料處理與轉換
-
從資料萃取出有用的特徵
-
總結
-
-
CHAPTER 05 使用Spark建構推薦引擎
-
推薦模型的種類
-
從你的資料萃取出正確特徵
-
訓練推薦模型
-
使用推薦模型
-
評估推薦模型的表現
-
FP-Growth演算法
-
總結
-
-
CHAPTER 06 使用Spark建構分類模型
-
分類模型的類型
-
從資料萃取出正確的特徵
-
訓練分類模型
-
使用分類模型
-
增進模型表現能力與調校參數
-
其他特徵
-
總結
-
-
CHAPTER 07 使用Spark建構迴歸模型
-
迴歸模型的種類
-
評估迴歸模型的表現能力
-
從資料萃取出正確的特徵
-
訓練迴歸模型並使用
-
增進模型表現能力與調校參數
-
總結
-
-
CHAPTER 08 使用Spark建構分群模型
-
分群模型的種類
-
從資料萃取出正確的特徵
-
k-平均演算法:訓練分類模型
-
k-平均演算法:評估分群模型的表現能力
-
WSSSE受迭代次數的影響
-
二分k-平均演算法
-
二分k-平均演算法:訓練分群模型
-
高斯混合模型
-
總結
-
-
CHAPTER 09 Spark與維度縮減
-
維度縮減的種類
-
從資料萃取出正確的特徵
-
訓練維度縮減模型
-
使用維度縮減模型
-
評估維度縮減模型
-
總結
-
-
CHAPTER 10 Spark與進階文字處理
-
文字資料為何如此特別?
-
從資料萃取出正確的特徵
-
使用tf-idf模型
-
評估文字處理的影響
-
以Spark 2.0進行文字分類
-
Word2Vec模型
-
Word2Vec與20個新聞群組資料集
-
總結
-
-
CHAPTER 11 Spark串流程式庫與即時機器學習
-
線上學習
-
串流處理
-
Spark串流與線上學習
-
線上模型評估
-
結構化串流
-
總結
-
-
CHAPTER 12 Spark ML的工作流程API
-
介紹工作流程
-
工作流程如何運作?
-
機器學習工作流程範例
-
總結
-
- 出版地 : 臺灣
- 語言 : 繁體中文
評分與評論
請登入後再留言與評分