
0人評分過此書
Kaggle大師教您用Python玩資料科學,比賽拿獎金
內容簡介:本書是利用Python參加機器學習競賽「kaggle」的入門書。一開始先以適合初學者學習的「Titanic:Machine Learning from Disater」競賽學習Kaggle的基礎。從中除了可學習實踐Titanic的方法,還能掌握自行參加競賽所需的知識。
本書具有以下特色:
.為了kaggle撰寫的習作教學書籍
.每一章或每一節都有具體的主題,可讓讀者按部就班地掌握需要的知識
.解說各種表單、圖片檔、文字檔的操作方法,作為進入下一個競賽的路標。
.兩位執筆者都擁有「Kaggle Master」的稱號,也有賺到獎金的經驗
.除了說明之外,還有兩位筆者的對談,從不同的角度介紹Kaggle的魅力
.會為程式設計與Python的初學者詳細講解範例程式
本書具有以下特色:
.為了kaggle撰寫的習作教學書籍
.每一章或每一節都有具體的主題,可讓讀者按部就班地掌握需要的知識
.解說各種表單、圖片檔、文字檔的操作方法,作為進入下一個競賽的路標。
.兩位執筆者都擁有「Kaggle Master」的稱號,也有賺到獎金的經驗
.除了說明之外,還有兩位筆者的對談,從不同的角度介紹Kaggle的魅力
.會為程式設計與Python的初學者詳細講解範例程式
-
前言
-
本書特色
-
本書的目標讀者
-
本書的架構
-
範例程式
-
作者介紹
-
-
第1章 了解Kaggle
-
1.1 何謂Kaggle
-
note 贏得獎金與稱號的條件
-
note 非Kaggle的機器學習競賽
-
-
1.2 於Kaggle使用的機器學習
-
note 機器學習的「非監督式學習」與「強化學習」
-
-
1.3 建立Kaggle的帳號
-
note 登入之後的首頁
-
-
1.4 Competitions頁面的概要
-
note 競賽的規則
-
note Overview
-
note Team
-
-
1.5 不需另行建置環境的「Notebooks」的使用方法
-
1.5.1 建立Notebook
-
1.5.2 執行程式碼
-
1.5.3 公開的Notebook的使用方法
-
-
1.6 第1章總結
-
【對談①】參加Kaggle的契機以及覺得很棒的部分
-
-
-
第2章 著手進行Titanic
-
2.1 先submit!試著寫進順位表
-
note Leaderboard
-
note 直接上傳csv檔案與submit
-
note 利用Kaggle API提交
-
【對談②】submit的樂趣
-
-
2.2 掌握全貌!了解submit之前的處理流程
-
2.2.1 載入套件
-
2.2.2 載入資料
-
2.2.3 特徵工程
-
2.2.4 機器學習演算法的學習與預測
-
2.2.5 submit
-
【對談③】 建立「基準」
-
-
2.3 找出下一步!試著進行探索式資料分析
-
2.3.1 利用Pandas Profiling確認概要
-
2.3.2 確認各特徵值與目標變數的關聯性
-
【對談④】 不是只讓資料「具體化」
-
-
2.4 在此拉開差距!基於假設建立新的特徵值
-
2.4.1 再現性的重要性
-
2.4.2 根據假設建立新的特徵值
-
2.4.3 學習特徵工程的技術
-
【對談⑤】 特徵工程會決定勝負
-
-
2.5 決策樹是最強的演算法?試著使用各種機器學習演算法
-
2.5.1 sklearn
-
2.5.2 LightGBM
-
2.5.3 其他的機器學習演算法
-
【對談⑥】 選擇機器學習演算法的方法
-
-
2.6 機器學習演算法的心情?試著調整超參數
-
2.6.1 手動調整
-
2.6.2 使用Optuna
-
【對談⑦】 調整超參數的原創方法
-
-
2.7 在submit之前!了解「Cross Validation」的重要性
-
2.7.1 不能用submit之後的分數驗證嗎?
-
2.7.2 Hold-Out驗證
-
2.7.3 Cross Validation(交叉驗證)
-
2.7.4 資料集的分割方法
-
【對談⑧】 「 Trust CV」
-
-
2.8 「三個臭皮匠,勝過一個諸葛亮!」體驗集成學習
-
2.8.1 三個臭皮匠,勝過一個諸葛亮
-
2.8.2 於Titanic的實驗
-
【對談⑨】 黑魔法、團隊合併
-
-
2.9 第2章總結
-
-
第3章 往Titanic的下個階段前進
-
3.1 操作多個表格
-
3.1.1 合併表格
-
【對談⑩】 現實世界的資料分析
-
-
3.2 操作影像資料
-
3.2.1 影像資料競賽的概要
-
3.2.2 與表格資料共通、歧異之處
-
【對談⑪】 submit的樂趣
-
-
3.3 操作文字資料
-
3.3.1 文字資料競賽的概要
-
3.3.2 與表格資料共通與歧異之處
-
【對談⑫】 NLP競賽經驗談
-
-
3.4 第3章總結
-
-
第4章 為了進一步學習
-
4.1 挑選競賽的方法
-
4.1.1 能否贏得獎牌
-
4.1.2 於競賽使用的資料
-
4.1.3 舉辦期間
-
4.1.4 Code Competitions
-
-
4.2 初學者適用的參賽方式
-
note Kaggle ranking第一名的競賽方式
-
4.2.1 確認概要與規則
-
4.2.2 確認資料
-
4.2.3 建立基準
-
4.2.4 改善基準
-
4.2.5 利用集成學習提升分數
-
-
4.3 可選擇的分析環境
-
4.3.1 Kaggle的Notebooks環境的優缺點
-
4.3.2 使用自家電腦的優缺點
-
4.3.3 雲端的優缺點
-
-
4.4 值得參考的資料、文獻、連結
-
4.4.1 kaggler-ja slack
-
4.4.2 kaggler-ja wiki
-
4.4.3 門脇大輔《Kaggle で勝つデータ分析の技術》,技術評論社,2019
-
4.4.4 Kaggle Tokyo Meetup的資料與影片
-
-
4.5 第4章總結
-
【對談⑬】為了在Kaggle獲勝所擬定的目標
-
-
-
附錄A 範例程式碼詳細解說
-
A.1 第2章 著手進行Titanic
-
A.1.1 2.1 先submit!試著寫進順位表
-
A.1.2 2.2 掌握全貌!了解submit之前的處理流程
-
A.1.3 2.3 找出下一步!試著進行探索式資料分析
-
A.1.4 2.4 在此拉開差距!基於假設建立新的特徵值
-
A.1.5 2.5 決策樹是最強的演算法?試著使用各種機器學習演算法
-
A.1.6 2.6 機器學習演算法的心情?試著調整超參數
-
A.1.7 2.7 在submit之前!了解「Cross Validation」的重要性
-
A.1.8 2.8 「 三個臭皮匠,勝過一個諸葛亮!」體驗集成學習
-
-
A.2 第3章 往Titanic的下個階段前進
-
A.2.1 3.1 操作多個表格
-
A.2.2 3.2 操作影像資料
-
A.2.3 3.3 操作文字資料
-
-
- 結語
- 索引
- 出版地 : 臺灣
- 語言 : 繁體中文
評分與評論
請登入後再留言與評分