
0人評分過此書
Big Data:大數據的概念與演算法
本書主要目的是為了讓學習者能夠快速地對大數據的整體架構有初步的認識,內容完整兼顧原理與應用,協助學習者奠定大數據相關的知識與基礎。內容包含大數據應用相關的演算法、NoSQL資料庫、文件系統、以及分析工具四大部份,並以附錄介紹近年來頗受歡迎的R語言,並輔以「股價分析」案例說明,以stepbystep的方式協助學習者快速上手。另外,每章均附習題,讓學習者可以從中快速抓出課程重點,並檢核自己學習的效果。
-
Chapter 01 簡介
-
第一節 為什麼Big Data 會受到重視
-
1-1-1 什麼是Big Data
-
1-1-2 Big Data 的發展帶動了新的需求與新的商機
-
1-1-3 Big Data 引領資訊科技的創新
-
1-1-4 Big Data 的特性
-
1-1-5 Big Data 結構(Big Data Architecture)
-
-
第二節 Big Data 的3V、4V 與5V
-
1-2-1 Big Data 的3V 特性
-
1-2-2 Big Data 的4V 與5V 特性
-
-
第三節 Big Data 的機會與挑戰
-
第四節 Big Data 在業界的應用實例
-
-
Chapter 02 預備知識
-
第一節 CAP & BASE 理論
-
第二節 BASE vs. ACID
-
2-2-1 關聯式資料庫的特性
-
2-2-2 BASE 是ACID 的替代方案之一
-
-
第三節 雜湊表與分散式雜湊表的應用
-
第四節 為什麼關聯式資料庫在Big Data 的應用中會使不上力
-
第五節 分析Big Data 的方法
-
2-5-1 文本探勘
-
2-5-2 音頻分析
-
2-5-3 影像分析
-
2-5-4 社群媒體分析
-
2-5-5 預測分析
-
-
第六節 資料品質與知識發現模型
-
第七節 Big Data 應用的安全性與風險
-
第八節 分散式系統的設計要點
-
2-8-1 資訊系統的演進
-
2-8-2 分散式系統與其設計要點
-
-
-
Chapter 03 演算法
-
第一節 Google MapReduce
-
3-1-1 MapReduce 是程式設計模型
-
3-1-2 Map 與Reduce 的應用類型
-
3-1-3 MapReduce 運作流程說明
-
3-1-4 MapReduce 不是萬能的
-
3-1-5 結論
-
-
第二節 Apache MapReduce
-
3-2-1 Apache Hadoop
-
3-2-2 Apache MapReduce
-
3-2-3 輸入與輸出
-
-
第三節 Apache Spark
-
第四節 Google Pregel
-
3-4-1 簡介網路圖形(Web Graph)
-
3-4-2 計算模型(Model of Computation)
-
3-4-3 C++ API
-
3-4-4 訊息傳遞機制
-
3-4-5 基本架構(Basic Architecture)
-
3-4-6 應用Pregel 實作演算法
-
3-4-7 BSP(Bulk Synchronous Parallel) 模型
-
-
第五節 Apache Hama
-
-
Chapter 04 NoSQL 資料庫
-
第一節 四大主流NoSQL 資料庫
-
4-1-1 Key-Value 資料庫
-
4-1-2 文件導向資料庫
-
4-1-3 欄位導向資料庫
-
4-1-4 圖形資料庫
-
-
第二節 Google Bigtable
-
4-2-1 Bigtable 的功能與特色
-
4-2-2 Bigtable 與關聯式資料庫的異同之處
-
4-2-3 資料模型(Data Model)
-
4-2-4 Bigtable 中的記錄
-
4-2-5 Bigtable 中的Column Family
-
4-2-6 Bigtable 中的時間戳記
-
4-2-7 Bigtable 的API
-
4-2-8 Bigtable 與GFS、Chubby 的合作關係
-
4-2-9 Bigtable 簡介
-
4-2-10 結論
-
-
第三節 Apache HBase
-
4-3-1 HBase 的特性與功能
-
4-3-2 資料模型(Data model)
-
4-3-3 使用HBase 的評估要點
-
4-3-4 HBase 的名稱空間
-
4-3-5 HBase 架構(Architecture)
-
4-3-6 HBase 與HDFS 的比較
-
-
第四節 Apache:Cassandra
-
4-4-1 Cassandra 的特性
-
4-4-2 資料模型(Data Model)
-
4-4-3 複寫與讀/ 寫機制
-
4-4-4 在Windows 系統上安裝Cassandra
-
4-4-5 Thirft 跨語言框架
-
4-4-6 整合Cassandra 與Hadoop
-
-
第五節 Amazon Dynamo
-
4-5-1 Dynamo 的系統發展的動機
-
4-5-2 Dynamo 的系統發展的背景
-
4-5-3 Dynamo 的系統設計考量
-
4-5-4 Dynamo 的系統要求
-
4-5-5 Dynamo 的系統介面(System Interface)
-
4-5-6 Dynamo 的系統架構(System Architecture)
-
4-5-7 Amazon DynamoDB 產品特色
-
4-5-8 Dynamo 與Bigtable 的比較
-
4-5-9 結論
-
-
第六節 資料倉儲& Apache Hive
-
4-6-1 資料倉儲簡介
-
4-6-2 Hive 簡介
-
-
-
Chapter 05 文件系統
-
第一節 Google GFS
-
5-1-1 GFS 簡介
-
5-1-2 GFS 的特性
-
5-1-3 設計概觀
-
5-1-4 檔案結構(File Structure)
-
5-1-5 第二代 GFS:Colossus
-
5-1-6 結論
-
-
第二節 Apache HDFS
-
5-2-1 Apache HDFS 的目標與特性
-
5-2-2 Hadoop 分散式檔案系統
-
5-2-3 NameNode 以及DataNodes
-
5-2-4 檔案的名稱空間
-
5-2-5 資料複製的應用
-
5-2-6 檔案系統的屬性資料(Metadata) 的持久性
-
5-2-7 通訊協定
-
5-2-8 資源的回收處理
-
5-2-9 Google GFS 與Apache HDFS 的比較
-
5-2-10 安裝與配置Apache HDFS
-
5-2-11 結論
-
-
第三節 Facebook Haystack
-
5-3-1 Haystack 概述
-
5-3-2 Haystack 的設計動機
-
5-3-3 CDN 與儲存系統的設計說明
-
5-3-4 NFS-based 設計
-
5-3-5 Facebook 決定客制化儲存檔案系統的評估要點
-
5-3-6 簡介Haystack 架構
-
5-3-7 檔案系統
-
5-3-8 結論
-
-
-
Chapter 06 分析工具
-
第一節 Google Dremel
-
第二節 Apache Drill
-
6-2-1 Drill 的核心:Drillbit
-
6-2-2 Drill 的查詢流程
-
6-2-3 Drillbit 的核心模組
-
6-2-4 Drill 架構的特性
-
6-2-5 效能
-
6-2-6 樂觀管線式查詢模型
-
-
第三節 Google BigQuery
-
6-3-1 執行速度與效能
-
6-3-2 安全性與可信賴度
-
6-3-3 合作夥伴
-
6-3-4 BigQuery 專案層級
-
6-3-5 BigQuery 的特性
-
6-3-6 BigQuery vs. MapReduce
-
6-3-7 BigQuery 最獨特的能力
-
6-3-8 結論
-
-
第四節 Google Cloud Dataflow
-
6-4-1 Dataflow 是什麼
-
6-4-2 為什麼Dataflow 會受到重視
-
6-4-3 Dataflow 程式設計模型
-
6-4-4 Dataflow 可以接受的資料種類
-
6-4-5 範例程式:MinimalWordCount
-
6-4-6 Dataflow 的特色
-
6-4-7 Dataflow 的近期發展
-
-
-
Chapter 07 趨勢
-
第一節 NoHadoop/ Beyond Hadoop
-
第二節 Google Knowledge Graph
-
第三節 Open Data
-
第四節 Block Chain
-
第五節 Industry 4.0
-
- 附錄A R 語言在計算應用上的優勢與特色
- 附錄B 運用R 語言,進行股價分析
- 出版地 : 臺灣
- 語言 : 繁體中文
評分與評論
請登入後再留言與評分