
0人評分過此書
本書內容分技術解析、實戰演練與數據挖掘三個部分。技術解析說明HAWQ的基礎架構與功能特性。實戰演練部分用一個完整的示例, 說明如何使用HAWQ取代傳統數據倉庫, 包括ETL處理、自動調度系統、維度表與事實表技術、OLAP與數據的圖形化表示等。數據挖掘部分用實例說明HAWQ與開源數據挖掘庫Madlib整合, 實現降維、協同過濾、關聯規則、回歸、聚類、分類等常見數據挖掘方法。
- 封面页
- 书名页
- 版权页
- 作者简介
- 内容简介
- 推荐序
- 前言
- 目录
-
第一部分 HAWQ技术解析
-
第1章 ◄HAWQ概述►
-
1.1 SQL-on-Hadoop
-
1.2 HAWQ简介
-
1.3 HAWQ系统架构
-
1.4 为什么选择HAWQ
-
1.5 小结
-
-
第2章 ◄HAWQ安装部署►
-
2.1 安装规划
-
2.2 安装前准备
-
2.3 安装Ambari
-
2.4 安装HDP集群
-
2.5 安装HAWQ
-
2.6 启动与停止HAWQ
-
2.7 小结
-
-
第3章 ◄连接管理►
-
3.1 配置客户端身份认证
-
3.2 管理角色与权限
-
3.3 psql连接HAWQ
-
3.4 Kettle连接HAWQ
-
3.5 连接常见问题
-
3.6 小结
-
-
第4章 ◄数据库对象管理►
-
4.1 创建和管理数据库
-
4.2 创建和管理表空间
-
4.3 创建和管理模式
-
4.4 创建和管理表
-
4.5 创建和管理视图
-
4.6 管理其他对象
-
4.7 小结
-
-
第5章 ◄分区表►
-
5.1 HAWQ中的分区表
-
5.2 确定分区策略
-
5.3 创建分区表
-
5.4 分区消除
-
5.5 分区表维护
-
5.6 小结
-
-
第6章 ◄存储管理►
-
6.1 数据存储选项
-
6.2 数据分布策略
-
6.3 从已有的表创建新表
-
6.4 小结
-
-
第7章 ◄资源管理►
-
7.1 HAWQ资源管理概述
-
7.2 配置独立资源管理器
-
7.3 整合YARN
-
7.4 管理资源队列
-
7.5 查询资源管理器状态
-
7.6 小结
-
-
第8章 ◄数据管理►
-
8.1 基本数据操作
-
8.2 数据装载与卸载
-
8.3 数据库统计
-
8.4 PXF
-
8.5 小结
-
-
第9章 ◄过程语言►
-
9.1 HAWQ内建SQL语言
-
9.2 PL/pgSQL函数
-
9.3 给HAWQ内部函数起别名
-
9.4 表函数
-
9.5 参数个数可变的函数
-
9.6 多态类型
-
9.7 UDF管理
-
9.8 UDF实例——递归树形遍历
-
9.9 小结
-
-
第10章 ◄查询优化►
-
10.1 HAWQ的查询处理流程
-
10.2 GPORCA查询优化器
-
10.3 性能优化
-
10.4 查询剖析
-
10.5 小结
-
-
第11章 ◄高可用性►
-
11.1 备份与恢复
-
11.2 高可用性
-
11.3 小结
-
-
-
第二部分 HAWQ实战演练
-
第12章 ◄建立数据仓库示例模型►
-
12.1 业务场景
-
12.2 数据仓库架构
-
12.3 实验环境
-
12.4 HAWQ相关配置
-
12.5 创建示例数据库
-
12.6 小结
-
-
第13章 ◄初始ETL►
-
13.1 用Sqoop初始数据抽取
-
13.2 向HAWQ初始装载数据
-
13.3 建立初始ETL脚本
-
13.4 小结
-
-
第14章 ◄定期ETL►
-
14.1 变化数据捕获
-
14.2 创建维度表版本视图
-
14.3 创建时间戳表
-
14.4 用Sqoop定期数据抽取
-
14.5 建立定期装载HAWQ函数
-
14.6 建立定期ETL脚本
-
14.7 测试
-
14.8 动态分区滚动
-
14.9 准实时数据抽取
-
14.10 小结
-
-
第15章 ◄自动调度执行ETL作业►
-
15.1 Oozie简介
-
15.2 建立工作流前的准备
-
15.3 用Oozie建立定期ETL工作流
-
15.4 Falcon简介
-
15.5 用Falcon process调度Oozie工作流
-
15.6 小结
-
-
第16章 ◄维度表技术►
-
16.1 增加列
-
16.2 维度子集
-
16.3 角色扮演维度
-
16.4 层次维度
-
16.5 退化维度
-
16.6 杂项维度
-
16.7 维度合并
-
16.8 分段维度
-
16.9 小结
-
-
第17章 ◄事实表技术►
-
17.1 周期快照
-
17.2 累积快照
-
17.3 无事实的事实表
-
17.4 迟到的事实
-
17.5 累积度量
-
17.6 小结
-
-
第18章 ◄联机分析处理►
-
18.1 联机分析处理简介
-
18.2 联机分析处理实例
-
18.3 交互查询与图形化显示
-
18.4 小结
-
-
-
第三部分 HAWQ数据挖掘
-
第19章 ◄整合HAWQ与MADlib►
-
19.1 MADlib简介
-
19.2 安装与卸载MADlib
-
19.3 MADlib基础
-
19.4 小结
-
-
第20章 ◄奇异值分解►
-
20.1 奇异值分解简介
-
20.2 MADlib奇异值分解函数
-
20.3 奇异值分解实现推荐算法
-
20.4 小结
-
-
第21章 ◄主成分分析►
-
21.1 主成分分析简介
-
21.2 MADlib的PCA相关函数
-
21.3 PCA应用示例
-
21.4 小结
-
-
第22章 ◄关联规则方法►
-
22.1 关联规则简介
-
22.2 Apriori算法
-
22.3 MADlib的Apriori算法函数
-
22.4 Apriori应用示例
-
22.5 小结
-
-
第23章 ◄聚类方法►
-
23.1 聚类方法简介
-
23.2 k-means方法
-
23.3 MADlib的k-means相关函数
-
23.4 k-means应用示例
-
23.5 小结
-
-
第24章 ◄回归方法►
-
24.1 回归方法简介
-
24.2 Logistic回归
-
24.3 MADlib的Logistic回归相关函数
-
24.4 Logistic回归示例
-
24.5 小结
-
-
第25章 ◄分类方法►
-
25.1 分类方法简介
-
25.2 决策树
-
25.3 MADlib的决策树相关函数
-
25.4 决策树示例
-
25.5 小结
-
-
第26章 ◄图算法►
-
26.1 图算法简介
-
26.2 单源最短路径
-
26.3 MADlib的单源最短路径相关函数
-
26.4 单源最短路径示例
-
26.5 小结
-
-
第27章 ◄模型验证►
-
27.1 交叉验证简介
-
27.2 MADlib的交叉验证相关函数
-
27.3 交叉验证示例
-
27.4 小结
-
-
- 出版地 : 中國大陸
- 語言 : 簡體中文
評分與評論
請登入後再留言與評分