
0人評分過此書
SparkSQL是Spark大數據框架的一部分,支持使用標準SQL查詢和HiveQL來讀寫數據,可用於結構化數據處理,並可以執行類似SQL的Spark數據查詢,有助於開發人員更快地創建和運行Spark程序。全書分為4篇,共9章,第一篇講解了SparkSQL發展歷史和開發環境搭建。第二篇講解了SparkSQL實例,使得讀者掌握SparkSQL的入門操作,瞭解SparkRDD、DataFrame和DataSet,並熟悉DataFrame各種操作。第三篇講解了基於WiFi探針的商業大數據分析項目,實例中包含數據采集、預處理、存儲、利用SparkSQL挖掘數據,一步一步帶領讀者學習SparkSQL強大的數據挖掘功能。第四篇講解了SparkSQL優化的知識。本書適合Spark初學者、Spark數據分析人員以及Spark程序開發人員,也適合高校和培訓學校相關專業的師生教學參考。
- 封面页
- 书名页
- 版权页
- 内容简介
- 作者简介
- 前言
- 目录
-
第一部分 入门篇
-
第1章 初识Spark SQL
-
1.1 Spark SQL的前世今生
-
1.2 Spark SQL能做什么
-
-
第2章 Spark安装、编程环境搭建以及打包提交
-
2.1 Spark的简易安装
-
2.2 准备编写Spark应用程序的IDEA环境
-
2.3 将编写好的Spark应用程序打包成jar提交到Spark上
-
-
-
第二部分 基础篇
-
第3章 Spark上的RDD编程
-
3.1 RDD基础
-
3.2 RDD简单实例—wordcount
-
3.3 创建RDD
-
3.4 RDD操作
-
3.5 向Spark传递函数
-
3.6 常见的转化操作和行动操作
-
3.7 深入理解RDD
-
3.8 RDD缓存、持久化
-
3.9 RDD checkpoint容错机制
-
-
第4章 Spark SQL编程入门
-
4.1 Spark SQL概述
-
4.2 Spark SQL编程入门示例
-
-
第5章 Spark SQL的DataFrame操作大全
-
5.1 由JSON文件生成所需的DataFrame对象
-
5.2 DataFrame上的行动操作
-
5.3 DataFrame上的转化操作
-
-
第6章 Spark SQL支持的多种数据源
-
6.1 概述
-
6.2 典型结构化数据源
-
-
-
第三部分 实践篇
-
第7章 Spark SQL工程实战之基于WiFi探针的商业大数据分析技术
-
7.1 功能需求
-
7.2 系统架构
-
7.3 功能设计
-
7.4 数据库结构
-
7.5 本章小结
-
-
第8章 第一个Spark SQL应用程序
-
8.1 完全分布式环境搭建
-
8.2 数据清洗
-
8.3 数据处理流程
-
8.4 Spark程序远程调试
-
8.5 Spark的Web界面
-
8.6 本章小结
-
-
-
第四部分 优化篇
-
第9章 让Spark程序再快一点
-
9.1 Spark执行流程
-
9.2 Spark内存简介
-
9.3 Spark的一些概念
-
9.4 Spark编程四大守则
-
9.5 Spark调优七式
-
9.6 解决数据倾斜问题
-
9.7 Spark执行引擎Tungsten简介
-
9.8 Spark SQL解析引擎Catalyst简介
-
9.9 本章小结
-
-
- 出版地 : 中國大陸
- 語言 : 簡體中文
評分與評論
請登入後再留言與評分