
0人評分過此書
Hadoop+Spark+Python大数据处理从算法到实战
2020年3月,国家提出要加快5G网络,数据中心等新型基础设施(简称新基建)进度。其中,信息化新型基础设施包含了云计算、大数据、人工智能、区块链、5G等内容。本书围绕新基建的云计算、机器学习及人工智能展开讲述大数据处理分析与实战应用,分为如下五个部分。第1部分:介绍了大数据的概念与特点,以及几个典型的产业应用场景。通过这些案例简介,期望读者能够了解大数据的前景,以及作为科技工作者肩负的使命。第2部分:介绍了目前云计算中的一个重要研究与应用领域----容器云。这一部分包含容器技术Docker与容器编排工具Kubernetes。Docker能封装操作系统、应用程序及其执行环境。对于整个大数据来说,Docker是Hadoop、Hbase、Spark这些组件的基础运行平台。一般大数据运行平台规模都比较宏大,因此这里使用了Kubernetes来对容器进行管理。这样,就构建了基于容器云的大数据平台。第3部分:是大数据分析的基础,也是大数据分析技术的重点。首先介绍了Hadoop的框架原理、调度原理、MapReduce原理与编程模型、环境搭建。由于Hadoop的HDFS存在一定的读写局限,因此引入了Hbase以支持实时读写。同样HDFS的数据也存在一定的分析局限,因此引入了Hive来构建数据仓库,以提高分析效率。在本篇最后,还引入了Spark这样的高性能框架,进一步提高了大数据处理能力。第4部分:是机器学习相关算法的应用篇。机器学习是一个复杂的过程,涉及到统计学、微积分、信息论等内容。考虑到学习门槛,在这一环节,首先简单介绍了相关算法的原理,然后介绍相对容易使用的机器学习工具Sklearn,使得读者建立起对机器学习开发流程的基本认知,之后介绍应用于大数据环境下Spark的机器学习库。相信通过对这一部分内容的学习,读者已经掌握了基本的机器学习问题的处理。第5部分:通过第一个实例介绍了如何使用Spark机器学习库中的协同过滤算法,来实现基于Web的推荐系统;通过第二个实例介绍了如何使用OpenCV与TensorFlow构建卷积神经网络来实现基于Web的人脸识别。
本书内容精练、重点突出、实例丰富,是广大数据分析工作者的参考书,同时也非常适合大、中专院校师生学习阅读,还可作为高等院校统计分析及相关专业的教材。
本书内容精练、重点突出、实例丰富,是广大数据分析工作者的参考书,同时也非常适合大、中专院校师生学习阅读,还可作为高等院校统计分析及相关专业的教材。
-
第1篇 入门篇
-
第1章 初识大数据
-
1.1 什么是大数据
-
1.2 如何处理与分析大数据
-
1.3 大数据的产业应用
-
-
-
第2篇 准备篇
-
第2章 万丈高楼平地起,使用Docker作地基
-
2.1 初识Docker
-
2.2 搭建Docker运行环境
-
2.3 Docker操作镜像
-
2.4 Docker操作容器
-
2.5 Docker私有仓库
-
2.6 Docker Compose编排容器
-
2.7 Portainer可视化工具
-
2.8 实训:构建Nginx镜像并创建容器
-
-
第3章 团队合作好,使用Kubernetes来协调
-
3.1 初识Kubernetes
-
3.2 搭建集群
-
3.3 部署应用
-
3.4 Kubernetes Dashboard管理工具
-
3.5 实训:在集群中部署Nginx服务器集群
-
-
-
第3篇 技法篇
-
第4章 筑高楼,需利器,使用Hadoop做核心
-
4.1 Hadoop简介
-
4.2 HDFS分布式文件系统
-
4.3 任务调度与资源管理器YARN
-
4.4 MapReduce分布式计算框架
-
4.5 Hadoop环境搭建
-
4.6 Hadoop常用操作命令
-
4.7 实训:在容器中部署Hadoop集群
-
-
第5章 空间要灵活,使用HBase来管理
-
5.1 初识HBase
-
5.2 HBase环境搭建
-
5.3 HBase Shell操作
-
5.4 HBase Thrift编程接口
-
5.5 Region的拆分与合并
-
5.6 实训:构建订单管理表
-
-
第6章 数据需要规划,使用Hive建仓库
-
6.1 初识Hive
-
6.2 Hive环境搭建
-
6.3 Hive数据库与表
-
6.4 表的类型
-
6.5 分桶查询与排序
-
6.6 Sqoop数据的导入导出
-
6.7 Hive Thrift编程接口
-
6.8 实训:构建订单分析数据仓库
-
-
第7章 处理要够快,使用Spark
-
7.1 Spark概述
-
7.2 Spark核心原理
-
7.3 Spark环境搭建
-
7.4 提交Spark应用
-
7.5 实训:在容器中部署Spark集群
-
-
第8章 数据无结构,使用RDD
-
8.1 RDD设计原理
-
8.2 RDD编程
-
8.3 键值对RDD
-
8.4 读写文件
-
8.5 集成HBase
-
8.6 编程进阶
-
8.7 实训:分析商品销售情况
-
-
第9章 数据有结构,使用SQL语句
-
9.1 Spark SQL概述
-
9.2 创建DataFrame对象
-
9.3 DataFrame常用的API
-
9.4 保存DataFrame
-
9.5 实训:分析公司销售业绩
-
-
第10章 Spark流式计算编程
-
10.1 流计算简介
-
10.2 Discretized Stream
-
10.3 Structured Streaming
-
10.4 实训:实时统计贷款金额
-
-
-
第4篇 算法篇
-
第11章 发掘数据价值,使用机器学习技术
-
11.1 什么是机器学习
-
11.2 scikit-learn机器学习库
-
11.3 Spark机器学习库
-
11.4 实训:简单的情感分析
-
-
第12章 处理分类问题
-
12.1 分类问题概述
-
12.2 决策树
-
12.3 随机森林
-
12.4 Logistic回归
-
12.5 支持向量机
-
12.6 贝叶斯
-
12.7 实训:判断用户是否购买该商品
-
-
第13章 处理回归问题
-
13.1 回归问题概述
-
13.2 线性回归与多项式回归
-
13.3 决策树回归
-
13.4 实训:预测房价
-
-
第14章 处理聚类问题
-
14.1 聚类问题概述
-
14.2 基于划分聚类
-
14.3 基于模型聚类
-
14.4 实训:对客户进行聚类
-
-
第15章 关联规则与协同过滤
-
15.1 关联规则数据挖掘
-
15.2 协同过滤
-
15.3 实训:使用Spark ALS推荐菜单
-
-
第16章 建立智能应用
-
16.1 构建简单模型
-
16.2 自定义模型和自定义层
-
16.3 回调
-
16.4 保存与恢复模型
-
16.5 识别手写字
-
16.6 实训:猫狗识别
-
-
-
第5篇 实战篇
-
第17章 综合实战:猜你喜欢
-
17.1 项目背景与解决方案介绍
-
17.2 数据库设计
-
17.3 推荐模型
-
17.4 前端网站
-
-
第18章 综合实战:人脸识别
-
18.1 项目背景与解决方案介绍
-
18.2 图像采集
-
18.3 训练模型与识别人脸
-
-
- 出版地 : 中國大陸
- 語言 : 簡體中文
評分與評論
請登入後再留言與評分