0人評分過此書

Hadoop+Spark+Python大数据处理从算法到实战

出版日期
2021
閱讀格式
EPUB
書籍分類
學科分類
ISBN
9787301321447

本館館藏

借閱規則
當前可使用人數 30
借閱天數 14
線上看 0
借閱中 0
選擇分享方式

推薦本館採購書籍

您可以將喜歡的電子書推薦給圖書館,圖書館會參考讀者意見進行採購

讀者資料
圖書館
* 姓名
* 身分
系所
* E-mail
※ 我們會寄送一份副本至您填寫的Email中
電話
※ 電話格式為 區碼+電話號碼(ex. 0229235151)/ 手機格式為 0900111111
* 請輸入驗證碼
2020年3月,国家提出要加快5G网络,数据中心等新型基础设施(简称新基建)进度。其中,信息化新型基础设施包含了云计算、大数据、人工智能、区块链、5G等内容。本书围绕新基建的云计算、机器学习及人工智能展开讲述大数据处理分析与实战应用,分为如下五个部分。第1部分:介绍了大数据的概念与特点,以及几个典型的产业应用场景。通过这些案例简介,期望读者能够了解大数据的前景,以及作为科技工作者肩负的使命。第2部分:介绍了目前云计算中的一个重要研究与应用领域----容器云。这一部分包含容器技术Docker与容器编排工具Kubernetes。Docker能封装操作系统、应用程序及其执行环境。对于整个大数据来说,Docker是Hadoop、Hbase、Spark这些组件的基础运行平台。一般大数据运行平台规模都比较宏大,因此这里使用了Kubernetes来对容器进行管理。这样,就构建了基于容器云的大数据平台。第3部分:是大数据分析的基础,也是大数据分析技术的重点。首先介绍了Hadoop的框架原理、调度原理、MapReduce原理与编程模型、环境搭建。由于Hadoop的HDFS存在一定的读写局限,因此引入了Hbase以支持实时读写。同样HDFS的数据也存在一定的分析局限,因此引入了Hive来构建数据仓库,以提高分析效率。在本篇最后,还引入了Spark这样的高性能框架,进一步提高了大数据处理能力。第4部分:是机器学习相关算法的应用篇。机器学习是一个复杂的过程,涉及到统计学、微积分、信息论等内容。考虑到学习门槛,在这一环节,首先简单介绍了相关算法的原理,然后介绍相对容易使用的机器学习工具Sklearn,使得读者建立起对机器学习开发流程的基本认知,之后介绍应用于大数据环境下Spark的机器学习库。相信通过对这一部分内容的学习,读者已经掌握了基本的机器学习问题的处理。第5部分:通过第一个实例介绍了如何使用Spark机器学习库中的协同过滤算法,来实现基于Web的推荐系统;通过第二个实例介绍了如何使用OpenCV与TensorFlow构建卷积神经网络来实现基于Web的人脸识别。
本书内容精练、重点突出、实例丰富,是广大数据分析工作者的参考书,同时也非常适合大、中专院校师生学习阅读,还可作为高等院校统计分析及相关专业的教材。
  • 第1篇 入门篇
    • 第1章 初识大数据
      • 1.1 什么是大数据
      • 1.2 如何处理与分析大数据
      • 1.3 大数据的产业应用
  • 第2篇 准备篇
    • 第2章 万丈高楼平地起,使用Docker作地基
      • 2.1 初识Docker
      • 2.2 搭建Docker运行环境
      • 2.3 Docker操作镜像
      • 2.4 Docker操作容器
      • 2.5 Docker私有仓库
      • 2.6 Docker Compose编排容器
      • 2.7 Portainer可视化工具
      • 2.8 实训:构建Nginx镜像并创建容器
    • 第3章 团队合作好,使用Kubernetes来协调
      • 3.1 初识Kubernetes
      • 3.2 搭建集群
      • 3.3 部署应用
      • 3.4 Kubernetes Dashboard管理工具
      • 3.5 实训:在集群中部署Nginx服务器集群
  • 第3篇 技法篇
    • 第4章 筑高楼,需利器,使用Hadoop做核心
      • 4.1 Hadoop简介
      • 4.2 HDFS分布式文件系统
      • 4.3 任务调度与资源管理器YARN
      • 4.4 MapReduce分布式计算框架
      • 4.5 Hadoop环境搭建
      • 4.6 Hadoop常用操作命令
      • 4.7 实训:在容器中部署Hadoop集群
    • 第5章 空间要灵活,使用HBase来管理
      • 5.1 初识HBase
      • 5.2 HBase环境搭建
      • 5.3 HBase Shell操作
      • 5.4 HBase Thrift编程接口
      • 5.5 Region的拆分与合并
      • 5.6 实训:构建订单管理表
    • 第6章 数据需要规划,使用Hive建仓库
      • 6.1 初识Hive
      • 6.2 Hive环境搭建
      • 6.3 Hive数据库与表
      • 6.4 表的类型
      • 6.5 分桶查询与排序
      • 6.6 Sqoop数据的导入导出
      • 6.7 Hive Thrift编程接口
      • 6.8 实训:构建订单分析数据仓库
    • 第7章 处理要够快,使用Spark
      • 7.1 Spark概述
      • 7.2 Spark核心原理
      • 7.3 Spark环境搭建
      • 7.4 提交Spark应用
      • 7.5 实训:在容器中部署Spark集群
    • 第8章 数据无结构,使用RDD
      • 8.1 RDD设计原理
      • 8.2 RDD编程
      • 8.3 键值对RDD
      • 8.4 读写文件
      • 8.5 集成HBase
      • 8.6 编程进阶
      • 8.7 实训:分析商品销售情况
    • 第9章 数据有结构,使用SQL语句
      • 9.1 Spark SQL概述
      • 9.2 创建DataFrame对象
      • 9.3 DataFrame常用的API
      • 9.4 保存DataFrame
      • 9.5 实训:分析公司销售业绩
    • 第10章 Spark流式计算编程
      • 10.1 流计算简介
      • 10.2 Discretized Stream
      • 10.3 Structured Streaming
      • 10.4 实训:实时统计贷款金额
  • 第4篇 算法篇
    • 第11章 发掘数据价值,使用机器学习技术
      • 11.1 什么是机器学习
      • 11.2 scikit-learn机器学习库
      • 11.3 Spark机器学习库
      • 11.4 实训:简单的情感分析
    • 第12章 处理分类问题
      • 12.1 分类问题概述
      • 12.2 决策树
      • 12.3 随机森林
      • 12.4 Logistic回归
      • 12.5 支持向量机
      • 12.6 贝叶斯
      • 12.7 实训:判断用户是否购买该商品
    • 第13章 处理回归问题
      • 13.1 回归问题概述
      • 13.2 线性回归与多项式回归
      • 13.3 决策树回归
      • 13.4 实训:预测房价
    • 第14章 处理聚类问题
      • 14.1 聚类问题概述
      • 14.2 基于划分聚类
      • 14.3 基于模型聚类
      • 14.4 实训:对客户进行聚类
    • 第15章 关联规则与协同过滤
      • 15.1 关联规则数据挖掘
      • 15.2 协同过滤
      • 15.3 实训:使用Spark ALS推荐菜单
    • 第16章 建立智能应用
      • 16.1 构建简单模型
      • 16.2 自定义模型和自定义层
      • 16.3 回调
      • 16.4 保存与恢复模型
      • 16.5 识别手写字
      • 16.6 实训:猫狗识别
  • 第5篇 实战篇
    • 第17章 综合实战:猜你喜欢
      • 17.1 项目背景与解决方案介绍
      • 17.2 数据库设计
      • 17.3 推荐模型
      • 17.4 前端网站
    • 第18章 综合实战:人脸识别
      • 18.1 项目背景与解决方案介绍
      • 18.2 图像采集
      • 18.3 训练模型与识别人脸
  • 出版地 中國大陸
  • 語言 簡體中文

評分與評論

請登入後再留言與評分
幫助
您好,請問需要甚麼幫助呢?
使用指南

客服專線:0800-000-747

服務時間:週一至週五 AM 09:00~PM 06:00

loading