
0人評分過此書
本书介绍了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介、发送请求、提取数据、使用多个线程和进程进行并发抓取、抓取动态页面中的内容、与表单进行交互、处理页面中的验证码问题及使用Scrapy和分布式进行数据抓取等。
- 版权信息
- 前言
-
第1章 爬虫基础
-
1.1 认识爬虫
-
1.1.1 大数据时代获取数据的方式
-
1.1.2 爬虫的分类
-
-
1.2 Python环境
-
1.2.1 Python的安装
-
1.2.2 PyCharm的安装
-
-
1.3 Python语法
-
1.3.1 变量
-
1.3.2 逻辑控制
-
1.3.3 集合容器
-
1.3.4 字符串
-
1.3.5 函数
-
1.3.6 文件操作
-
1.3.7 面向对象
-
1.3.8 类库
-
-
1.4 网页结构
-
1.4.1 HTML
-
1.4.2 CSS
-
1.4.3 JavaScript
-
1.4.4 JQuery
-
-
1.5 HTTP协议
-
1.5.1 HTTP请求
-
1.5.2 HTTP响应
-
1.5.3 常见的请求头
-
1.5.4 常见的响应头
-
1.5.5 HTTP和HTTPS
-
1.5.6 抓包工具Fiddler
-
-
1.6 本章小结
-
1.7 实战练习
-
-
第2章 开始爬虫
-
2.1 urllib模块
-
2.2 requests模块
-
2.2.1 安装
-
2.2.2 快速开始
-
2.2.3 高级用法
-
2.2.4 认证
-
-
2.3 re模块
-
2.3.1 正则表达式的语法
-
2.3.2 模块内容
-
-
2.4 项目案例:爬百度贴吧
-
2.4.1 分析网站
-
2.4.2 开始爬取
-
-
2.5 本章小结
-
2.6 实战练习
-
-
第3章 更多数据提取的方式
-
3.1 XPath和LXml
-
3.1.1 XML
-
3.1.2 XPath
-
3.1.3 LXml
-
-
3.2 BeautifulSoup4
-
3.2.1 安装
-
3.2.2 使用
-
-
3.3 JsonPath
-
3.3.1 安装
-
3.3.2 使用
-
-
3.4 性能和选择
-
3.5 项目案例:爬腾讯招聘网
-
3.5.1 分析网站
-
3.5.2 开始爬取
-
-
3.6 本章小结
-
3.7 实战练习
-
-
第4章 并发
-
4.1 100万个网页
-
4.2 进程
-
4.2.1 进程的概念
-
4.2.2 进程的状态
-
4.2.3 进程的分类
-
4.2.4 使用fork()创建进程
-
4.2.5 使用multiprocessing创建进程
-
4.2.6 进程池Pool
-
4.2.7 进程间通信
-
-
4.3 线程
-
4.3.1 线程的概念
-
4.3.2 线程的状态
-
4.3.3 创建线程
-
4.3.4 GIL
-
-
4.4 锁
-
4.4.1 同步的概念
-
4.4.2 互斥锁
-
4.4.3 死锁
-
4.4.4 同步的应用
-
-
4.5 协程
-
4.5.1 协程的概念
-
4.5.2 创建协程
-
-
4.6 线程、进程、协程对比
-
4.7 并发爬虫
-
4.7.1 多线程爬虫
-
4.7.2 多进程爬虫
-
4.7.3 协程爬虫
-
4.7.4 性能
-
-
4.8 本章小结
-
4.9 实战练习
-
-
第5章 数据存储
-
5.1 文件存储
-
5.1.1 TXT文本
-
5.1.2 JSON文件
-
5.1.3 CSV文件
-
-
5.2 关系型数据库存储
-
5.3 非关系型数据库存储
-
5.3.1 Redis数据库
-
5.3.2 MongoDB数据库
-
-
5.4 项目案例:爬豆瓣电影
-
5.4.1 分析网站
-
5.4.2 开始爬取
-
-
5.5 本章小结
-
5.6 实战练习
-
-
第6章 Ajax数据爬取
-
6.1 Ajax的概念
-
6.2 实现Ajax
-
6.2.1 JavaScript实现Ajax
-
6.2.2 JQuery实现Ajax
-
-
6.3 项目案例:爬斗鱼直播
-
6.3.1 分析网站
-
6.3.2 开始爬取
-
-
6.4 本章小结
-
6.5 实战练习
-
-
第7章 动态渲染页面爬取
-
7.1 Selenium
-
7.1.1 安装
-
7.1.2 使用
-
-
7.2 项目案例:爬京东商品
-
7.2.1 分析网站
-
7.2.2 开始爬取
-
-
7.3 本章小结
-
7.4 实战练习
-
-
第8章 图形验证码识别
-
8.1 使用pytesseract
-
8.2 使用打码平台
-
8.3 项目案例:识别验证码完成登录
-
8.3.1 分析网站
-
8.3.2 开始爬取
-
-
8.4 本章小结
-
8.5 实战练习
-
-
第9章 模拟登录
-
9.1 Cookie
-
9.1.1 Cookie的属性
-
9.1.2 查看Cookie
-
9.1.3 Cookie的不可跨域名性
-
-
9.2 Session
-
9.2.1 Session概述
-
9.2.2 Cookie与Session的区别
-
-
9.3 Cookie池的搭建
-
9.4 项目案例:登录GitHub
-
9.4.1 分析网站
-
9.4.2 开始爬取
-
-
9.5 本章小结
-
9.6 实战练习
-
-
第10章 代理IP的使用
-
10.1 代理IP
-
10.2 代理IP池
-
10.3 付费代理的使用
-
10.4 项目案例:使用代理IP爬微信公众号
-
10.4.1 分析网站
-
10.4.2 开始爬取
-
-
10.5 本章小结
-
10.6 实战练习
-
-
第11章 Scrapy框架
-
11.1 认识Scrapy
-
11.2 编写Scrapy的第一个案例
-
11.2.1 项目需求
-
11.2.2 创建项目
-
11.2.3 分析页面
-
11.2.4 实现Spider
-
11.2.5 运行爬虫
-
-
11.3 Spider详情
-
11.3.1 请求对象
-
11.3.2 响应对象
-
11.3.3 Spider详情
-
11.3.4 测试方法
-
-
11.4 操作数据
-
11.4.1 使用Selector提取数据
-
11.4.2 使用Item封装数据
-
11.4.3 使用Pipeline处理
-
11.4.4 使用LinkExtractor提取链接数据
-
11.4.5 使用Exporter导出数据
-
-
11.5 模拟登录
-
11.5.1 流程分析
-
11.5.2 直接携带Cookie登录
-
11.5.3 发送post请求登录
-
-
11.6 中间件
-
11.6.1 介绍
-
11.6.2 下载中间件
-
11.6.3 爬虫中间件
-
-
11.7 分布式
-
11.7.1 分布式爬虫的原理
-
11.7.2 scrapy-redis源码分析
-
11.7.3 scrapy-redis项目
-
-
11.8 项目案例:爬新浪新闻
-
11.8.1 分析网站
-
11.8.2 开始爬取
-
-
11.9 本章小结
-
11.10 实战练习
-
-
第12章 项目案例:爬校花网信息
-
12.1 分析网站
-
12.2 开始爬取
-
-
第13章 项目案例:爬北京地区短租房信息
-
13.1 分析网站
-
13.2 开始爬取
-
-
第14章 项目案例:爬简书专题信息
-
14.1 分析网站
-
14.2 开始爬取
-
-
第15章 项目案例:爬QQ音乐歌曲
-
15.1 分析网站
-
15.2 开始爬取
-
-
第16章 项目案例:爬百度翻译
-
16.1 分析网站
-
16.2 开始爬取
-
-
第17章 项目案例:爬百度地图API
-
17.1 分析网站
-
17.2 开始爬取
-
-
第18章 项目案例:爬360图片
-
18.1 分析网站
-
18.2 开始爬取
-
-
第19章 项目案例:爬当当网
-
19.1 分析网站
-
19.2 开始爬取
-
-
第20章 项目案例:爬唯品会
-
20.1 分析网站
-
20.2 开始爬取
-
-
第21章 项目案例:爬智联招聘
-
21.1 分析网站
-
21.2 开始爬取
-
- 出版地 : 中國大陸
- 語言 : 簡體中文
評分與評論
請登入後再留言與評分