
0人評分過此書
爬蟲在手 資料我有:7堂課學會高效率Scrapy爬蟲
由淺入深了解Scrapy爬蟲框架,讓你從零開始建立高效率爬蟲!
◆自學網路爬蟲沒問題,手把手教學讓你無痛上手
◆完整的網路爬蟲和Scrapy知識,資料取得更輕鬆
◆學會各種套件和實作範例,讓你的爬蟲比別人更有效率
本書內容改編自第11屆iT邦幫忙鐵人賽的AI & Data組優選網路系列文章─《爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰》。在AI的大時代中,「資料來源」是基礎中的基礎,但網路上的資料豐富又繁雜,總不可能都靠人工來蒐集資料。這時就是爬蟲出場的時候了!本書會帶讀者了解爬蟲的基礎知識,克服爬蟲常見的問題,最後可以寫出維護成本低、執行效率高的爬蟲程式。
│四大重點│
★初學者必備的爬蟲指南,大大降低你的學習門檻
網路爬蟲妙計已為你爬取完成!從安裝環境、認識架構、資料儲存、除錯到各類型網
站實作,本書將一步步帶你學會網路爬蟲。
★全面解析各種知識,爬蟲能力再提升
不只教你如何進行網路爬蟲,還要帶你深入Scrapy架構,並特別介紹NoSQL、反反
爬蟲。提升你的爬蟲技能,擁有越級打怪的神力。
★活用各種套件,打造高效率爬蟲
本書將手把手帶你活用各種套件,並從範例中學會撰寫精簡有效的程式碼,讓你克服
問題、達成任務,邁向高效率的資料取得之路。
★爬取資料生活化,就像抓寶一樣好玩有趣!
你會學到如何抓取PTT、Mobile01、新聞網站、股市網站資料,你想要的各種資料都能
輕鬆取得。
│適用讀者│
◆對Python有基礎了解,想要學習爬蟲程式的初學者
◆為爬蟲維護和效能所苦,想要更進一步的開發人員
◆自學網路爬蟲沒問題,手把手教學讓你無痛上手
◆完整的網路爬蟲和Scrapy知識,資料取得更輕鬆
◆學會各種套件和實作範例,讓你的爬蟲比別人更有效率
本書內容改編自第11屆iT邦幫忙鐵人賽的AI & Data組優選網路系列文章─《爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰》。在AI的大時代中,「資料來源」是基礎中的基礎,但網路上的資料豐富又繁雜,總不可能都靠人工來蒐集資料。這時就是爬蟲出場的時候了!本書會帶讀者了解爬蟲的基礎知識,克服爬蟲常見的問題,最後可以寫出維護成本低、執行效率高的爬蟲程式。
│四大重點│
★初學者必備的爬蟲指南,大大降低你的學習門檻
網路爬蟲妙計已為你爬取完成!從安裝環境、認識架構、資料儲存、除錯到各類型網
站實作,本書將一步步帶你學會網路爬蟲。
★全面解析各種知識,爬蟲能力再提升
不只教你如何進行網路爬蟲,還要帶你深入Scrapy架構,並特別介紹NoSQL、反反
爬蟲。提升你的爬蟲技能,擁有越級打怪的神力。
★活用各種套件,打造高效率爬蟲
本書將手把手帶你活用各種套件,並從範例中學會撰寫精簡有效的程式碼,讓你克服
問題、達成任務,邁向高效率的資料取得之路。
★爬取資料生活化,就像抓寶一樣好玩有趣!
你會學到如何抓取PTT、Mobile01、新聞網站、股市網站資料,你想要的各種資料都能
輕鬆取得。
│適用讀者│
◆對Python有基礎了解,想要學習爬蟲程式的初學者
◆為爬蟲維護和效能所苦,想要更進一步的開發人員
-
1 基礎知識
-
1.1 安裝開發環境
-
1.1.1 虛擬環境
-
-
1.2 網路資料常見的格式
-
1.2.1 CSV
-
1.2.2 JSON
-
1.2.3 HTML
-
-
-
2 爬蟲基礎
-
2.1 剖析來源資料
-
2.1.1 當成HTML 處理
-
2.1.2 當作XML 處理
-
-
2.2 從網路上取得資料
-
2.2.1 請求與回應
-
2.2.2 Cookie 和Session
-
-
-
3 基礎實戰–蒐集iThelp文章資料
-
3.1 列表頁
-
3.1.1 決定選擇器
-
3.1.2 了解目標網站的結構
-
-
3.2 換頁
-
3.2.1 改變網址參數
-
3.2.2 抓下一頁的網址
-
-
3.3 內文
-
3.3.1 決定選擇器
-
3.3.2 文字內容前處理
-
-
3.4 文章資訊
-
3.4.1 區塊定位
-
3.4.2 作者
-
3.4.3 發文時間
-
3.4.4 文章標籤
-
3.4.5 瀏覽數
-
-
3.5 回文
-
3.5.1 區塊定位
-
3.5.2 回文作者
-
3.5.3 回應時間
-
3.5.4 回文內容
-
-
-
4 資料持久化
-
4.1 PostgreSQL
-
4.1.1 安裝
-
4.1.2 初始化資料庫
-
4.1.3 在程式中使用資料庫
-
4.1.4 寫入文章資料
-
4.1.5 寫入回文資料
-
4.1.6 判斷是否重複
-
-
4.2 NoSQL
-
4.2.1 安裝
-
4.2.2 初始化資料庫
-
4.2.3 在程式中使用資料庫
-
4.2.4 寫入文章資料
-
4.2.5 寫入回文資料
-
-
-
5 進階爬蟲
-
5.1 反反爬蟲
-
5.1.1 頻率限制(Rate Limit / Throttle)
-
5.1.2 驗證碼(Captcha)
-
5.1.3 使用者代理(User-Agent)
-
5.1.4 非同步請求
-
-
5.2 練習其他網站
-
5.2.1 中央社新聞
-
5.2.2 PTT
-
5.2.3 Mobile01
-
5.2.4 股市資料
-
-
-
6 Scrapy基礎
-
6.1 Scrapy 架構
-
6.1.1 元件
-
6.1.2 資料流
-
-
6.2 開發環境
-
6.2.1 安裝
-
6.2.2 命令列介面
-
6.2.3 建立爬蟲
-
6.2.4 執行爬蟲
-
-
6.3 實作Scrapy 爬蟲
-
6.3.1 選擇器
-
6.3.2 執行邏輯
-
6.3.3 輸出結果
-
-
6.4 Scrapy 的結構化資料- Item
-
6.5 在Scrapy 中處理爬取結果- Item Pipelines
-
6.5.1 建立 Pipeline 元件
-
6.5.2 設定Pipeline 執行順序
-
-
6.6 在Scrapy 中處理請求和回應-Downloader Middlewares
-
6.6.1 建立Middleware 元件
-
6.6.2 更換User-Agent
-
-
6.7 Scrapy 的設定
-
6.8 在Scrapy 中操作瀏覽器
-
6.8.1 站在巨人的肩膀上
-
-
6.9 Scrapy 的日誌
-
6.10 蒐集Scrapy 的統計資訊
-
6.11 發送電子郵件
-
-
7 實戰Scrapy
-
7.1 Item Pipelines 應用–儲存資料到 MongoDB
-
7.2 在程式中啟動Scrapy 爬蟲
-
7.2.1 用 Python 執行 Scrapy 指令
-
7.2.2 scrapy.cmdline.execute
-
7.2.3 CrawlerProcess
-
7.2.4 CrawlerRunner
-
-
7.3 iThelp 的Scrapy 爬蟲
-
7.4 中央社新聞的Scrapy 爬蟲
-
7.5 PTT 的Scrapy 爬蟲
-
7.6 相同剖析邏輯的多個資料來源
-
- 出版地 : 臺灣
- 語言 : 繁體中文
評分與評論
請登入後再留言與評分