0人評分過此書

爬蟲在手 資料我有:7堂課學會高效率Scrapy爬蟲

出版日期
2021/03/01
閱讀格式
PDF
書籍分類
學科分類
ISBN
9789864347438

本館館藏

借閱規則
當前可使用人數 30
借閱天數 14
線上看 0
借閱中 0

計次服務

借閱規則
借閱天數 14
選擇分享方式

推薦本館採購書籍

您可以將喜歡的電子書推薦給圖書館,圖書館會參考讀者意見進行採購

讀者資料
圖書館
* 姓名
* 身分
系所
* E-mail
※ 我們會寄送一份副本至您填寫的Email中
電話
※ 電話格式為 區碼+電話號碼(ex. 0229235151)/ 手機格式為 0900111111
* 請輸入驗證碼
由淺入深了解Scrapy爬蟲框架,讓你從零開始建立高效率爬蟲!


◆自學網路爬蟲沒問題,手把手教學讓你無痛上手
◆完整的網路爬蟲和Scrapy知識,資料取得更輕鬆
◆學會各種套件和實作範例,讓你的爬蟲比別人更有效率

本書內容改編自第11屆iT邦幫忙鐵人賽的AI & Data組優選網路系列文章─《爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰》。在AI的大時代中,「資料來源」是基礎中的基礎,但網路上的資料豐富又繁雜,總不可能都靠人工來蒐集資料。這時就是爬蟲出場的時候了!本書會帶讀者了解爬蟲的基礎知識,克服爬蟲常見的問題,最後可以寫出維護成本低、執行效率高的爬蟲程式。

│四大重點│

★初學者必備的爬蟲指南,大大降低你的學習門檻
網路爬蟲妙計已為你爬取完成!從安裝環境、認識架構、資料儲存、除錯到各類型網
站實作,本書將一步步帶你學會網路爬蟲。

★全面解析各種知識,爬蟲能力再提升
不只教你如何進行網路爬蟲,還要帶你深入Scrapy架構,並特別介紹NoSQL、反反
爬蟲。提升你的爬蟲技能,擁有越級打怪的神力。

★活用各種套件,打造高效率爬蟲
本書將手把手帶你活用各種套件,並從範例中學會撰寫精簡有效的程式碼,讓你克服
問題、達成任務,邁向高效率的資料取得之路。

★爬取資料生活化,就像抓寶一樣好玩有趣!
你會學到如何抓取PTT、Mobile01、新聞網站、股市網站資料,你想要的各種資料都能
輕鬆取得。


│適用讀者│

◆對Python有基礎了解,想要學習爬蟲程式的初學者
◆為爬蟲維護和效能所苦,想要更進一步的開發人員
  • 1 基礎知識
    • 1.1 安裝開發環境
      • 1.1.1 虛擬環境
    • 1.2 網路資料常見的格式
      • 1.2.1 CSV
      • 1.2.2 JSON
      • 1.2.3 HTML
  • 2 爬蟲基礎
    • 2.1 剖析來源資料
      • 2.1.1 當成HTML 處理
      • 2.1.2 當作XML 處理
    • 2.2 從網路上取得資料
      • 2.2.1 請求與回應
      • 2.2.2 Cookie 和Session
  • 3 基礎實戰–蒐集iThelp文章資料
    • 3.1 列表頁
      • 3.1.1 決定選擇器
      • 3.1.2 了解目標網站的結構
    • 3.2 換頁
      • 3.2.1 改變網址參數
      • 3.2.2 抓下一頁的網址
    • 3.3 內文
      • 3.3.1 決定選擇器
      • 3.3.2 文字內容前處理
    • 3.4 文章資訊
      • 3.4.1 區塊定位
      • 3.4.2 作者
      • 3.4.3 發文時間
      • 3.4.4 文章標籤
      • 3.4.5 瀏覽數
    • 3.5 回文
      • 3.5.1 區塊定位
      • 3.5.2 回文作者
      • 3.5.3 回應時間
      • 3.5.4 回文內容
  • 4 資料持久化
    • 4.1 PostgreSQL
      • 4.1.1 安裝
      • 4.1.2 初始化資料庫
      • 4.1.3 在程式中使用資料庫
      • 4.1.4 寫入文章資料
      • 4.1.5 寫入回文資料
      • 4.1.6 判斷是否重複
    • 4.2 NoSQL
      • 4.2.1 安裝
      • 4.2.2 初始化資料庫
      • 4.2.3 在程式中使用資料庫
      • 4.2.4 寫入文章資料
      • 4.2.5 寫入回文資料
  • 5 進階爬蟲
    • 5.1 反反爬蟲
      • 5.1.1 頻率限制(Rate Limit / Throttle)
      • 5.1.2 驗證碼(Captcha)
      • 5.1.3 使用者代理(User-Agent)
      • 5.1.4 非同步請求
    • 5.2 練習其他網站
      • 5.2.1 中央社新聞
      • 5.2.2 PTT
      • 5.2.3 Mobile01
      • 5.2.4 股市資料
  • 6 Scrapy基礎
    • 6.1 Scrapy 架構
      • 6.1.1 元件
      • 6.1.2 資料流
    • 6.2 開發環境
      • 6.2.1 安裝
      • 6.2.2 命令列介面
      • 6.2.3 建立爬蟲
      • 6.2.4 執行爬蟲
    • 6.3 實作Scrapy 爬蟲
      • 6.3.1 選擇器
      • 6.3.2 執行邏輯
      • 6.3.3 輸出結果
    • 6.4 Scrapy 的結構化資料- Item
    • 6.5 在Scrapy 中處理爬取結果- Item Pipelines
      • 6.5.1 建立 Pipeline 元件
      • 6.5.2 設定Pipeline 執行順序
    • 6.6 在Scrapy 中處理請求和回應-Downloader Middlewares
      • 6.6.1 建立Middleware 元件
      • 6.6.2 更換User-Agent
    • 6.7 Scrapy 的設定
    • 6.8 在Scrapy 中操作瀏覽器
      • 6.8.1 站在巨人的肩膀上
    • 6.9 Scrapy 的日誌
    • 6.10 蒐集Scrapy 的統計資訊
    • 6.11 發送電子郵件
  • 7 實戰Scrapy
    • 7.1 Item Pipelines 應用–儲存資料到 MongoDB
    • 7.2 在程式中啟動Scrapy 爬蟲
      • 7.2.1 用 Python 執行 Scrapy 指令
      • 7.2.2 scrapy.cmdline.execute
      • 7.2.3 CrawlerProcess
      • 7.2.4 CrawlerRunner
    • 7.3 iThelp 的Scrapy 爬蟲
    • 7.4 中央社新聞的Scrapy 爬蟲
    • 7.5 PTT 的Scrapy 爬蟲
    • 7.6 相同剖析邏輯的多個資料來源

評分與評論

請登入後再留言與評分
幫助
您好,請問需要甚麼幫助呢?
使用指南

客服專線:0800-000-747

服務時間:週一至週五 AM 09:00~PM 06:00

loading