Scrapy Note
  • Scrapy Note・・・製作中
  • 第1章 スクレイピングの注意点
  • 第2章 Scrapyの概要について
  • 第3章 Scrapyの環境設定
  • 第4章 Scrapy Tutorial1
  • 第5章 Scrapy ShellとXpath
  • 第6章 Scrapy Tutorial2
  • 第7章 ScrapyとMySQL
  • 第8章 ScrapyとHTTP
  • 第9章 Scrapyのスケジュール
  • 第10章 ScrapyとRaspberry Pi
  • 第11章 Scrapy Tutorial3
  • 第12章 ScrapyとJavaScript
  • 補章1 Pythonとクローラー
  • 補章2 R言語とクローラー
  • 補章3 DockerとSplash
GitBook提供
このページ内
  • はじめに
  • 参考書籍とサイト
  • 免責事項
  • 実行環境

役に立ちましたか?

Scrapy Note・・・製作中

次へ第1章 スクレイピングの注意点

最終更新 4 年前

役に立ちましたか?

はじめに

この本は、Pythonで書かれたWebクロールフレームワークであるScrapyを中心に、Webスクレイピングの基礎的な部分からScrapyの使い方まで、個人的に学習した内容をまとめているものです。例えば、wget、正規表現、BeautifulSoup、Seleniumなどを組み合わせることで、クローラーの作成やWebスクレイピングはできますが、ここではScrapyに焦点をあてています。

備忘録みたいなものなので、この中で作成したscrapyのプロジェクトはパブリックリポジトリで管理してないです。なので、役に立つような情報はない・・・よ。

また、Pythonについては、2020年5月からScrapyの学習に合わせて使い始めました。そのため、コードの記述において、杜撰な箇所が散見されると思いますし、トンチンカンな説明を書いている可能性は否めません。基本的には参考書籍やサイトの内容をもとに、自分用にまとめています。

参考書籍とサイト

下記の書籍を参考に、Scrapyの利用方法をまとめています。

免責事項

Webスクレイピングは時と場合によっては法律の問題に発展する恐れがありますので、ここにまとめられているサンプルコードを実行したことによって、万一いかなる損害が発生したとしても、著者はいかなる責任も負いません。また、本書はスクレイピングを推奨するものではありません。サンプルスクリプトを参考に、スクレイピングを実行される場合は、すべて自己責任でお使いいただけますと幸いです。

実行環境

macOSの環境で実行しています。バージョンは下記の通りです。

$ sw_vers
ProductName:	Mac OS X
ProductVersion:	10.15.4
BuildVersion:	19E287

Pythonのバージョンは下記のとおりです。

$ python3 -V
Python 3.8.2

Scrapyのバージョンは下記のとおりです。

$ scrapy -V
Scrapy 2.0.1 
Dimitrios Kouzis-Loukas (2016) Learning Scrapy, Packt Publishing
Scrapy Tutorial