Scrapy

Scrapy（ SKRAY-peye）はPythonで開発されたフリーでオープンソースのクロールフレームワーク。元々はウェブスクレイピング用に設計されたが、 APIを使用したデータの抽出や、汎用のクローラーとしても使用できる。現在、ウェブスクレイピングの開発およびサービス会社であるScrapinghub Ltd.で管理されている。 Scrapyプロジェクトアーキテクチャは、「スパイダー」を中心に構築されている。DjangoなどのフレームワークをDRY他の精神を踏襲し、開発者がコードを再利用できるようにしている。さらに、サイトの動作に関する想定をテストするために開発者が使用できるWebクロールシェルを提供する。 Scrapyを使用している有名な会社と製品には、Lyst、Parse.ly、Sayone Technologies、Sciences Po Medialab、Data.gov.ukの世界政府データサイトがある。

Scrapyは、ロンドンを拠点とするアグリゲーターおよびEC会社のMydecoで開発がスタートした。Mydecoは、MydecoおよびInsophia（ウルグアイのモンテビデオに拠点を置くWebコンサルティング会社）の従業員によって開発および管理されている。最初の公開リリースはBSDライセンスに基づく2008年8月で、マイルストーン1.0のリリースは2015年6月に行われた。 2011年に、Scrapinghubが新しい公式メンテナになった。

出典

外部リンク

公式ウェブサイト（英語）

Scrapy Tutorial Part 8 YouTube

原文： Scrapy 1.6 documentation

Scrapy 入门教程

How To Build A Web Scraper With Python & Scrapy for Beginners

Scrapy Overview and Demo (web crawling and scraping) YouTube