Scrapy命令合集

全局命令行:

  • startproject
  • genspider
  • settings
  • runspider
  • shell
  • fetch
  • view
  • version

项目命令行(仅针对项目执行):

  • crawl
  • check
  • list
  • edit
  • parse
  • bench

命令示例

查看scrapy版本: scrapy version

创建scrapy项目: scrapy startproject tutorial

快速创建一个spider: scrapy genspider mydomain mydomain.com

列出项目下可用爬虫: scrapy list

爬取远程至网页至临时目录并打开查看: scrapy view

爬取远程并在Shell中查看: scrapy fetch

启动项目下爬虫: scrapy crawl dmoz (注:需在scrapy项目目录下执行,dmoz为spiders下某spider的name)

Shell分析远程网页: scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"

爬虫数据保存至指定json文件: scrapy crawl dmoz -o items.json