400-123-4657

行业资讯

当前位置：首页 > 新闻动态 > 行业资讯

关于Scrapy爬虫项目运行和调试的小技巧（下篇）_BD半岛官方网站体育

2024-11-21点击量：482

本文摘要：前几天给大家共享了关于Scrapy爬虫项目运营和调试的小技巧上篇，没有再也上车的小伙伴可以砍超链接看一下。

前几天给大家共享了关于Scrapy爬虫项目运营和调试的小技巧上篇，没有再也上车的小伙伴可以砍超链接看一下。今天小编之后沿着上篇的思路往下伸延，给大家共享更加简单的Scrapy项目调试技巧。

三、设置网站robots．txt规则为False一般的，我们在运用Scrapy框架捕捉数据之前，必须提早到settings．py文件中，将“ROBOTSTXT＿OBEY＝True”改回ROBOTSTXT＿OBEY＝False。在未改动之后settings．py文件中配置文件爬虫是遵从网站的robots．txt规则的，如下图右图。如果遵从robots．txt规则的话，那么爬取的结果不会自动过滤器掉很多我们想的目标信息，因此有适当将该参数设置为False，如下图右图。

设置好robots．txt规则之后，我们之后可以捉到更加多网页的信息。四、利用Scrapyshell展开调试一般来说我们要运营Scrapy爬虫程序的时候不会在命令行中输出“scrapycrawlcrawler＿name”，细心的小伙伴应当告诉上篇文章中创立的main．py文件也是可以提升调试效率的，不过这两种方法都是必须从头到尾运营Scrapy爬虫项目，每次都必须催促一次URL，效率十分较低。运营过Scrapy爬虫项目的小伙伴都告诉Scrapy运营的时候比较较快，有时候因为网速不平稳，根部就无法动弹。

针对每次都必须运营Scrapy爬虫的问题，这里讲解Scrapyshell调试方法给大家，可以事半功倍噢。Scrapy给我们获取了一种shell模式，让我们可以在shell脚本之下提供整个URL对应的网页源码。在命令行中展开运营，其语法命令是“scrapyshellURL”，URL是所指你必须捕捉的网页网址或者链接，如下图右图。

该命令代表的意思是对该URL展开调试，当命令继续执行之后，我们就早已提供到了该URL所对应的网页内容，之后我们就可以在该shell下展开调试，很久不必每次都继续执行Scrapy爬虫程序，发动URL催促了。通过shell脚本这种方式可以很大的提升调试的效率，明确的调试方法同爬虫主体文件中的表达式语法完全一致。荐个栗子，如下图右图。

将两个Xpath表达式所对应的选择器放在scrapyshell调试的脚本下，我们可以很确切的看见萃取的目标信息，而且省却了每次运营Scrapy爬虫程序的反复步骤，提升了研发效率。这种方式在Scrapy爬虫过程中十分常用，而且也十分的简单，期望小伙伴们都可以掌控，并且积极主动的为自己所用。

本文关键词：半岛·体育(BOB),半岛·体育(BOB)官方入口,BD半岛官方网站体育,半岛·体育网站平台登陆,bd半岛·体育(中国)官方网站,bob半岛·体育官方平台

本文来源：半岛·体育(BOB)-www.feizhuliu.org

上一篇 : ‘bob半岛·体育官方平台’亚马逊Alexa智能头盔是SAFE

下一篇 : bd半岛·体育(中国)官方网站|【案例赏析】香港1881广场诠释LED照明独特光影魅力