Scrapy Crawlspider中的deny设置无效?如何正确使用正则表达式进行URL过滤?

scrapy crawlspider中的deny设置无效?如何正确使用正则表达式进行url过滤?

scrapy crawlspider中的deny设置无效?

问题:使用rule设置了deny参数,但发现运行时仍然爬取了包含deny关键词的链接。例如,设置了deny=(“guba”、“data”...),但发现爬取了包含“guba”的链接。

解答:deny参数的设置需要遵循正则表达式语法。如果deny参数不是正则表达式,则只有当网址完全匹配deny关键词时才会被拒绝。

在给出的代码中,deny参数中的值(如“guba”、“data”)没有使用正则表达式语法。因此,只有当网址完全包含这些字符串时才会被拒绝。而“guba.eastmoney.com/list,of166401.html”这样的网址虽然包含“guba”,但不是完全匹配,所以不会被deny参数拒绝。

要正确使用deny参数,需要将其修改为正则表达式,例如:

deny=(r'guba', r'data')

以上就是Scrapy Crawlspider中的deny设置无效?如何正确使用正则表达式进行URL过滤?的详细内容,更多请关注www.sxiaw.com其它相关文章!