Scrapy Crawlspider中的deny设置无效？如何正确使用正则表达式进行URL过滤？

scrapy crawlspider中的deny设置无效？如何正确使用正则表达式进行url过滤？

scrapy crawlspider中的deny设置无效？

问题：使用rule设置了deny参数，但发现运行时仍然爬取了包含deny关键词的链接。例如，设置了deny=(“guba”、“data”...)，但发现爬取了包含“guba”的链接。

解答：deny参数的设置需要遵循正则表达式语法。如果deny参数不是正则表达式，则只有当网址完全匹配deny关键词时才会被拒绝。

在给出的代码中，deny参数中的值（如“guba”、“data”）没有使用正则表达式语法。因此，只有当网址完全包含这些字符串时才会被拒绝。而“guba.eastmoney.com/list,of166401.html”这样的网址虽然包含“guba”，但不是完全匹配，所以不会被deny参数拒绝。

要正确使用deny参数，需要将其修改为正则表达式，例如：

deny=(r'guba', r'data')

以上就是Scrapy Crawlspider中的deny设置无效？如何正确使用正则表达式进行URL过滤？的详细内容，更多请关注www.sxiaw.com其它相关文章！