随笔分类 - 爬虫
摘要:基本上不需要修改原有代码,添加如下代码即可。 注:在settings.py 中需要注释点原有的 USER_AGENT 配置。 ############### ##settings.py## ############### ### 配置IP代理池 IPPOOL = [ {"ipaddr":"x.x.x
阅读全文
摘要:一、介绍 在爬虫数据解析中有三种解析方式 1、re解析 #运行速度最快、效率高、准确性搞。 但是上手难度高 2、bs4解析 #代码简单、但执行效率不高 3、xpath解析 #语法简单,容易上手 注:在线正则表达式:https://tool.oschina.net/regex 二、符号表达式 1 .
阅读全文
摘要:1、Python3 安装 # https://www.cnblogs.com/weijie0717/p/15625050.html 2、安装 scrapy # pip3 install scrapy # 出现报红,多尝试几次 3、创建Scrapy软链接 # ln -s /usr/local/pyth
阅读全文