| | | |

2018年12月19日

google image

摘要： google图片抓取 google图片是base64加密的,而且base64后的信息放在script信息里面阅读全文

posted @ 2018-12-19 17:09 守护式等待阅读(1568) 评论(0) 推荐(0)

CFDA

摘要： cfda数据抓取 1.网站数据是加密的,需要浏览器进行数据解析 2.网址url有js加密 3.PhantomJS无法解析数据, chrome无法获取数据,所有最终选择用Firefox浏览器阅读全文

posted @ 2018-12-19 17:03 守护式等待阅读(626) 评论(0) 推荐(0)

获取当前ip

摘要：测ip地址http://2018.ip138.com/ic.asphttps://www.ip.cn/ 阅读全文

posted @ 2018-12-19 14:56 守护式等待阅读(256) 评论(0) 推荐(0)

编码问题

摘要： 1.unicode_escape转中文 print("\u6d77\u5916".encode("unicode_escape").decode("unicode_escape")) 2.忽略部分编码错误 decode('gb2312', 'ignore') odec can't decode by 阅读全文

posted @ 2018-12-19 14:15 守护式等待阅读(133) 评论(0) 推荐(0)

docker

摘要：启动docker docker run 启动容器--name=bt5 取个名字-d 后台启动--net 选择容器的网络类型host 使用本地网络-v 挂载卷/data1/home/teng.li/dockerfiles 本地服务器目录路径/my_python 容器自动创建-w 指定工作目录/my_p 阅读全文

posted @ 2018-12-19 14:04 守护式等待阅读(182) 评论(0) 推荐(0)

Scrapyd 的远程部署和监控

摘要： 1. 安装Scrapyd sudo pip3.6 install scrapyd # 安装scrapyd服务 sudo pip3.6 install scrapyd-client # 安装scrapyd客户端 1.1 修改default_scrapyd.conf文件使外部能访问 vim /usr/ 阅读全文

posted @ 2018-12-19 13:52 守护式等待阅读(1202) 评论(0) 推荐(0)

2018年12月18日

selenium 浏览器常用设置和部署

摘要： chrome实用参数 1 --allow-outdated-plugins 不停用过期的插件。 2 --allow-running-insecure-content 默认情况下，https 页面不允许从 http 链接引用 javascript/css/plug-ins。添加这一参数会放行这些内容。阅读全文

posted @ 2018-12-18 11:27 守护式等待阅读(1747) 评论(0) 推荐(0)

2018年12月17日

setting 常用配置

摘要：一，保存logging 信息 # 保存log信息的文件名 LOG_LEVEL = "INFO" LOG_STDOUT = True LOG_ENCODING = 'utf-8' # 路径 os.path.dirname(os.path.dirname(os.path.dirname(__file__ 阅读全文

posted @ 2018-12-17 20:29 守护式等待阅读(772) 评论(0) 推荐(0)

requests

摘要：一，requests发请求 s = requests.Session() payload = {'key1': 'value1', 'key2': 'value2'} proxies = {'http': 'http://47.98.163.18:8080', 'https': 'http://47 阅读全文

posted @ 2018-12-17 16:25 守护式等待阅读(1118) 评论(0) 推荐(0)

scrapy 常用代码

摘要：一，scrapy请求 yield scrapy.Request(url=url, dont_filter=True, callback=self.page, meta={'item': copy.deepcopy(item)}) yield scrapy.FormRequest(url=self.u 阅读全文

posted @ 2018-12-17 16:05 守护式等待阅读(596) 评论(0) 推荐(0)