随笔分类 -  爬虫知识点

python / selenium / pyspider / nodejs
摘要:除了上篇讲的 wget ,用于下载的场景之外, 我们还需要上传文件到对面服务器的情况,那这样就需要用到 rsync 命令是: rsync -rP --rsh=ssh src_path/ dst_path/ 如何安装呢? apt install rsync -y 这样就可以了。 当然,它也适合于 ft 阅读全文
posted @ 2020-03-24 08:35 大师傅工具箱 阅读(306) 评论(0) 推荐(0)
摘要:不少同学问我有没有好的工具可以在 linux下实现断点续传 有不少人用的是 wget ,其实它自带有一个断点续传的参数 用 -c 命令 , 就可以实现了: wget -c https://source_file 这样大概就不用担心服务器受限情况或者网络问题了。 它也支持除了 https 之外的协议。 阅读全文
posted @ 2020-03-24 08:32 大师傅工具箱 阅读(1999) 评论(0) 推荐(0)
摘要:最简单的使用方式在此 docker pull binux/pyspider:master sudo docker run -d -p 5000:5000 -v /opt/pyspider:/opt/pyspider binux/pyspider:master 阅读全文
posted @ 2020-02-25 11:57 大师傅工具箱 阅读(129) 评论(0) 推荐(0)
摘要:这种情况的出现是我在windows 10 上装 pyspider 才出现, 我的环境是 python 2.7 一开始的问题是 pycurl 无法安装。后来装了一个网盘上的包,安装好就好. 当运行 pyspider all 后,出现以下错误: ValueError: Invalid configura 阅读全文
posted @ 2020-02-21 22:27 大师傅工具箱 阅读(482) 评论(0) 推荐(0)
摘要:来,先上代码: import requests import json url = "http://example.com" data = { 'tt': 1, 'gg': 2, } # 以下有两种 : # 1。data参数传 requests.post(url, data=json.dumps(d 阅读全文
posted @ 2020-02-19 10:31 大师傅工具箱 阅读(764) 评论(0) 推荐(0)
摘要:知识点来:先上代码。看懂的就直接用。不费话。 # -*- coding: utf-8 -*- from bs4 import BeautifulSoup as bs import urllib, json, re import sys reload(sys) sys.setdefaultencodi 阅读全文
posted @ 2020-02-16 18:40 大师傅工具箱 阅读(446) 评论(0) 推荐(0)