随笔分类 - 爬虫知识点
python / selenium / pyspider / nodejs
摘要:除了上篇讲的 wget ,用于下载的场景之外, 我们还需要上传文件到对面服务器的情况,那这样就需要用到 rsync 命令是: rsync -rP --rsh=ssh src_path/ dst_path/ 如何安装呢? apt install rsync -y 这样就可以了。 当然,它也适合于 ft
阅读全文
摘要:不少同学问我有没有好的工具可以在 linux下实现断点续传 有不少人用的是 wget ,其实它自带有一个断点续传的参数 用 -c 命令 , 就可以实现了: wget -c https://source_file 这样大概就不用担心服务器受限情况或者网络问题了。 它也支持除了 https 之外的协议。
阅读全文
摘要:最简单的使用方式在此 docker pull binux/pyspider:master sudo docker run -d -p 5000:5000 -v /opt/pyspider:/opt/pyspider binux/pyspider:master
阅读全文
摘要:这种情况的出现是我在windows 10 上装 pyspider 才出现, 我的环境是 python 2.7 一开始的问题是 pycurl 无法安装。后来装了一个网盘上的包,安装好就好. 当运行 pyspider all 后,出现以下错误: ValueError: Invalid configura
阅读全文
摘要:来,先上代码: import requests import json url = "http://example.com" data = { 'tt': 1, 'gg': 2, } # 以下有两种 : # 1。data参数传 requests.post(url, data=json.dumps(d
阅读全文
摘要:知识点来:先上代码。看懂的就直接用。不费话。 # -*- coding: utf-8 -*- from bs4 import BeautifulSoup as bs import urllib, json, re import sys reload(sys) sys.setdefaultencodi
阅读全文

浙公网安备 33010602011771号