随笔分类 - 爬虫
python+selenium+xpath 爬取天眼查工商基本信息
摘要:# -*- coding:utf-8 -*-# author: kevin# CreateTime: 2018/8/16# software-version: python 3.7import timefrom selenium import webdriverfrom selenium.webdriver import Firefoximport osclass GetCompanyInfo(o...
阅读全文
python requests + xpath 获取分页详情页数据存入到txt文件中
摘要:直接代码,如有不懂请加群讨论# *-* coding:utf-8 *-* #import jsonimport requestsimport pytesseractimport timeimport datetimefrom PIL import Imagefrom bs4 import BeautifulSoupimport urllib3import randomimport osfrom ...
阅读全文
scrapy python2升级python3遇到的坑
摘要:换成Python3首先pycharm先执行: 然后看代码自己所需要的第三方库都要重新装 然后执行代码: 遇到这样的错如下: SyntaxError: invalid syntax 先检查print 所有的print ('success') 都要加() 然后再执行 这样的错是 python3.7版本使
阅读全文
python scrapy同时执行spiders多个爬虫
摘要:假设spiders文件夹下多个文件: name.py name = 'name' name1.py name = 'name1' name2.py name = 'name2' ... 这里可以根据上篇文章http://www.cnblogs.com/chaihy/p/9044574.html 根据
阅读全文
Python scrapy爬取带验证码的列表数据
摘要:首先所需要的环境:(我用的是Python2的,可以选择python3,具体遇到的问题自行解决,目前我这边几百万的数据量爬取)
阅读全文
pytesseract 验证码识别
摘要:以下代码,如有不懂加群讨论# *-* coding:utf-8 *-* #import jsonimport requestsimport pytesseractimport timeimport datetimefrom PIL import Imagefrom bs4 import BeautifulSoupimport urllib3import randomimport osdef bi...
阅读全文
安居客滑动验证码识别
摘要:jiami.js 链接:https://pan.baidu.com/s/14yVUxMt3lYd_aHkl1EiDQw 密码:ti9t
阅读全文
浙公网安备 33010602011771号