随笔分类 -  爬虫

python+selenium+xpath 爬取天眼查工商基本信息
摘要:# -*- coding:utf-8 -*-# author: kevin# CreateTime: 2018/8/16# software-version: python 3.7import timefrom selenium import webdriverfrom selenium.webdriver import Firefoximport osclass GetCompanyInfo(o... 阅读全文
posted @ 2018-08-27 10:00 程序小院 阅读(5785) 评论(0) 推荐(0)
python requests + xpath 获取分页详情页数据存入到txt文件中
摘要:直接代码,如有不懂请加群讨论# *-* coding:utf-8 *-* #import jsonimport requestsimport pytesseractimport timeimport datetimefrom PIL import Imagefrom bs4 import BeautifulSoupimport urllib3import randomimport osfrom ... 阅读全文
posted @ 2018-07-20 14:38 程序小院 阅读(3689) 评论(0) 推荐(0)
scrapy python2升级python3遇到的坑
摘要:换成Python3首先pycharm先执行: 然后看代码自己所需要的第三方库都要重新装 然后执行代码: 遇到这样的错如下: SyntaxError: invalid syntax 先检查print 所有的print ('success') 都要加() 然后再执行 这样的错是 python3.7版本使 阅读全文
posted @ 2018-05-12 11:33 程序小院 阅读(252) 评论(0) 推荐(0)
python scrapy同时执行spiders多个爬虫
摘要:假设spiders文件夹下多个文件: name.py name = 'name' name1.py name = 'name1' name2.py name = 'name2' ... 这里可以根据上篇文章http://www.cnblogs.com/chaihy/p/9044574.html 根据 阅读全文
posted @ 2018-04-28 10:51 程序小院 阅读(445) 评论(0) 推荐(0)
Python scrapy爬取带验证码的列表数据
摘要:首先所需要的环境:(我用的是Python2的,可以选择python3,具体遇到的问题自行解决,目前我这边几百万的数据量爬取) 阅读全文
posted @ 2018-04-22 10:19 程序小院 阅读(1266) 评论(0) 推荐(0)
pytesseract 验证码识别
摘要:以下代码,如有不懂加群讨论# *-* coding:utf-8 *-* #import jsonimport requestsimport pytesseractimport timeimport datetimefrom PIL import Imagefrom bs4 import BeautifulSoupimport urllib3import randomimport osdef bi... 阅读全文
posted @ 2018-02-04 17:17 程序小院 阅读(419) 评论(0) 推荐(0)
安居客滑动验证码识别
摘要:jiami.js 链接:https://pan.baidu.com/s/14yVUxMt3lYd_aHkl1EiDQw 密码:ti9t 阅读全文
posted @ 2018-01-03 17:11 程序小院 阅读(2922) 评论(3) 推荐(0)