五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2018年9月4日

摘要: 1.创建爬虫项目: scrapy startproject tutorial 2.创建 spider cd tutorial scrapy genspider quotes quotes.toscrape.com 如下图: 3. quotes.py _________________________ 阅读全文
posted @ 2018-09-04 15:40 五杀摇滚小拉夫 阅读(276) 评论(0) 推荐(0)

摘要: (为编写完善能拿下来数据) 企查查代码数据如下: 阅读全文
posted @ 2018-09-04 15:16 五杀摇滚小拉夫 阅读(712) 评论(0) 推荐(0)

摘要: #这里数字转换主要是为了解决网站返回虚假数据的问题,但写完才发现网站的数字是有自己的一套机制的,而不是固定的,因此不好解决,那就当回顾一下re匹配知识吧。 1 str="1332-31-15" 2 3 4 # print(str[:-5]) 5 # print(str1[:-5]) 6 7 8 import re 9 10 11 # print(A) 12 # pr... 阅读全文
posted @ 2018-09-04 15:10 五杀摇滚小拉夫 阅读(177) 评论(0) 推荐(0)

摘要: !!!!本节就是解决天眼查爬虫问题:!!!!(看完有建议和想法的话记得交流一下) 主要思路 绕过验证,使用代理ip,间接的通过手机端mbaidu.com 通过字符串拼接的方式获取搜索天眼查网页数据。 重点: 1.这里我采用的是python3+selenium+chromedriver写的代码,主要问 阅读全文
posted @ 2018-09-04 15:01 五杀摇滚小拉夫 阅读(5623) 评论(3) 推荐(1)