摘要:
主程序: items: middlewares: pipelines: settings(加入):
阅读全文
posted @ 2018-04-18 13:44
GhostAatrox
阅读(144)
推荐(0)
摘要:
import re,requests,xlwt from lxml import etree headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', } end_list=...
阅读全文
posted @ 2018-04-18 13:40
GhostAatrox
阅读(112)
推荐(0)
摘要:
import pytesseract from PIL import Image #设置tesseract安装路径 pytesseract.tesseract_cmd=r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe' image = Image.open(r"C:\Users\Administrator\Desktop\3.jpg") p...
阅读全文
posted @ 2018-04-11 22:43
GhostAatrox
阅读(118)
推荐(0)
摘要:
遇到的问题:网站设置了简单的反爬虫规则:数字防爬,如:这样的。 解决方法:直接获取0-9的编码加入字典以此替换。 代码如下: 效果图:
阅读全文
posted @ 2018-04-10 14:51
GhostAatrox
阅读(761)
推荐(0)
摘要:
目标网址:url = 'https://xiang.zu.anjuke.com/fangyuan/p3/#' 最终目的:将所有信息建立数据库并存入。 代码: 总结:此项目并没有什么难度,主要是re的构造以精准抓取以及信息的提取。 最终效果图 我们还可以将数据库导出成xls文件更加方便查看 如果没有数
阅读全文
posted @ 2018-04-03 23:07
GhostAatrox
阅读(163)
推荐(0)
摘要:
招聘网站: 目标:职位、地址、薪资、工作经验要求、学历要求。 房租网站: 以上项目全部用xls文档方式导出。 总结: l 首先先分析详细页里面的需要获取的信息的规律,如果存在相同多标签下的信息,直接用BeautifulSoup提取[*],如果是单标签下的 直接re构造 l 在爬取第三个job网站时发
阅读全文
posted @ 2018-04-03 15:28
GhostAatrox
阅读(151)
推荐(0)
摘要:
站点: 问题: 1.在第二个站点的时候,遇到了页面翻页问题 不像常规的构造页面(因为无规律)#尚未解决 目前思路是构造跳转函数循环跳转。 结果:完美解决 处理方法:循环调用函数,因为下一页有固定href的tag所以可以用提取href ==>调用href ==>提取需要的数据 ==>提取换页href
阅读全文
posted @ 2018-04-03 15:28
GhostAatrox
阅读(102)
推荐(0)
摘要:
根据今天实战任务之5个任务网站: http://bbs.fishc.com/forum-173-1.html http://xiaohua.zol.com.cn/lengxiaohua/2.html http://jobs.zhaopin.com/xiangtan/ By xpath https:/
阅读全文
posted @ 2018-04-03 15:27
GhostAatrox
阅读(160)
推荐(0)
摘要:
边界匹配 ^ 头 $ 尾 \A 串头 \Z 串尾 预定义字符集: \d [0-9] 数字 \D [^0-9] \s 匹配任何空白字符 \S匹配任何非空白字符 \w【A-Za-z0-9】 \W【^A-Za-z0-9】 下面记录一个xls存储: import xlwt book = Workbook(e
阅读全文
posted @ 2018-04-03 15:25
GhostAatrox
阅读(108)
推荐(0)
摘要:
目标:爬取猎聘网深圳的所有python类职位信息并导出xls 网址:https://www.shixiseng.com/interns?k=Python&p=1 思路流程:观察网页的标签等构造 ==> 构造函数获取详细页链接 ==> 进入详细页获取详细信息 ==> 构造分页函数(根据翻页判断何种为翻
阅读全文
posted @ 2018-04-03 13:15
GhostAatrox
阅读(214)
推荐(0)