GhostAatrox - 博客园

2018年4月18日

摘要：主程序： items: middlewares: pipelines: settings（加入）: 阅读全文

posted @ 2018-04-18 13:44 GhostAatrox 阅读(144) 评论(0) 推荐(0)

摘要： import re,requests,xlwt from lxml import etree headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', } end_list=... 阅读全文

posted @ 2018-04-18 13:40 GhostAatrox 阅读(112) 评论(0) 推荐(0)

2018年4月11日

验证码识别

摘要： import pytesseract from PIL import Image #设置tesseract安装路径 pytesseract.tesseract_cmd=r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe' image = Image.open(r"C:\Users\Administrator\Desktop\3.jpg") p... 阅读全文

posted @ 2018-04-11 22:43 GhostAatrox 阅读(118) 评论(0) 推荐(0)

2018年4月10日

实习僧网站爬取

摘要：遇到的问题：网站设置了简单的反爬虫规则：数字防爬，如：&#xf5e2这样的。解决方法：直接获取0-9的编码加入字典以此替换。代码如下：效果图: 阅读全文

posted @ 2018-04-10 14:51 GhostAatrox 阅读(761) 评论(0) 推荐(0)

2018年4月3日

项目实战房租网 mongdb

摘要：目标网址:url = 'https://xiang.zu.anjuke.com/fangyuan/p3/#' 最终目的：将所有信息建立数据库并存入。代码：总结：此项目并没有什么难度，主要是re的构造以精准抓取以及信息的提取。最终效果图我们还可以将数据库导出成xls文件更加方便查看如果没有数阅读全文

posted @ 2018-04-03 23:07 GhostAatrox 阅读(163) 评论(0) 推荐(0)

笔记!3月30日

摘要：招聘网站：目标：职位、地址、薪资、工作经验要求、学历要求。房租网站：以上项目全部用xls文档方式导出。总结： l 首先先分析详细页里面的需要获取的信息的规律，如果存在相同多标签下的信息，直接用BeautifulSoup提取[*],如果是单标签下的直接re构造 l 在爬取第三个job网站时发阅读全文

posted @ 2018-04-03 15:28 GhostAatrox 阅读(151) 评论(0) 推荐(0)

笔记3.31 5个项目并入库

摘要：站点：问题： 1.在第二个站点的时候，遇到了页面翻页问题不像常规的构造页面（因为无规律）#尚未解决目前思路是构造跳转函数循环跳转。结果：完美解决处理方法：循环调用函数，因为下一页有固定href的tag所以可以用提取href ==>调用href ==>提取需要的数据 ==>提取换页href 阅读全文

posted @ 2018-04-03 15:28 GhostAatrox 阅读(102) 评论(0) 推荐(0)

笔记2018年3月29日

摘要：根据今天实战任务之5个任务网站： http://bbs.fishc.com/forum-173-1.html http://xiaohua.zol.com.cn/lengxiaohua/2.html http://jobs.zhaopin.com/xiangtan/ By xpath https:/ 阅读全文

posted @ 2018-04-03 15:27 GhostAatrox 阅读(160) 评论(0) 推荐(0)

2018年3月28日笔记

摘要：边界匹配 ^ 头 $ 尾 \A 串头 \Z 串尾预定义字符集： \d [0-9] 数字 \D [^0-9] \s 匹配任何空白字符 \S匹配任何非空白字符 \w【A-Za-z0-9】 \W【^A-Za-z0-9】下面记录一个xls存储： import xlwt book = Workbook(e 阅读全文

posted @ 2018-04-03 15:25 GhostAatrox 阅读(108) 评论(0) 推荐(0)

实战小项目之猎聘网 #xls形式

摘要：目标：爬取猎聘网深圳的所有python类职位信息并导出xls 网址：https://www.shixiseng.com/interns?k=Python&p=1 思路流程:观察网页的标签等构造 ==> 构造函数获取详细页链接 ==> 进入详细页获取详细信息 ==> 构造分页函数（根据翻页判断何种为翻阅读全文

posted @ 2018-04-03 13:15 GhostAatrox 阅读(214) 评论(0) 推荐(0)