会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
菜鸟峰
博客园
首页
新随笔
联系
订阅
管理
2020年10月30日
(项目)爬取网易社会招聘网站的职位信息
摘要: 简介 打开网易社会招聘网站(https://hr.163.com/job-list.html),使用scrapy框架爬取职位信息。 思路 对于翻页:因为职位信息是不断更新变化的,所以不能使用for循环进行翻页,使用for循环只能爬取固定的页数。应该使用while true进行死循环,然后再进行判断是
阅读全文
posted @ 2020-10-30 21:17 菜鸟峰
阅读(774)
评论(0)
推荐(0)
2020年8月21日
UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 190: illegal multibyte sequence
摘要: 使用cmd创建scrapy项目:scrapy startmyproject myspider, 创建好项目以后,创建爬虫:scrapy genspider itcast itcast.cn 这时出现了报错,如图 解决办法: 搜索configparser.py文件并修改参数: ①打开文件:C:\Use
阅读全文
posted @ 2020-08-21 02:30 菜鸟峰
阅读(394)
评论(0)
推荐(0)
2020年7月11日
关于xpath中的tbody
摘要: 在用xpath解析网页的时候,会遇到tbody标签。tbody标签有的时候可以解析,有的时候不可以解析,遇到tbody标签时要看网页源代码,如果源代码有tbody标签,就要加上tbody标签才能解析。如果源代码没有tbody标签,那么tbody标签是浏览器对html文本进行一定的规范化而强行加上去的
阅读全文
posted @ 2020-07-11 22:35 菜鸟峰
阅读(2002)
评论(0)
推荐(1)
2020年7月8日
进程、线程、协程、进程池
摘要: 线程 一个人,他有三个思想。第一个思想是做饭,第二个思想是烧水,第三个思想是洗衣服。这三个思想就是三个线程。 一个人不能同时干三件事。这三个线程具有竞争性,谁赢了这个人就先做这件事。 比如做饭这个线程赢了,这个人就先做饭,做完饭后洗衣服这个线程赢了,这个人接着就洗衣服。。。 进程 有10个人,每个人
阅读全文
posted @ 2020-07-08 01:38 菜鸟峰
阅读(191)
评论(0)
推荐(1)
2020年7月7日
(项目)使用接口自动登陆滴滴打码网站
摘要: 目标 使用接口实现自动登陆滴滴打码。 分析 1 打开滴滴打码登陆网站:http://www.ddocr.com/user/login.html 。 2 查看接口 1)发现有一个get型接口:login.html 如下图所示。这个接口用于我们请求登陆界面。 2)还发现了一个get型接口:code.ht
阅读全文
posted @ 2020-07-07 20:47 菜鸟峰
阅读(2442)
评论(0)
推荐(1)
2020年7月6日
Ajax
摘要: AJAX (以下内容仅针对爬虫。如果做开发,这些知识还不够,需要深入了解。) AJAX = Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。AJAX 是一种用于创建快速动态网页的技术。 通过在后台与服务器进行少量数据交换,AJAX 可以使网
阅读全文
posted @ 2020-07-06 16:42 菜鸟峰
阅读(151)
评论(0)
推荐(0)
2020年7月5日
(包含项目)selenium的多层框架定位
摘要: 简介 这篇文章主要介绍selenium的多层框架定位。案例是使用selenium自动登陆QQ空间。 思路 1 使用selenium自动请求QQ空间网站 https://i.qq.com/ 。打开后出现如下页面。 2 通过xpath定位到账号密码登录的位置,然后使用click点击对象。出现如下页面。
阅读全文
posted @ 2020-07-05 23:58 菜鸟峰
阅读(1149)
评论(0)
推荐(0)
(包含项目)selenium操作对象的text方法和智能等待时间
摘要: 基础知识 1 js:JavaScript缩写 json:JavaScript的一种数据格式 2 浏览器的原理:把 html+css+js 下载到本地然后再进行渲染。即看到网页这个过程,实际上是浏览器把代码下载下来,然后浏览器来解释这个代码,变成界面的过程。 3 查看网页源代码:就是别人服务器发送到浏
阅读全文
posted @ 2020-07-05 19:49 菜鸟峰
阅读(2766)
评论(0)
推荐(1)
代理IP之蘑菇隧道转发代理
摘要: 简介 在爬取网页时,一般都会用到代理IP。蘑菇代理网站:http://www.moguproxy.com/ 蘑菇代理的代理IP有两种:API私密代理和隧道转发代理,这篇文章主要介绍隧道转发代理 。 在官网购买隧道转发代理后,就可以到订单页面查看购买订单的Appkey。如果是第一次使用,那么需要添加白
阅读全文
posted @ 2020-07-05 00:51 菜鸟峰
阅读(2490)
评论(0)
推荐(0)
2020年7月4日
(项目)爬取安居客二手房房屋信息
摘要: 目标 1 打开安居客二手房页面,如 https://nanning.anjuke.com/sale/?from=navigation 。得到如下页面。 通过分析发现,每个主页有60个二手房信息。一共有50个主页(一般类似网站都只提供50个主页)。 2 打开其中一个二手房的信息后,跳转到如下页面。我们
阅读全文
posted @ 2020-07-04 18:58 菜鸟峰
阅读(1747)
评论(1)
推荐(1)
下一页
公告