随笔分类 -  项目

摘要:简介 打开网易社会招聘网站(https://hr.163.com/job-list.html),使用scrapy框架爬取职位信息。 思路 对于翻页:因为职位信息是不断更新变化的,所以不能使用for循环进行翻页,使用for循环只能爬取固定的页数。应该使用while true进行死循环,然后再进行判断是 阅读全文
posted @ 2020-10-30 21:17 菜鸟峰 阅读(799) 评论(0) 推荐(0)
摘要:目标 使用接口实现自动登陆滴滴打码。 分析 1 打开滴滴打码登陆网站:http://www.ddocr.com/user/login.html 。 2 查看接口 1)发现有一个get型接口:login.html 如下图所示。这个接口用于我们请求登陆界面。 2)还发现了一个get型接口:code.ht 阅读全文
posted @ 2020-07-07 20:47 菜鸟峰 阅读(2537) 评论(0) 推荐(1)
摘要:简介 这篇文章主要介绍selenium的多层框架定位。案例是使用selenium自动登陆QQ空间。 思路 1 使用selenium自动请求QQ空间网站 https://i.qq.com/ 。打开后出现如下页面。 2 通过xpath定位到账号密码登录的位置,然后使用click点击对象。出现如下页面。 阅读全文
posted @ 2020-07-05 23:58 菜鸟峰 阅读(1154) 评论(0) 推荐(0)
摘要:基础知识 1 js:JavaScript缩写 json:JavaScript的一种数据格式 2 浏览器的原理:把 html+css+js 下载到本地然后再进行渲染。即看到网页这个过程,实际上是浏览器把代码下载下来,然后浏览器来解释这个代码,变成界面的过程。 3 查看网页源代码:就是别人服务器发送到浏 阅读全文
posted @ 2020-07-05 19:49 菜鸟峰 阅读(2791) 评论(0) 推荐(1)
摘要:目标 1 打开安居客二手房页面,如 https://nanning.anjuke.com/sale/?from=navigation 。得到如下页面。 通过分析发现,每个主页有60个二手房信息。一共有50个主页(一般类似网站都只提供50个主页)。 2 打开其中一个二手房的信息后,跳转到如下页面。我们 阅读全文
posted @ 2020-07-04 18:58 菜鸟峰 阅读(1815) 评论(1) 推荐(1)
摘要:简介 假设给定一个自如租房的url,本程序能够实现爬取该网页的价格。经过测试发现,这个程序并不适用于所有的自如租房链接,只适用于大部分链接。(个人认为出现这样的问题与写的规则字符串有关) ① 打开某一个自如租房url。如:http://gz.ziroom.com/x/754308942.html 。 阅读全文
posted @ 2020-07-03 05:44 菜鸟峰 阅读(380) 评论(0) 推荐(0)
摘要:超级鹰 在这个项目中使用超级鹰来识别验证码。超级鹰的官方接入文档如下。 1 #!/usr/bin/env python 2 # coding:utf-8 3 4 import requests 5 from hashlib import md5 6 7 class Chaojiying_Client 阅读全文
posted @ 2020-07-02 20:09 菜鸟峰 阅读(365) 评论(0) 推荐(0)