随笔分类 - 项目
摘要:简介 打开网易社会招聘网站(https://hr.163.com/job-list.html),使用scrapy框架爬取职位信息。 思路 对于翻页:因为职位信息是不断更新变化的,所以不能使用for循环进行翻页,使用for循环只能爬取固定的页数。应该使用while true进行死循环,然后再进行判断是
阅读全文
摘要:目标 使用接口实现自动登陆滴滴打码。 分析 1 打开滴滴打码登陆网站:http://www.ddocr.com/user/login.html 。 2 查看接口 1)发现有一个get型接口:login.html 如下图所示。这个接口用于我们请求登陆界面。 2)还发现了一个get型接口:code.ht
阅读全文
摘要:简介 这篇文章主要介绍selenium的多层框架定位。案例是使用selenium自动登陆QQ空间。 思路 1 使用selenium自动请求QQ空间网站 https://i.qq.com/ 。打开后出现如下页面。 2 通过xpath定位到账号密码登录的位置,然后使用click点击对象。出现如下页面。
阅读全文
摘要:基础知识 1 js:JavaScript缩写 json:JavaScript的一种数据格式 2 浏览器的原理:把 html+css+js 下载到本地然后再进行渲染。即看到网页这个过程,实际上是浏览器把代码下载下来,然后浏览器来解释这个代码,变成界面的过程。 3 查看网页源代码:就是别人服务器发送到浏
阅读全文
摘要:目标 1 打开安居客二手房页面,如 https://nanning.anjuke.com/sale/?from=navigation 。得到如下页面。 通过分析发现,每个主页有60个二手房信息。一共有50个主页(一般类似网站都只提供50个主页)。 2 打开其中一个二手房的信息后,跳转到如下页面。我们
阅读全文
摘要:简介 假设给定一个自如租房的url,本程序能够实现爬取该网页的价格。经过测试发现,这个程序并不适用于所有的自如租房链接,只适用于大部分链接。(个人认为出现这样的问题与写的规则字符串有关) ① 打开某一个自如租房url。如:http://gz.ziroom.com/x/754308942.html 。
阅读全文
摘要:超级鹰 在这个项目中使用超级鹰来识别验证码。超级鹰的官方接入文档如下。 1 #!/usr/bin/env python 2 # coding:utf-8 3 4 import requests 5 from hashlib import md5 6 7 class Chaojiying_Client
阅读全文

浙公网安备 33010602011771号