随笔分类 -  爬虫知识

摘要:该文非原创文字,文字转载至 jclian91 链接:https://www.cnblogs.com/jclian91/p/9799697.html Python爬虫的N种姿势 问题的由来 前几天,在微信公众号(Python爬虫及算法)上有个人问了笔者一个问题,如何利用爬虫来实现如下的需求,需要爬取的 阅读全文
posted @ 2018-10-17 14:33 北鼻coder 阅读(9406) 评论(0) 推荐(1)
摘要:运行状态: 分析: 京东的评论信息其实是异步加载模式的,很难通过一个固定的url链接来爬取到所有的评论信息,所以就需要找相应的json文件。 找到network里的js 所以可以通过写一个方法来爬取该页面的评论信息 爬取到还没进行数据处理的结果信息如下,等待下一步信息处理 分析爬取到的json文件信 阅读全文
posted @ 2018-10-17 02:13 北鼻coder 阅读(1097) 评论(0) 推荐(0)
摘要:正则表达式的用法与案例分析 2018-08-24 21:26:14 【说明】:该文主要为了随后复习和使用备查,由于做了word文档笔记,所以此处博文没有怎么排版,没放代码,以插入图片为主, 一、正则表达式之特殊字符 注意: 以下的案例中是match()匹配,match是要求从第一个字符开始匹配,所以 阅读全文
posted @ 2018-08-24 22:08 北鼻coder 阅读(3956) 评论(0) 推荐(0)
摘要:urllib 库设置代理的方法 案例如下: 阅读全文
posted @ 2018-08-23 13:51 北鼻coder 阅读(529) 评论(0) 推荐(0)
摘要:在urllib 中,要进行post请求时,需传入相应的data值,这里通过http://www.iqianyue.com/mypost这个网站进行测试。 案例代码如下: 注意:对于需要传入的data 数据,需要进行urlencode编码。postdata=urllib.parse.urlencode 阅读全文
posted @ 2018-08-23 13:44 北鼻coder 阅读(6009) 评论(0) 推荐(0)
摘要:对于urllib中的get请求方式,可以直接传入url的连接即可访问页面,但是对于要传入关键字的话,也可以用quote进行编码再传入。 案例如下: 可以传入关键字key="关键字",用key1_url=urllib.request.quote(key1)进行编码,最后将字符串连接起来得到all_ur 阅读全文
posted @ 2018-08-23 13:38 北鼻coder 阅读(287) 评论(0) 推荐(0)
摘要:2018-08-23 13:07:57 对于请求一些网站,我们需要加上请求头才可以完成网页的抓取,不然会得到一些错误,无法返回抓取的网页。下面,介绍两种添加请求头的方法。 方法一:借助build_opener和addheaders完成 注意:此处的headers要写为一个元组类型才可以。写为字典类型 阅读全文
posted @ 2018-08-23 13:23 北鼻coder 阅读(9531) 评论(0) 推荐(0)