会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Live2D
骑着螞蟻流浪
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
6
7
8
9
10
11
下一页
2017年7月23日
爬虫——使用BeautifulSoup4的爬虫
摘要: 我们以腾讯社招页面来做示例:http://hr.tencent.com/position.php?&start=0#a 如上图,使用BeautifulSoup4解析器,将图1中229页,每页10个招聘信息,共2289个招聘信息中的职位名称、职位类别、招聘人数、工作地点、工作职责、工作要求、详情链接等
阅读全文
posted @ 2017-07-23 12:09 骑着螞蟻流浪
阅读(774)
评论(0)
推荐(0)
2017年7月22日
爬虫——BeautifulSoup4解析器
摘要: BeautifulSoup用来解析HTML比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持lxml的XML解析器。 其相较与正则而言,使用更加简单。 示例: 首先必须要导入bs4库 运行结果 四大对象种类 BeautifulSoup将复杂的HTML文档转换成
阅读全文
posted @ 2017-07-22 16:30 骑着螞蟻流浪
阅读(407)
评论(0)
推荐(0)
爬虫——爬取百度贴吧每个帖子里面的图片
摘要: 现在我们用正则来做一个简单的爬虫,我们尝试爬取某个百度贴吧里面的所有帖子,并且将这个帖子里首页每个楼层发布的图片下载到本地。 分析:以美女吧为例 第一页:https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=0 第二页:https://tieba.ba
阅读全文
posted @ 2017-07-22 11:30 骑着螞蟻流浪
阅读(744)
评论(0)
推荐(0)
2017年7月20日
爬虫——爬虫中使用正则表达式
摘要: 下面我们尝试爬取内涵段子网站:http://www.neihan8.com/article/list_5_1.html 打开之后,当你进行翻页的时候,不难注意到,url地址的变化: 第一页url: http: //www.neihan8.com/article/list_5_1 .html 第二页u
阅读全文
posted @ 2017-07-20 15:51 骑着螞蟻流浪
阅读(882)
评论(0)
推荐(0)
2017年7月19日
爬虫——正则表达式re模块
摘要: 为什么要学习正则表达式 实际上爬虫一共就四个主要步骤: 我们在前面的案例里实际上都省略了第3步,也就是“取”的步骤。因为我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,其中大部分的东西是我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。 那么对于文本的过滤和者规则的匹配,最强大
阅读全文
posted @ 2017-07-19 16:32 骑着螞蟻流浪
阅读(581)
评论(0)
推荐(0)
爬虫——requests模块
摘要: Requests继承了urllib.request的所有特性,Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的URL和POST数据自动编码。 相较于urllib.request而言,其使用更加简洁方便。 基本GET请求
阅读全文
posted @ 2017-07-19 14:33 骑着螞蟻流浪
阅读(353)
评论(0)
推荐(0)
2017年7月18日
爬虫——Handler处理器 和 自定义Opener
摘要: 我们之前一直都在使用的urlopen,这是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能: 1.使用相差的Handler处理器来创建特定功能的处理器对象; 2.然后通过urllib
阅读全文
posted @ 2017-07-18 16:41 骑着螞蟻流浪
阅读(502)
评论(0)
推荐(0)
爬虫——GET请求和POST请求
摘要: urllib.parse.urlencode()和urllib.parse.unquote() 编码工作使用urllib.parse的urlencode()函数,帮我们将key:value这样的键值对转换成"key=value"这样的字符串,解码工作可以使用urllib的unquote()函数。 一
阅读全文
posted @ 2017-07-18 14:09 骑着螞蟻流浪
阅读(938)
评论(0)
推荐(0)
2017年7月17日
爬虫——urllib.request库的基本使用
摘要: 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib.request。(在python2.x中为urllib2) urlopen 我们先阅读以下代码: 实际上,如果我们在浏览器上打开百度主页,右键选择“查看源代
阅读全文
posted @ 2017-07-17 16:27 骑着螞蟻流浪
阅读(823)
评论(0)
推荐(0)
2017年6月16日
使用Python操作Office——EXCEL
摘要: 首先介绍下office win32 com接口,这个是MS为自动化提供的操作接口,比如我们打开一个EXCEL文档,就可以在里面编辑VB脚本,实现我们自己的效果。对于这种一本万利的买卖,Python怎么能放过,它内置了对于win32 com接口的支持,我们可以方便的控制。 要想熟悉使用office w
阅读全文
posted @ 2017-06-16 15:22 骑着螞蟻流浪
阅读(2059)
评论(0)
推荐(0)
上一页
1
···
6
7
8
9
10
11
下一页
公告