会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
啾啾丶丶
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
12
下一页
2020年2月16日
vscode搭建python环境
摘要: 这两天刚下了一个pycharm,结果使用之后将vscode给崩了,重装的时候有些步骤也记不清,走了一些弯路,做个总结来记录一下(本人觉得vscode比pycharm好用一点)。 Python下载安装 到官网上下载即可:https://www.python.org/downloads/ 关于pytho
阅读全文
posted @ 2020-02-16 22:58 啾啾丶丶
阅读(18451)
评论(1)
推荐(1)
2020年2月15日
Wordcloud(词云)安装使用以及vscode搭建虚拟环境
摘要: (电脑烧掉了主板,地方上的所有门店全部关闭了,幸好现在京东还通物流,总算是进行把电脑拿回来了。对于一些东西无法实际操作真的是很难受,言归正传,说一下Wordcloud) Wordcloud安装(全局安装) Wordcloud是python的一个第三方模块,其最大的特点就是可以通过我们的内容直接统计出
阅读全文
posted @ 2020-02-15 22:16 啾啾丶丶
阅读(2329)
评论(0)
推荐(1)
2020年2月9日
jieba分词处理
摘要: 分词是一种数学上的应用,他可以直接根据词语之间的数学关系进行文字或者单词的抽象,比如,讲一句话“我来自地球上中国”进行单词分割,我们可能会得到如下的内容:“我”、“来自”、“地球上”、“中国”,这些就相当于是分词的概念,在我们搜索引擎开发的过程中,是必须要要使用到分词的概念的。 jieba简介 ji
阅读全文
posted @ 2020-02-09 21:00 啾啾丶丶
阅读(1040)
评论(0)
推荐(0)
2020年2月7日
selenium异步爬取(selenium+Chromedriver)
摘要: 在我们进行数据爬去的过程中,我们有时候会遇到异步加载信息的情况,以豆瓣电影分来排行榜为例,当我们在查看数据的过程中,会发现网页源码中并不包含我们想要的全部数据,但是当我们在进行向下滚动的时候,数据会一点点的加载出来,这就说明它是通过异步加载模式展示出的数据。在urllib3中,支持的也仅仅是当前的H
阅读全文
posted @ 2020-02-07 23:31 啾啾丶丶
阅读(4030)
评论(0)
推荐(0)
2020年2月6日
Beautifulsoup网页解析——爬取豆瓣排行榜分类接口
摘要: 我们在网页爬取的过程中,会通过requests成功的获取到所需要的信息,而且,在返回的网页信息中,也是通过HTML代码的形式进行展示的。HTML代码都是通过固定的标签组合来实现页面信息的展示,所以,最方便的做法就是依据标签来获取信息,所以我们提取信息也应该通过选择标签信息来获取我们需要的内容。 py
阅读全文
posted @ 2020-02-06 20:39 啾啾丶丶
阅读(468)
评论(0)
推荐(0)
2020年2月5日
lxml的使用(节点与xpath爬取数据)
摘要: lxml安装 lxml是python下功能很丰富的XML和HTML解析库,性能非常的好,是对libxml3和libxlst的封装。在Windows下载这个库直接使用 pip install lxml 即可。CentOS下载可使用以下命令。 yum install libxml3-devel libx
阅读全文
posted @ 2020-02-05 21:46 啾啾丶丶
阅读(1387)
评论(0)
推荐(0)
2020年2月4日
urllib3使用池管理发送请求和requests常用方法的基本使用+session使用
摘要: 使用urllib3的池管理器 urllib3是在urllib进行更加深入的改进,最大的好处就是在urllib的基础上添加了池管理,以至于我们不需要再去注意我们需要由那个链接去发送请求,而只需要获取到链接发送回来的相应的数据。这样就可以大大减少我们对于链接的管理。 urllib3的请求发送其实很简单,
阅读全文
posted @ 2020-02-04 20:51 啾啾丶丶
阅读(1853)
评论(0)
推荐(0)
2020年2月3日
Ajax爬取动态数据和HTTPS自动默认证书
摘要: Ajax数据爬取 在spider爬取数据的过程中,有些网页的数据是利用Ajax动态加载出来的,所以,在网页源代码中可能不会看到这一部分的数据,因此,我们需要使用另外的方式进行数据多爬取。 以豆瓣电影的网页源码获取为例 https://movie.douban.com/ ,我们查看网页源代码,会发现网
阅读全文
posted @ 2020-02-03 21:04 啾啾丶丶
阅读(790)
评论(0)
推荐(0)
2020年2月2日
urllib库中的URL编码解码和GETPOST请求
摘要: 在urllib库的使用过程中,会在请求发送之前按照发送请求的方式进行编码处理,来使得传递的参数更加的安全,也更加符合模拟浏览器发送请求的形式。这就需要用urllib中的parse模块。parse的使用主要提供了输送连接的编码解码处理。对于不同的请求发送方式,parse的使用方法不是很相同,下面是我的
阅读全文
posted @ 2020-02-02 20:58 啾啾丶丶
阅读(953)
评论(0)
推荐(0)
2020年2月1日
urllib的使用和进阶——urllib.request
摘要: urllib是python中常用的一个基本库,以后的许多库包括一些框架如Scrapy都是建立在这个库的基础上的。在urllib中,为用户提供了一系列用于操作URL的功能,其提供的功能主要就是利用程序去执行各种HTTP请求。这当中,最常使用的就是urllib.request模块中的urlopen。 如
阅读全文
posted @ 2020-02-01 19:49 啾啾丶丶
阅读(399)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
12
下一页
公告