啾啾丶丶

2020年2月16日

摘要：这两天刚下了一个pycharm，结果使用之后将vscode给崩了，重装的时候有些步骤也记不清，走了一些弯路，做个总结来记录一下（本人觉得vscode比pycharm好用一点）。 Python下载安装到官网上下载即可：https://www.python.org/downloads/ 关于pytho 阅读全文

posted @ 2020-02-16 22:58 啾啾丶丶阅读(18459) 评论(1) 推荐(1)

2020年2月15日

Wordcloud（词云）安装使用以及vscode搭建虚拟环境

摘要：（电脑烧掉了主板，地方上的所有门店全部关闭了，幸好现在京东还通物流，总算是进行把电脑拿回来了。对于一些东西无法实际操作真的是很难受，言归正传，说一下Wordcloud） Wordcloud安装（全局安装） Wordcloud是python的一个第三方模块，其最大的特点就是可以通过我们的内容直接统计出阅读全文

posted @ 2020-02-15 22:16 啾啾丶丶阅读(2349) 评论(0) 推荐(1)

2020年2月9日

jieba分词处理

摘要：分词是一种数学上的应用，他可以直接根据词语之间的数学关系进行文字或者单词的抽象，比如，讲一句话“我来自地球上中国”进行单词分割，我们可能会得到如下的内容：“我”、“来自”、“地球上”、“中国”，这些就相当于是分词的概念，在我们搜索引擎开发的过程中，是必须要要使用到分词的概念的。 jieba简介 ji 阅读全文

posted @ 2020-02-09 21:00 啾啾丶丶阅读(1043) 评论(0) 推荐(0)

2020年2月7日

selenium异步爬取（selenium+Chromedriver）

摘要：在我们进行数据爬去的过程中，我们有时候会遇到异步加载信息的情况，以豆瓣电影分来排行榜为例，当我们在查看数据的过程中，会发现网页源码中并不包含我们想要的全部数据，但是当我们在进行向下滚动的时候，数据会一点点的加载出来，这就说明它是通过异步加载模式展示出的数据。在urllib3中，支持的也仅仅是当前的H 阅读全文

posted @ 2020-02-07 23:31 啾啾丶丶阅读(4032) 评论(0) 推荐(0)

2020年2月6日

Beautifulsoup网页解析——爬取豆瓣排行榜分类接口

摘要：我们在网页爬取的过程中，会通过requests成功的获取到所需要的信息，而且，在返回的网页信息中，也是通过HTML代码的形式进行展示的。HTML代码都是通过固定的标签组合来实现页面信息的展示，所以，最方便的做法就是依据标签来获取信息，所以我们提取信息也应该通过选择标签信息来获取我们需要的内容。 py 阅读全文

posted @ 2020-02-06 20:39 啾啾丶丶阅读(469) 评论(0) 推荐(0)

2020年2月5日

lxml的使用（节点与xpath爬取数据）

摘要： lxml安装 lxml是python下功能很丰富的XML和HTML解析库，性能非常的好，是对libxml3和libxlst的封装。在Windows下载这个库直接使用 pip install lxml 即可。CentOS下载可使用以下命令。 yum install libxml3-devel libx 阅读全文

posted @ 2020-02-05 21:46 啾啾丶丶阅读(1389) 评论(0) 推荐(0)

2020年2月4日

urllib3使用池管理发送请求和requests常用方法的基本使用+session使用

摘要：使用urllib3的池管理器 urllib3是在urllib进行更加深入的改进，最大的好处就是在urllib的基础上添加了池管理，以至于我们不需要再去注意我们需要由那个链接去发送请求，而只需要获取到链接发送回来的相应的数据。这样就可以大大减少我们对于链接的管理。 urllib3的请求发送其实很简单，阅读全文

posted @ 2020-02-04 20:51 啾啾丶丶阅读(1855) 评论(0) 推荐(0)

2020年2月3日

Ajax爬取动态数据和HTTPS自动默认证书

摘要： Ajax数据爬取在spider爬取数据的过程中，有些网页的数据是利用Ajax动态加载出来的，所以，在网页源代码中可能不会看到这一部分的数据，因此，我们需要使用另外的方式进行数据多爬取。以豆瓣电影的网页源码获取为例 https://movie.douban.com/ ，我们查看网页源代码，会发现网阅读全文

posted @ 2020-02-03 21:04 啾啾丶丶阅读(790) 评论(0) 推荐(0)

2020年2月2日

urllib库中的URL编码解码和GETPOST请求

摘要：在urllib库的使用过程中，会在请求发送之前按照发送请求的方式进行编码处理，来使得传递的参数更加的安全，也更加符合模拟浏览器发送请求的形式。这就需要用urllib中的parse模块。parse的使用主要提供了输送连接的编码解码处理。对于不同的请求发送方式，parse的使用方法不是很相同，下面是我的阅读全文

posted @ 2020-02-02 20:58 啾啾丶丶阅读(956) 评论(0) 推荐(0)

2020年2月1日

urllib的使用和进阶——urllib.request

摘要： urllib是python中常用的一个基本库，以后的许多库包括一些框架如Scrapy都是建立在这个库的基础上的。在urllib中，为用户提供了一系列用于操作URL的功能，其提供的功能主要就是利用程序去执行各种HTTP请求。这当中，最常使用的就是urllib.request模块中的urlopen。如阅读全文

posted @ 2020-02-01 19:49 啾啾丶丶阅读(399) 评论(0) 推荐(0)

公告