上一页 1 2 3 4 5 6 7 ··· 12 下一页
摘要: 这两天刚下了一个pycharm,结果使用之后将vscode给崩了,重装的时候有些步骤也记不清,走了一些弯路,做个总结来记录一下(本人觉得vscode比pycharm好用一点)。 Python下载安装 到官网上下载即可:https://www.python.org/downloads/ 关于pytho 阅读全文
posted @ 2020-02-16 22:58 啾啾丶丶 阅读(18451) 评论(1) 推荐(1)
摘要: (电脑烧掉了主板,地方上的所有门店全部关闭了,幸好现在京东还通物流,总算是进行把电脑拿回来了。对于一些东西无法实际操作真的是很难受,言归正传,说一下Wordcloud) Wordcloud安装(全局安装) Wordcloud是python的一个第三方模块,其最大的特点就是可以通过我们的内容直接统计出 阅读全文
posted @ 2020-02-15 22:16 啾啾丶丶 阅读(2329) 评论(0) 推荐(1)
摘要: 分词是一种数学上的应用,他可以直接根据词语之间的数学关系进行文字或者单词的抽象,比如,讲一句话“我来自地球上中国”进行单词分割,我们可能会得到如下的内容:“我”、“来自”、“地球上”、“中国”,这些就相当于是分词的概念,在我们搜索引擎开发的过程中,是必须要要使用到分词的概念的。 jieba简介 ji 阅读全文
posted @ 2020-02-09 21:00 啾啾丶丶 阅读(1040) 评论(0) 推荐(0)
摘要: 在我们进行数据爬去的过程中,我们有时候会遇到异步加载信息的情况,以豆瓣电影分来排行榜为例,当我们在查看数据的过程中,会发现网页源码中并不包含我们想要的全部数据,但是当我们在进行向下滚动的时候,数据会一点点的加载出来,这就说明它是通过异步加载模式展示出的数据。在urllib3中,支持的也仅仅是当前的H 阅读全文
posted @ 2020-02-07 23:31 啾啾丶丶 阅读(4030) 评论(0) 推荐(0)
摘要: 我们在网页爬取的过程中,会通过requests成功的获取到所需要的信息,而且,在返回的网页信息中,也是通过HTML代码的形式进行展示的。HTML代码都是通过固定的标签组合来实现页面信息的展示,所以,最方便的做法就是依据标签来获取信息,所以我们提取信息也应该通过选择标签信息来获取我们需要的内容。 py 阅读全文
posted @ 2020-02-06 20:39 啾啾丶丶 阅读(468) 评论(0) 推荐(0)
摘要: lxml安装 lxml是python下功能很丰富的XML和HTML解析库,性能非常的好,是对libxml3和libxlst的封装。在Windows下载这个库直接使用 pip install lxml 即可。CentOS下载可使用以下命令。 yum install libxml3-devel libx 阅读全文
posted @ 2020-02-05 21:46 啾啾丶丶 阅读(1387) 评论(0) 推荐(0)
摘要: 使用urllib3的池管理器 urllib3是在urllib进行更加深入的改进,最大的好处就是在urllib的基础上添加了池管理,以至于我们不需要再去注意我们需要由那个链接去发送请求,而只需要获取到链接发送回来的相应的数据。这样就可以大大减少我们对于链接的管理。 urllib3的请求发送其实很简单, 阅读全文
posted @ 2020-02-04 20:51 啾啾丶丶 阅读(1853) 评论(0) 推荐(0)
摘要: Ajax数据爬取 在spider爬取数据的过程中,有些网页的数据是利用Ajax动态加载出来的,所以,在网页源代码中可能不会看到这一部分的数据,因此,我们需要使用另外的方式进行数据多爬取。 以豆瓣电影的网页源码获取为例 https://movie.douban.com/ ,我们查看网页源代码,会发现网 阅读全文
posted @ 2020-02-03 21:04 啾啾丶丶 阅读(790) 评论(0) 推荐(0)
摘要: 在urllib库的使用过程中,会在请求发送之前按照发送请求的方式进行编码处理,来使得传递的参数更加的安全,也更加符合模拟浏览器发送请求的形式。这就需要用urllib中的parse模块。parse的使用主要提供了输送连接的编码解码处理。对于不同的请求发送方式,parse的使用方法不是很相同,下面是我的 阅读全文
posted @ 2020-02-02 20:58 啾啾丶丶 阅读(953) 评论(0) 推荐(0)
摘要: urllib是python中常用的一个基本库,以后的许多库包括一些框架如Scrapy都是建立在这个库的基础上的。在urllib中,为用户提供了一系列用于操作URL的功能,其提供的功能主要就是利用程序去执行各种HTTP请求。这当中,最常使用的就是urllib.request模块中的urlopen。 如 阅读全文
posted @ 2020-02-01 19:49 啾啾丶丶 阅读(399) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 12 下一页