会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
水映枫像
博客园
首页
新随笔
联系
订阅
管理
2021年4月6日
几行代码完成微博热搜榜爬虫
摘要: 1. 数据抓取 首先,我们得知道微博热搜内容的具体链接。https://s.weibo.com/top/summary def get_html_data(self): res = requests.get(self.url, headers=self.headers).text return re
阅读全文
posted @ 2021-04-06 22:31 水映枫像
阅读(931)
评论(0)
推荐(0)
2021年4月1日
python下载小说合集
摘要: 这里以金庸老先生小说合集为例。 1. 数据抓取 首先,我们需要找到小说网站,jinyong.zuopinj.com 其次通过浏览器分析工具,分析页面数据。 2.具体实现 每本书都有对应的书籍ID,每本书相应的章节数ID,根据这两个信息,我们可完成如下代码。 def get_chapter(url):
阅读全文
posted @ 2021-04-01 10:00 水映枫像
阅读(670)
评论(0)
推荐(0)
2021年3月29日
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 18521: illegal multibyte sequence
摘要: 记录一下问题解决办法 通过Python把数据流写入文件时,提示报错。 UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 18521: illegal multibyte sequence 具体如下 f
阅读全文
posted @ 2021-03-29 10:54 水映枫像
阅读(123)
评论(0)
推荐(0)
Python爬虫之html.encoding = html.apparent_encoding
摘要: 当我们再用python爬取网页代码时,难免会出现乱码,如下图所示 解决办法: html.encoding = html.apparent_encoding 代码中采用以后,解析html结果如下: 另外,我们对上行代码做下简单详解。 encoding是从http中的header中的charset字段中
阅读全文
posted @ 2021-03-29 10:11 水映枫像
阅读(942)
评论(0)
推荐(0)
2021年3月18日
Python入门爬虫精要
摘要: Python爬虫主要分为三大板块:抓取数据,分析数据,存储数据。 简单来说,爬虫要做就是通过指定的url,直接返回用户所需数据,无需人工一步步操作浏览器获取。 1.抓取数据 一般来说,访问网站url给我们返回两种格式数据,html和json。 1) 无参 抓取数据的大多数属于get请求,我们可以直接
阅读全文
posted @ 2021-03-18 09:58 水映枫像
阅读(432)
评论(0)
推荐(0)
2021年3月13日
Python库numpy配图详解
摘要: 导入相关包模块 import numpy as np 1.一维数组 创建数组 np.array([1, 2, 3]) 初始化数组 在对数组初始化时,Numpy提供了几种初始化方法, ones(): 初始元素为1的数组 zeros():初始元素为0的数组 random.random():初始元素为随机
阅读全文
posted @ 2021-03-13 14:00 水映枫像
阅读(237)
评论(0)
推荐(0)
2021年3月10日
爬虫-糗事百科数据
摘要: 数据怎么来 1)首先我们还是先登录要爬取的网站糗事百科。用谷歌浏览器F12解析页面数据。 翻到页面最下面,翻到第二页,网址发生变化,如上图所示。我们不妨得出结论,有数字参数表示页数,总共有13页。 https://www.qiushibaike.com/8hr/page/{页数}/ 2)看上图的Re
阅读全文
posted @ 2021-03-10 15:55 水映枫像
阅读(142)
评论(0)
推荐(0)
2021年3月8日
爬取B站弹幕可视化分析
摘要: B站视频弹幕数据+可视化分析。 这里以前段时间很火的一部动漫鬼灭之刃为例,剧场版截至目前已超350亿票房。 数据怎么来 要想做数据分析,首先要有数据来源,通过Python实现弹幕爬虫就能简单得到动漫视频数据。 动漫视频分为好多集,对每一集弹幕信息做爬取,需要我们知道每一集的ID信息。 如下图所示,这
阅读全文
posted @ 2021-03-08 21:18 水映枫像
阅读(868)
评论(0)
推荐(0)
2021年3月7日
Python高德地图API实用篇
摘要: 这里介绍高德API接口简单使用。 数据怎么来 高德地图官网有提供相应的开发支持,下面我们简单介绍一下。 1)官网链接:https://developer.amap.com/,选择开发支持,Web服务API。 2)做好注册,并新建应用获取KEY(调用接口时必需)。 3)当我们创建好应用,就可以获取到相
阅读全文
posted @ 2021-03-07 16:29 水映枫像
阅读(3716)
评论(0)
推荐(0)
2021年3月3日
Python实战-20年内编程语言排名动态图(超详细,附源码)
摘要: 编程语言排名滚动效果实现。 工具 Python3pyechartsrequests正则表达式 数据获取 数据来源:https://www.tiobe.com/tiobe-index/ 这家网站上记录了每年每种语言的排名情况 获取数据的代码如下图: res = requests.get(self.ur
阅读全文
posted @ 2021-03-03 20:10 水映枫像
阅读(675)
评论(0)
推荐(0)
下一页
公告