随笔分类 -  爬虫

摘要:学习一下如何用爬虫爬取b站视频。一开始准备在b站上下载的,但是没找到下载按钮,就自己研究一下。 本来是准备用他网页的blob开头的地址转成可下载链接的,结果发现他这段是js后续生成的。解决方法也有,搞个chrome驱动,然后用selenium等待页面加载完成再去获取页面数据。但是有点麻烦,而且chr 阅读全文
posted @ 2025-03-30 21:42 阿飞飞啊飞 阅读(75) 评论(1) 推荐(0)
摘要:太久没有写爬虫了,掌握的知识不能让他生疏了 想了想写一个按照输入,能查询到豆瓣里的信息 首先,先打开豆瓣的搜索页面 会发现是这样的,左边有一栏标签,然后有个搜索框。 可以点击标签,观察url的变化,发现https://www.douban.com/search?cat=1001&q=中的cat也相对 阅读全文
posted @ 2019-08-11 18:44 阿飞飞啊飞 阅读(647) 评论(0) 推荐(1)
摘要:刷知乎时刷到一篇爬取豆瓣音乐top250的,然后看了看,感觉自己的爬虫又更上一层楼了哈啊哈哈,尤其是发现xpath这么好用的东西。 不过也有一个感慨,就是有很多种方式都可以获得想要的数据,对于入门的新人来说着实有些不友好,明确不了方向 话不多说,先贴网站https://music.douban.co 阅读全文
posted @ 2019-07-23 22:24 阿飞飞啊飞 阅读(682) 评论(0) 推荐(1)
摘要:偶然看到了一些项目,有爬取糗事百科的,我去看了下,也没什么难的 首先,先去糗事百科的https://www.qiushibaike.com/text/看一下, 先检查一下网页代码, 就会发现,需要爬取的笑话内容在一个span标签里,而且父标签是class为content的div里,那就很简单了,用s 阅读全文
posted @ 2019-07-23 19:58 阿飞飞啊飞 阅读(420) 评论(0) 推荐(1)
摘要:先贴一个beautifulsoup的官方文档,https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id12 requests库用来获取url的响应,但是获取到确实网页代码,为了拿到自己想要的东西,我们需要用一下bea 阅读全文
posted @ 2019-07-21 22:46 阿飞飞啊飞 阅读(247) 评论(0) 推荐(1)
摘要:写在最前的具体资料: https://2.python-requests.org//zh_CN/latest/user/quickstart.html https://www.liaoxuefeng.com/wiki/1016959663602400/1183249464292448 http:// 阅读全文
posted @ 2019-07-14 00:01 阿飞飞啊飞 阅读(205) 评论(0) 推荐(1)