随笔分类 -  Python爬虫

摘要:爬取过程在这里: Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图 本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析。 依赖库: 豆瓣镜像比较快: pip install snownlp -i http://pypi.douban.com/sim 阅读全文
posted @ 2021-07-19 18:15 BugMiaowu2021 阅读(960) 评论(0) 推荐(0)
摘要:获取特定歌曲热评: 首先,我们打开网易云网页版,击排行榜,然后点击左侧云音乐热歌榜,如图: 关于如何抓取指定的歌曲的热评,参考这篇文章,很详细,对小白很友好: 手把手教你用Python爬取网易云40万+评论 下图是用上文的方法找到热评后,确认下这条确实包含着热评,hotComments就是我们要找的 阅读全文
posted @ 2021-07-19 16:45 BugMiaowu2021 阅读(2479) 评论(0) 推荐(0)
摘要:本文借鉴了@平胸小仙女的知乎回复 https://www.zhihu.com/question/36081767 写在前面: 文章有点长,操作有点复杂,需要代码的直接去文末即可。想要学习的需要有点耐心。当我理清所有逻辑后,我抑郁的(震惊的)发现,只需要改下歌曲ID就可以爬取其他任意歌曲的评论了!生成 阅读全文
posted @ 2021-07-19 16:43 BugMiaowu2021 阅读(961) 评论(0) 推荐(0)
摘要:小米应用商店的爬虫,提取各个App的下载链接。 源码: 1 # -*- coding: UTF-8 -*- 2 import requests 3 import csv 4 import queue 5 6 7 class XiaoMiShop(): 8 9 def __init__(self, c 阅读全文
posted @ 2021-03-01 10:58 BugMiaowu2021 阅读(439) 评论(0) 推荐(0)
摘要:酷安应用商店的爬虫,提取各个App的下载链接。 源码: 1 # -*- coding: UTF-8 -*- 2 import requests 3 import queue 4 import threading 5 import re 6 from lxml import etree 7 impor 阅读全文
posted @ 2021-03-01 10:36 BugMiaowu2021 阅读(288) 评论(0) 推荐(0)
摘要:必应壁纸:https://bing.ioliu.cn/ 源码: 1 import requests 2 from lxml import etree 3 4 for i in range(1, 152): 5 print('page:\t', i) 6 url = 'https://bing.iol 阅读全文
posted @ 2021-02-28 21:41 BugMiaowu2021 阅读(199) 评论(0) 推荐(0)
摘要:Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析 Python爬取你好李焕英豆瓣短评生成词云 Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图 目标网站: https://piaofang.maoyan.com/dashboard/movie 数据接 阅读全文
posted @ 2021-02-27 13:05 BugMiaowu2021 阅读(252) 评论(0) 推荐(0)
摘要:选取的是《被嫌弃的松子的一生》 词云效果: 完整代码: 1 # 分析豆瓣被嫌弃的松子的一生的影评,生成词云 2 # https://movie.douban.com/subject/1787291/comments?start=20&limit=20&status=P&sort=new_score 阅读全文
posted @ 2021-02-26 18:34 BugMiaowu2021 阅读(112) 评论(0) 推荐(0)
摘要:经典台词: 1、我不知道离别的滋味是这样凄凉,我不知道说声再见要这么坚强。 2、人永远不知道,谁哪次不经意的跟你说了再见之后,就真的不会再见了。 3、曾经发生过的事情不可能忘记,只不过是想不起而已。 4、因为遇见你,我才知道我也能拥有美丽的记忆。所以,无论你怎么对待我,我都会用心去宽恕你的恨,用心去 阅读全文
posted @ 2021-02-24 01:18 BugMiaowu2021 阅读(111) 评论(0) 推荐(0)
摘要:词云图: 爬取过程: 你好,李焕英 短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&status=P&sort=new_score 分析要爬取的URL; 34841067:电影ID start= 阅读全文
posted @ 2021-02-23 12:10 BugMiaowu2021 阅读(306) 评论(0) 推荐(0)
摘要:爬取过程: 你好,李焕英 短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&status=P&sort=new_score 分析要爬取的URL; 34841067:电影ID start=20:开始 阅读全文
posted @ 2021-02-23 11:25 BugMiaowu2021 阅读(176) 评论(0) 推荐(0)
摘要:Python爬取你好李焕英豆瓣短评生成词云 Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图 Python爬取唐人街探案3豆瓣短评并生成词云 10行python代码爬取百度热榜 Python爬虫爬取微博热搜保存为 Markdown 文件 python爬取今日热榜数据到t 阅读全文
posted @ 2021-02-23 09:31 BugMiaowu2021 阅读(703) 评论(0) 推荐(0)
摘要:爬取唐人街探案3短评过程 要爬取的URL: https://movie.douban.com/subject/27619748/comments?start=20&limit=20&status=P&sort=new_score url = 'https://movie.douban.com/sub 阅读全文
posted @ 2021-02-23 02:11 BugMiaowu2021 阅读(135) 评论(0) 推荐(0)
摘要:Python爬虫实战源码合集(持续更新) 百度搜索风云榜:http://top.baidu.com/ 源码: 1 import os 2 import json 3 from datetime import datetime 4 from datetime import timezone 5 fro 阅读全文
posted @ 2021-02-21 20:13 BugMiaowu2021 阅读(275) 评论(0) 推荐(0)
摘要:今日热榜:https://tophub.today/ 爬取数据及保存格式: 爬取后保存为.txt文件: 部分内容: 源码及注释: 1 import requests 2 from bs4 import BeautifulSoup 3 4 def download_page(url): 5 heade 阅读全文
posted @ 2021-02-21 19:49 BugMiaowu2021 阅读(610) 评论(0) 推荐(0)
摘要:微博热搜榜python爬虫,仅供学习交流 源码及注释: 1 # -*- coding=UTF-8 -*- 2 #!usr/bin/env python 3 4 import os 5 import time 6 import requests 7 from lxml import etree 8 9 阅读全文
posted @ 2021-02-21 18:50 BugMiaowu2021 阅读(209) 评论(0) 推荐(0)
摘要:百度热搜榜python爬虫,仅供学习交流 源码: 1 import requests 2 from bs4 import BeautifulSoup 3 4 response = requests.get("http://top.baidu.com/buzz?b=1") 5 response.enc 阅读全文
posted @ 2021-02-21 18:32 BugMiaowu2021 阅读(209) 评论(0) 推荐(0)
摘要:0、作者不承担任何法律责任!仅供学习交流使用,严禁用于其他用途 1、info.txt 个人信息,nickname为你的微信昵称 2、raw.PNG 以此图片为底图制作最终图片 3、touxiang.jpg 微信头像 4、源码QNDXX.py 1 import requests 2 import re 阅读全文
posted @ 2021-02-12 23:20 BugMiaowu2021 阅读(1539) 评论(1) 推荐(1)