随笔分类 - Python!py!
摘要:1. 导出并清洗qq聊天记录 将qq聊天记录从电脑版qq导出 去掉聊天中的图片表情以及时间戳 具体代码如下: 2. 准备其他素材 准备要生成图云的照片 准备生成词云的字体(没有的话,会造成中文字体不显示的问题) 3. 准备使用到的python库 numpy : 处理图片文件 jieba : 聊天记录
阅读全文
摘要:0. 问题描述 抓取到的评论数据非常滴脏,其中有一些无用信息,所以目标就是只提取其中的中文文字内容 评论中会存在很多表情,如下所示 实际上展现出的内容则是: 不是很快就撤了吗? 这一种类型的表情是微博特有的表情,还有一种是Emoji 表情,前者会在评论内容嵌入html代码,后者则是会已编码的方式呈现
阅读全文
摘要:1. 修改settings.py,启用item pipelines组件 将 改为 当然,我们不能只改而不去研究其中的意义. 根据官方注释我们顺利找到了官方文档对此的解释说明: 为了启用一个Item Pipeline组件,你必须将它的类添加到 " " 配置,就像下面这个例子: 分配给每个类的整型值,确
阅读全文
摘要:0.问题描述 需要定时爬取一个页面,从中取得不同时间段的数据 1.解决方案 使用CrawlerRunner通过链接延迟顺序运行爬虫 代码如下: 其中inlineCallbacks 是一个修饰符,它总是修饰生成器函数,如那些使用 yield 语句的函数. inlineCallbacks 的全部目的是将
阅读全文

浙公网安备 33010602011771号