雾霾王者

2020年2月13日

[Python]爬取首都之窗百姓信件网址id python 2020.2.13

摘要：经人提醒忘记发网址id的爬取过程了， http://www.beijing.gov.cn/hudong/hdjl/com.web.consult.consultDetail.flow?originalId=AH20021300174 AH20021300174为要爬取的内容现代码如下： 1 imp 阅读全文

posted @ 2020-02-13 14:18 雾霾王者阅读(253) 评论(0) 推荐(0)

2020年2月12日

假期学习【十三】信息领域热词分析系统--整体完成

摘要：今天主要完成了信息领域热词分析系统的其他功能，如word导出功能，关系图以及热力关系图功能，搜索功能。效果如下：关系图：热度关系图：以及搜索功能 word导出阅读全文

posted @ 2020-02-12 23:37 雾霾王者阅读(331) 评论(1) 推荐(0)

假期学习【十二】热词分析系统--初步展示

摘要：今天做了一天热词分析系统，效果如下：展示页面：解释页面：词云页面：热词引用页面：阅读全文

posted @ 2020-02-12 01:04 雾霾王者阅读(281) 评论(0) 推荐(0)

2020年2月11日

[Python]python对csv去除重复行 python 2020.2.11

摘要：用pandas库的.drop_duplicates函数代码如下： 1 import shutil 2 import pandas as pd 3 4 5 frame=pd.read_csv('E:/bdbk.csv',engine='python') 6 data = frame.drop_dup 阅读全文

posted @ 2020-02-11 02:09 雾霾王者阅读(5590) 评论(0) 推荐(0)

pip工具下载速度慢的问题

摘要：由于pip安装默认的访问地址为 http://pypi.python.org/simple/ 为外网，速度慢而且容易超时报错国内常用的镜像源有：阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc. 阅读全文

posted @ 2020-02-11 01:37 雾霾王者阅读(308) 评论(2) 推荐(0)

2020年2月10日

[Python]pyhon去除txt文件重复行 python 2020.2.10

摘要：代码如下： 1 import shutil 2 3 readPath='E:/word4.txt' #要处理的文件 4 writePath='E:/word5.txt' #要写入的文件 5 lines_seen=set() 6 outfiile=open(writePath,'a+',encodin 阅读全文

posted @ 2020-02-10 22:02 雾霾王者阅读(1489) 评论(0) 推荐(0)

[Python]python已经安装了jieba库，Pycharm无法使用的问题

摘要：这个问题是Pycharm解释器的问题，打开file >setting > 在如图所示界面点击add 在弹出的页面中选择python3的安装路径，可以用win10的搜索打开文件位置查看。选择新路径，点击OK，发现不再报错。阅读全文

posted @ 2020-02-10 21:52 雾霾王者阅读(4257) 评论(0) 推荐(0)

[Python]python去除两个txt文件的重复词汇 python 2020.2.10

摘要：两个txt文件词汇，用换行符分隔。可以用代码将要处理的文件去掉另一个文件所包含的重复内容。如： a.txt内容为：衡山泰山西湖紫禁城 b.txt内容为：泰山衡山长白山张三丰将a.txt设为要处理的文件，将b.txt设为字典，则输出的c.txt文件为 c.txt 西湖紫禁城代码阅读全文

posted @ 2020-02-10 21:44 雾霾王者阅读(1301) 评论(0) 推荐(0)

假期学习【十一】Python爬取百度词条写入csv格式 python 2020.2.10

摘要：今天主要完成了根据爬取的txt文档，从百度分类从信息科学类爬取百度词条信息，并写入CSV格式文件。 txt格式文件如图：为自己爬取内容分词后的结果。代码如下： 1 import requests 2 from bs4 import BeautifulSoup 3 import csv 4 imp 阅读全文

posted @ 2020-02-10 21:37 雾霾王者阅读(278) 评论(0) 推荐(0)

[Python]jieba切词添加字典去除停用词、单字 python 2020.2.10

摘要：源码如下： 1 import jieba 2 import io 3 import re 4 5 #jieba.load_userdict("E:/xinxi2.txt") 6 patton=re.compile(r'..') 7 8 #添加字典 9 def add_dict(): 10 f=ope 阅读全文

posted @ 2020-02-10 01:14 雾霾王者阅读(3982) 评论(0) 推荐(0)

公告