摘要: 写python爬虫是遇到编码错误 报错为: UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' 经过多方查找发现 \xa0是html网页源码中的空格 解决方法 替换掉字符 :replace(u'\xa0', u' ') 下面是一 阅读全文
posted @ 2019-06-13 14:38 倚楼灬风细 阅读(3399) 评论(0) 推荐(0) 编辑
摘要: pip install --no-index -f https://github.com/Kojoley/atari-py/releases atari_py 阅读全文
posted @ 2018-12-28 13:29 倚楼灬风细 阅读(1240) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-12-17 19:52 倚楼灬风细 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 实现思路就是在每次循环中对矩阵进行四舍五入处理 实现代码如下 阅读全文
posted @ 2018-12-03 11:43 倚楼灬风细 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 相对于顺序高斯只是每次循环的时候增加了一个选择列主元的过程。 选择列主元也就是找到余下的列中最大的一行,并以此行为主元 代码如下: 阅读全文
posted @ 2018-12-03 10:59 倚楼灬风细 阅读(1628) 评论(0) 推荐(0) 编辑
摘要: 运行结果如下 阅读全文
posted @ 2018-11-26 20:50 倚楼灬风细 阅读(3502) 评论(0) 推荐(0) 编辑
摘要: 解决方法: 加上下面这一行代码进行字体设置 阅读全文
posted @ 2018-03-21 14:32 倚楼灬风细 阅读(209) 评论(0) 推荐(0) 编辑
摘要: whoosh的官方介绍:http://whoosh.readthedocs.io/en/latest/quickstart.html 因为做的是中文的全文检索需要导入jieba工具包以及whoosh工具包 直接上代码吧 注: 阅读全文
posted @ 2018-03-10 17:05 倚楼灬风细 阅读(11909) 评论(2) 推荐(0) 编辑
摘要: 本人初学python代码不够规范 望见谅 本段代码可以完成对文本信息的分词(标注词性)、去停用词、以及存储到本地TXT文件中 附部分运行后的存储结果: 注:jieba分词的词性表如下: 另附词性标注表如下:1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名词 nr 人名 nr1 阅读全文
posted @ 2018-03-08 14:53 倚楼灬风细 阅读(4585) 评论(0) 推荐(0) 编辑
摘要: def word_frequency(): word_dict = {} with open('E:\\PythonFile\\tingyongci.txt') as ti: ti_list = list(ti.read()) # 获取停用词表(综合哈工大停用词词表) with open('E:\\PythonFile\\jd\\phone\\3... 阅读全文
posted @ 2018-03-07 16:51 倚楼灬风细 阅读(347) 评论(0) 推荐(0) 编辑