02 2021 档案

将爬取网页中的相对路径转换为绝对路径
摘要:##1.背景: 在爬取网页中的过程中,我对目前爬虫项目后端脚本中拼接得到绝对路径的方法很不满意,今天很无意了解到在python3 的 urllib.parse模块对这个问题有着非常完善的解决策略,真的是上天有眼,感动! ##2.urllib.parse模块 This module defines a 阅读全文

posted @ 2021-02-18 16:15 耀扬 阅读(746) 评论(0) 推荐(0)

Python库需要vc++方案
摘要:windows上使用python库,经常会遇到 error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microso 阅读全文

posted @ 2021-02-05 10:48 耀扬 阅读(569) 评论(0) 推荐(0)

jieba自定义idf库
摘要:先建个list,名字叫:data_content 里面的内容如上图。要把数据处理成上面那样的 先分词、过滤。 最后引入如下代码: import math idf_dic = {} #data_content是分析文本 doc_count = len(data_content) # 总共有多少篇文章 阅读全文

posted @ 2021-02-04 13:04 耀扬 阅读(1139) 评论(0) 推荐(0)

IOPub data rate exceeded错误
摘要:jupyter 导入大文件的时候发现改提示 这是jupyter内存的问题,调整过后即可正常显示。 在cmd中输入:jupyter notebook --generate-config,可以看到生成一个路径 打开对应的路径文件 找到这一行,把 注释去掉。然后把数值调大了。即可 阅读全文

posted @ 2021-02-03 09:47 耀扬 阅读(3917) 评论(0) 推荐(0)

导航