2024年4月5日

pycharm的没落,vs code的兴起

摘要: 一直都在用pycharm写python程序,vs code写前端。后端难免会打开多个工程,里面自然会引用多个包,出现一个问题的就是pycharm扫描时间过长,打开pycharm工作空间需要好几分钟,另外内存消耗居然达到恐怖的8G。实在无法忍受这种缓慢,逐渐将python工程迁移到vs code,打开 阅读全文

posted @ 2024-04-05 23:46 pmh905001 阅读(5) 评论(0) 推荐(0) 编辑

2024年3月29日

爬虫-今日头条我的收藏-增量式下载网页内容(五)

摘要: 背景: 原先我们下载的文件包含了收藏的元信息,包含标题,链接,文章摘要信息。这些基本的信息就足够支撑查询功能了。但还是存在如下问题: 从业务上来说,文章的原作者可能会删除文章,那么收藏的文章将再也找到相关信息了。所以我们需要把这些信息也要保存。 如果用户标题以及摘要信息不全面,重要信息在文章里面。那 阅读全文

posted @ 2024-03-29 23:56 pmh905001 阅读(10) 评论(0) 推荐(0) 编辑

爬虫-今日头条我的收藏-增量式导入到Elastic Search(四)

摘要: 背景: 继成功导入输入数据到mongodb,sqlite3之后,发现了一些问题,(写到此处觉得还是有些地方没有去深入的学习可能mongodb已经有解决方案了?): 对关键字查询支持不友好,如果要在sql中拆分出不同的关键字sql会比较麻烦。 另外排序不友好,如何把最匹配的记录放在最前面? elast 阅读全文

posted @ 2024-03-29 23:14 pmh905001 阅读(7) 评论(0) 推荐(0) 编辑

2024年2月20日

今日头条源代块一行代码很长情况下的拖动问题

摘要: 今日头条app经常会推送一些代码技术类的文章过来,其中的代码块中经常会出现一行很长的代码。为了看到被遮住的代码,手指会横向从左往右滑动,但是经常却是翻到用户的个人信息页面。 为此向头条反馈过这个问题,没有反馈。 偶然发现一个解决办法,就是不要划出一条横线,要划出带有幅度的曲线,就可以被遮盖的代码。 阅读全文

posted @ 2024-02-20 23:51 pmh905001 阅读(49) 评论(0) 推荐(0) 编辑

2023年12月20日

爬虫-今日头条我的收藏-增量式导入到mongodb(三)

摘要: 背景: 续接前文,当我们有了原始数据之后,自然会想如何利用这些数据。这些文件数据都是json格式,打开一个文本文件眼睛都要看花。所以想把这些数据导入到对应的数据库中,市面上几乎所有数据库都支持json格式存储。 随着时间的推移,用户不断有新的收藏,这样就不断产生新的收藏文件。需要不断的导入到数据库中 阅读全文

posted @ 2023-12-20 16:11 pmh905001 阅读(10) 评论(0) 推荐(0) 编辑

2023年12月19日

爬虫-今日头条我的收藏-增量式(二)

摘要: 背景: 能够全量爬取今日头条我的收藏内容之后,新收藏的内容依然希望能够保存到新文件中。 思路: 每次都全量爬取数据太耗时,增量式爬取可以节省时间。但逻辑上显然要复杂一些。关键的问题是要找到断点的位置。 取消收藏的影响:爬虫旧文件用户收藏的链接有可能被取消收藏。所以在断点位置的判断上不能只取一条数据的 阅读全文

posted @ 2023-12-19 00:15 pmh905001 阅读(31) 评论(0) 推荐(0) 编辑

2023年11月19日

openpyxl一个bug

摘要: 在用openpyxl写excel文件的时候,共享工作簿功能会被覆盖掉变成不允许共享编辑,这对于我开发的授渔功能受到了一定的影响。 wps: 审阅->共享工作簿 如果用户已经在桌面打开excel文件,另外一个进程会尝试写文件会失败。 临时解决方案:关闭已经打开的excel的wps或者ms office 阅读全文

posted @ 2023-11-19 11:58 pmh905001 阅读(13) 评论(0) 推荐(0) 编辑

2023年11月18日

爬虫-今日头条我的收藏(一)

摘要: 背景: 我在今日头条下收藏很多文章,使用的过程中我发现头条的按照关键字搜索总是无法全部搜索出来。也给头条反馈了很多次,总是爱理不理。实在忍受不了这种敷衍,决定自己写一个爬虫。至少可以通过查找关键字搜素标题、tag查找到需要的内容。 有了这些数据可以用来自己的做文本分析、智能分类等功能等后续数据挖掘功 阅读全文

posted @ 2023-11-18 21:15 pmh905001 阅读(187) 评论(0) 推荐(0) 编辑

2023年11月3日

pystray被隐藏菜单项显示出来的问题

摘要: 背景 pystray可以用来显示托盘,菜单项,以及气泡通知信息。如下界面,代码参考: https://gitee.com/pmh905001/shouyu/blob/main/shouyu/view/tray.py 。里面有一个功能是点击黄色的小黄鱼托盘图标打开excel的功能,这是默认的隐藏的菜单 阅读全文

posted @ 2023-11-03 16:05 pmh905001 阅读(133) 评论(0) 推荐(0) 编辑

2023年10月30日

pyinstaller生成的exe程序使用使用默认程序打开execel文件

摘要: 我机器本身已经安装了wps,在pycharm执行情况下,打开一个excel文件是很简单的,使用如下代码: os.system(excel_path) 但是使用pyinstaller生成的exe程序打开excel文件总是会带上一个烦人的windows命令窗口,同时为了不阻塞主线程, 我使用了另外一个子 阅读全文

posted @ 2023-10-30 01:06 pmh905001 阅读(6) 评论(0) 推荐(0) 编辑

导航