[实践记录]论文归档项目

这一个月陆陆续续的干了一个学长派的活,于是想记录一下

想来想去放在学习笔记里好像不怎么合适,因为一直在折磨ai,学的东西也用不太上

反正离睡觉还有个半个小时,还是想着记录以下

虽然大概我自己都不会翻第二次

那就新开一栏,记录一下整个项目的过程吧

先贴一下博客地址

arXiv 澡盆妙妙屋

0.项目描述

读研生涯,离不开的就是论文,离不开的就是Arxiv。

但Arxiv每天那么多论文,怎么能够检索得过来呢,于是就诞生了需求

刚好,gemini的编程能力足够强大,也正好检索到了现成的项目(MarsTechHAN/Arxiv-AI-Reader,感谢大佬)

于是在学长的指挥下,在gemini的帮助下,开始了裱糊匠工作

需求:
a. 各种优先排序,关键词、标题字典序、点赞数

b. 由ai翻译摘要

c. 自动化抓取

那么,接下来一点一点盘盘道吧

1. 平台载体

原项目提供了一个前端网页,我们的思路也是建立一个前端网页。但是,前端载体的选择成了第一道门槛。

它要满足以下特性:

a. 足够好的交互性。由于论文是时常更新的,我们需要往前端仓库里上传不少东西

b. 可以命令行操作。如果每周操作,手动更新论文库也不是不行,就是太麻烦了,能自动化最好不是么

于是,我们集思广益,找到了几个备选平台:飞书提供的api,或者是github.io的个人博客。

最终,我们还是选用了github.io。它完美符合了我们需要的特性:

github.io本质还是一个仓库,所以我可以很轻松地用git一套连招把更新的文件上传到云端;

github.io提供了渲染引擎,可以把html和css文件渲染为网页

最重要的是,它是免费的

到这,第一步,完成。

2. ai选用

那么首先考虑的,就是deepseek和qwen。

我首先想用的是qwen3,毕竟deepseek提供的api模型稍微有些老了,用新一些的qwen3效果可能会好一些。

还有就是qwen有百万的免费tokens

但是嗷,qwen的计费真的是神奇。阿里云的ui真的是用不明白,每次找计费入口都nm费尽心思

然后,阿里云的更新好像还不定时,我跑了两三次,发现tokens消耗不大,那还不敞开了用

之后,完整运行了两三次,tokens瞬间就没了wcnmd

好吧,那还是用国产之光deepseek吧。

顺便简述以下ds的api使用过程吧。现在大模型的使用都已经标准化了,申领api_key,部署到环境变量中,就可以使用了。

用python调用非常的方便,具体过程就不赘述了,很简单并且一搜一大把。

总体用下来,ds的体验还算不错,总结一下论文呐做个摘要翻译呐还是很够用的,那就不折腾了。

第二步,完成

3. 一些小问题

首先是摘要翻译。我的选择是另外写了一个python,调用deepseek进行翻译。这样,就不用涉及到原项目的代码问题了(原项目也是伯分之伯的ai率,我也懒得看了)

其次是自动化问题。这个其实也好解决,在ubuntu下有一个工具叫做corntab,可以方便地定时执行一些任务。

需要注意的是,这个定时脚本是在最小系统上执行的,无法运行conda啊调用环境变量啥的,还得单独设置,总之就是好用,但稍微有些麻烦。在这里也就不赘述了,教程也有,简单易学。

还有一点,教研室的服务器是不关机的,所以不会清理端口。原项目提供了一个webui,类似jupyter那样,需要通过本地host来打开页面。但是,ctrl+c的杀进程没法完全杀掉端口占用,导致耽误了一些功夫,但是也是一行指令的事,不展开了。

4. 前端与后端

这就是本次项目的重头戏了,由于本盆一点前端都不会,一点后端都没学,那只能麻烦gemini大人了。

我的思路是,在原项目提供的前端基础上再做裱糊工作,最终呈现的结果也是这样。

值得一提的是,github.io网站只能静态渲染,也就是前端读取了论文的json文件,并不能直接修改json文件。

所以,对于点赞这一功能,我一开始的想法:在json中新建一个字段,并链接到点赞按钮上改变其值,这个方案就行不通了

这样,就必须接后端代码与数据库了。这对于一个完全没接触过前后端sql的新手还是有些难度的,折腾了整整一天。

现如今,最好的方法就是前后端分离。我的前端依旧读取github仓库中的论文数据,对于点赞数这个变量单独建立一个数据库进行读取。

这也算是比较主流的前后端方法,也有一些网站可以实现这个功能。

首先是leancloud,这一最主流平台。很不幸,它于两周前停止注册新用户。

接下来是腾讯云,试用俩月,贵的一批,再见

最后就是supabase,免费的一天几万次访问,足足够了,毕竟除了同组的各位大佬,应该没有其他人会访问这个网站吧。

supabase是一个基于sql的云数据库(大概是这样)

新建数据库,简单设置之后,就可以用了(喂给gemini,然后等代码,上传到github)

在折磨了一整天的gemini之后,总算是把所有的功能都加上了。

稳定每周更新

多种检索模式

点赞投币三连

差不多写完了,也该睡觉了

 

posted @ 2026-01-31 00:01  阿基米德的澡盆  阅读(7)  评论(0)    收藏  举报