会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
moonlight
反思,学习,轨迹记录
博客园
首页
新随笔
联系
订阅
管理
2025年11月26日
RAG项目实战:基于图文PDF的多模态问答RAG项目(三)之向量库建设
摘要: 在完成上面的文档解析和chunk之后,需要做的工作是存储入库。 1. 是什么存储入库的? # json [ { "id": "艾力斯-公司深度报告商业化成绩显著产品矩阵持续拓宽-25070718页_page_0", "content": "# 商业化成绩显著,产品矩阵持续拓宽艾力斯(688578.S
阅读全文
posted @ 2025-11-26 13:43 不要踏入静谧的良夜
阅读(12)
评论(0)
推荐(0)
2025年11月25日
RAG项目实战:基于图文PDF的多模态问答RAG项目(二)之文档解析和分块
摘要: 按照一中的调研思路,这一部分记录关于建立文档库的相关操作和反思:这里主要做的工作包括:pdf解析、pdf数据清洗、chunk以及入库。 I. 进行pdf文件解析,注意:为了符合比赛规则,先基于页码进行分割然后再进行chunk。 这部分由于比赛方推荐了MinerU,我计划先使用这个工具进行尝试。 一、
阅读全文
posted @ 2025-11-25 21:53 不要踏入静谧的良夜
阅读(71)
评论(0)
推荐(0)
Enefit - Kaggle项目
摘要: 项目简述 对能源系统中的安装了太阳能的消费者兼生产者(prosumers)消费或生产的电力进行预测以减少电力不平衡带来的损失或者说调节电力不平衡的费用。 问题描述 预测具体任务:实际是属于区域的电力预测,基本单元是county,在此基础上又对product_type,is_bussiness进行了区
阅读全文
posted @ 2025-11-25 13:38 不要踏入静谧的良夜
阅读(21)
评论(0)
推荐(0)
2025年11月14日
RAG项目实战:基于图文PDF的多模态问答RAG项目(一)调研阶段
摘要: 参考文章: [1] 来自工业界的知识库 RAG 服务(二),RagFlow 源码全流程深度解析 - 易迟的博客 | Bryan Blog [2] 赢得企业RAG挑战赛的秘诀 —— 冠军方案剖析与感悟 [3] https://abdullin.com/ilya/how-to-build-best-ra
阅读全文
posted @ 2025-11-14 11:36 不要踏入静谧的良夜
阅读(99)
评论(0)
推荐(0)
2023年2月2日
从attention到transformer
摘要: 从attention到transformer 总体看transformer 首先说明的是NLP中一类做向量集到向量集任务的模型统称为 seq2seq transformer的结构分为encoder 和 decoder: encoder通过encoder模块多层累加,提取输入特征; decoder通过
阅读全文
posted @ 2023-02-02 23:03 不要踏入静谧的良夜
阅读(77)
评论(0)
推荐(0)
attention
摘要: attention attention 比如看图片的时候,人会自动的有偏重去看图片。 就比如下图: 我们把自身的偏见所带有的特征用矩阵Q表示, 而图片所带有的特征是矩阵K。 通过Q内积K,去得到所谓的注意力分数score。(打分方式除了内积还有很多种,并不明白为什么内积可以做这个相关性判断 ==??
阅读全文
posted @ 2023-02-02 22:54 不要踏入静谧的良夜
阅读(208)
评论(0)
推荐(0)
2023年2月1日
transformer 的发展历史
摘要: 最近看了很多关于transformer的教程,做一个阶段性的总结。也是写博客的试水文章啦~ 今天也要加油呀! 参考资料: b站up去钓鱼的程序猿的课程:https://www.bilibili.com/video/BV11v4y137sN/?spm_id_from=333.788&vd_source
阅读全文
posted @ 2023-02-01 23:20 不要踏入静谧的良夜
阅读(700)
评论(0)
推荐(0)
公告