石头木

2024年7月23日

利用Swin-Unet(Swin Transformer Unet)实现对文档图片里表格结构的识别

摘要：项目：https://github.com/jiangnanboy/table_structure_recognition # 利用Swin-Unet(Swin Transformer Unet)实现对文档图片里表格结构的识别 ## 实现功能 - [x] 识别表格中的线条 - [ ] 结果转为exc 阅读全文

posted @ 2024-07-23 20:51 石头木阅读(209) 评论(0) 推荐(0)

2024年7月22日

llm大语言模型用于电影问答

摘要：项目：https://github.com/jiangnanboy/movie_llm_agent 本项目利用chatglm6b实现一个中文版的简单电影问答功能，目的是探索llm agent与图数据库neo4j进行交互的能力，主要根据用户的意图与neo4j进行交互。 Tools agent使用几个t 阅读全文

posted @ 2024-07-22 20:34 石头木阅读(122) 评论(0) 推荐(0)

利用llm大语言模型提取卡证票据关键信息

摘要：项目：https://github.com/jiangnanboy/Image_KIE_LLM 模型：去除背景: U2Net ocr: paddleocr KIE: Baichuan2 LLM 使用 main.py 在这里，OCR识别的文本和提示语将一起输入到LLM中提取关键信息。结果展示 # 阅读全文

posted @ 2024-07-22 20:18 石头木阅读(291) 评论(0) 推荐(0)

2024年7月1日

text security audit 安全审核-语义模型过滤敏感内容检测系统

摘要：本项目收集大量的涉及政治、色情、辱骂、暴力违禁等敏感数据，据此微调roberta模型，根据模型对文本内容进行分类打分，进行检测审核；针对业务场景下个性化的数据和需求，可自由定制审核模型的阈值参数，合适的策略配置将有效提升内容审核的召回率和精确率。 This project collects a l 阅读全文

posted @ 2024-07-01 19:42 石头木阅读(210) 评论(0) 推荐(0)

2024年6月18日

论文阅读：UniMS-RAG: Unified Multi-Source RAG for Personalised Dialogue

摘要： UniMS-RAG: Unified Multi-Source RAG for Personalised Dialogue(https://arxiv.org/abs/2401.13256) https://github.com/jiangnanboy/paper_read_note 一．概述本研阅读全文

posted @ 2024-06-18 19:42 石头木阅读(157) 评论(0) 推荐(0)

论文阅读：T-RAG: LESSONS FROM THE LLM TRENCHES

摘要： T-RAG: LESSONS FROM THE LLM TRENCHES(https://arxiv.org/abs/2402.07483) https://github.com/jiangnanboy/paper_read_note 一.概述大型语言模型(llm)越来越多地应用于各个领域，包括对阅读全文

posted @ 2024-06-18 19:41 石头木阅读(229) 评论(0) 推荐(0)

论文阅读：Corrective Retrieval Augmented Generation

摘要： Corrective Retrieval Augmented Generation(https://arxiv.org/pdf/2401.15884.pdf) https://github.com/jiangnanboy/paper_read_note 一．序言 RAG即检索增强生成(retriev 阅读全文

posted @ 2024-06-18 19:39 石头木阅读(253) 评论(0) 推荐(0)

2024年5月22日

实现一个文档图像处理工具

摘要：实现一个简单的文档图像处理工具，主要功能包括复杂背景图像漂白，文字方向矫正，清晰增强，笔记去噪美化，去阴影，扭曲矫正，去黑点以及切边增强，后面会持续增加关于AI在文档图像上的应用功能。界面如下，有什么想法请联系我：https://github.com/jiangnanboy/docimg_tool 阅读全文

posted @ 2024-05-22 19:41 石头木阅读(135) 评论(0) 推荐(0)

2024年1月13日

cleaning of llm corpus 大模型语料清洗

摘要： cleaning of llm corpus 大模型语料清洗数据是人工智能领域发展的基础要素之一。随着大规模预训练模型及相关技术不断取得突破，在相应研究中使用高效数据处理工具提升数据质量变得越来越重要。llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功阅读全文

posted @ 2024-01-13 20:22 石头木阅读(1746) 评论(0) 推荐(0)

2024年1月11日

提示工程最佳实践

摘要：提示工程最佳实践翻译自：https://mphr.notion.site/Prompt-Engineering-Best-Practices-0839585d4bce4c6abb0b551b2107a92a 改善LLM输出的提示技巧。目录： Tip#1:清晰且具体的指令 Tip#2:给模型思考的阅读全文

posted @ 2024-01-11 18:43 石头木阅读(170) 评论(0) 推荐(0)

https://jiangnanboy.github.io

公告