Fork me on GitHub
摘要: cleaning of llm corpus 大模型语料清洗 数据是人工智能领域发展的基础要素之一。随着大规模预训练模型及相关技术不断取得突破,在相应研究中使用高效数据处理工具提升数据质量变得越来越重要。llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功 阅读全文
posted @ 2024-01-13 20:23 石头木 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 提示工程最佳实践 翻译自:https://mphr.notion.site/Prompt-Engineering-Best-Practices-0839585d4bce4c6abb0b551b2107a92a 改善LLM输出的提示技巧。 目录: Tip#1:清晰且具体的指令 Tip#2:给模型思考的 阅读全文
posted @ 2024-01-11 18:43 石头木 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 机器学习系统设计的这个问题由两个主要构建块组成: 1-离线组件:该组件侧重于训练和验证推荐模型。 2-在线组件:该组件负责实时生成(推断)推荐。 最初的离线训练过程遵循经典的数据科学生命周期,从数据收集和转换为特征开始,到模型构建和验证结束。这些步骤的结果是捕获特征并存储在特征存储中的数据集,以及保 阅读全文
posted @ 2023-11-22 20:20 石头木 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-10-09 20:48 石头木 阅读(157) 评论(1) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-07-23 21:55 石头木 阅读(66) 评论(0) 推荐(0) 编辑
摘要: Guide Overview Requirements Demo Modules Overview This java package contains modules to help with finding and extracting tabular data from a PDF or im 阅读全文
posted @ 2023-07-15 15:27 石头木 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 利用java实现版面检测 利用java加载yolov8模型,进行推理,以及前后处理均以java实现。 项目地址:https://github.com/jiangnanboy/layout_analysis4j 模型推理 本项目根据开源中文版面数据CDLA ,利用yolov8进行训练 CDLA是一个中 阅读全文
posted @ 2023-05-05 21:58 石头木 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 项目地址:https://github.com/jiangnanboy/layout_analysis 模型训练及推理 本项目根据开源中文版面数据CDLA ,利用yolov8训练两个模型8mpt与8npt, CDLA是一个中文文档版面分析数据集,面向中文文献类(论文)场景。包含以下10个label: 阅读全文
posted @ 2023-04-28 21:02 石头木 阅读(524) 评论(1) 推荐(0) 编辑
摘要: 车牌识别(vehicle license plate recognition) 项目地址:https://github.com/jiangnanboy/vehicle_license_plate_recognition 车牌识别系统: 1.利用yolo5进行车牌检测 2.利用paddleocr进行车 阅读全文
posted @ 2023-03-07 20:49 石头木 阅读(318) 评论(0) 推荐(0) 编辑
摘要: AutoText 智能文本自动处理工具(Intelligent text automatic processing tool)。 项目地址:https://github.com/jiangnanboy/AutoText AutoText的功能主要有文本纠错,图片ocr以及表格结构识别等。 Guide 阅读全文
posted @ 2023-02-21 20:47 石头木 阅读(214) 评论(0) 推荐(0) 编辑