摘要:
cleaning of llm corpus 大模型语料清洗 数据是人工智能领域发展的基础要素之一。随着大规模预训练模型及相关技术不断取得突破,在相应研究中使用高效数据处理工具提升数据质量变得越来越重要。llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功 阅读全文
摘要:
提示工程最佳实践 翻译自:https://mphr.notion.site/Prompt-Engineering-Best-Practices-0839585d4bce4c6abb0b551b2107a92a 改善LLM输出的提示技巧。 目录: Tip#1:清晰且具体的指令 Tip#2:给模型思考的 阅读全文
摘要:
机器学习系统设计的这个问题由两个主要构建块组成: 1-离线组件:该组件侧重于训练和验证推荐模型。 2-在线组件:该组件负责实时生成(推断)推荐。 最初的离线训练过程遵循经典的数据科学生命周期,从数据收集和转换为特征开始,到模型构建和验证结束。这些步骤的结果是捕获特征并存储在特征存储中的数据集,以及保 阅读全文
摘要:
Guide Overview Requirements Demo Modules Overview This java package contains modules to help with finding and extracting tabular data from a PDF or im 阅读全文
摘要:
利用java实现版面检测 利用java加载yolov8模型,进行推理,以及前后处理均以java实现。 项目地址:https://github.com/jiangnanboy/layout_analysis4j 模型推理 本项目根据开源中文版面数据CDLA ,利用yolov8进行训练 CDLA是一个中 阅读全文
摘要:
项目地址:https://github.com/jiangnanboy/layout_analysis 模型训练及推理 本项目根据开源中文版面数据CDLA ,利用yolov8训练两个模型8mpt与8npt, CDLA是一个中文文档版面分析数据集,面向中文文献类(论文)场景。包含以下10个label: 阅读全文
摘要:
车牌识别(vehicle license plate recognition) 项目地址:https://github.com/jiangnanboy/vehicle_license_plate_recognition 车牌识别系统: 1.利用yolo5进行车牌检测 2.利用paddleocr进行车 阅读全文
摘要:
AutoText 智能文本自动处理工具(Intelligent text automatic processing tool)。 项目地址:https://github.com/jiangnanboy/AutoText AutoText的功能主要有文本纠错,图片ocr以及表格结构识别等。 Guide 阅读全文