摘要: Swanlab是一个简单易用的工具,可用于模型微调过程中对其训练数据进行记录。借助这个工具,可以简化训练数据的记录。 其调用方法类似如下: import swanlab # 登录到平台 swanlab.login(api_key="...") run = swanlab.init( project= 阅读全文
posted @ 2025-04-08 18:38 月薪几千的牛马 阅读(114) 评论(0) 推荐(0)
摘要: 列举一些关于提示词学习的文章: Prompt Learning 超强入门教程 简单了解prompt learning是什么? 【P-Tuning】 一种自动学习 prompt pattern 的方法(附源码) 阅读全文
posted @ 2025-04-08 15:58 月薪几千的牛马 阅读(9) 评论(0) 推荐(0)
摘要: 下面推荐一些数据标注工具: doccano,适合文本分类、序列标注及序列到序列的任务 阅读全文
posted @ 2025-04-08 15:26 月薪几千的牛马 阅读(50) 评论(0) 推荐(0)
摘要: 这个应用看起来很像小学生写作文的场景,主要利用的还是多模态模型来实现的。 界面比较简单,根据上传图片对其进行描述。下面是一个简单的效果: 当然对于模型来说,它可能无法很好的区分性别。 其实现代码如下: import gradio def process(image, choice): .... de 阅读全文
posted @ 2025-04-06 15:39 月薪几千的牛马 阅读(40) 评论(0) 推荐(0)
摘要: 可以使用gradio生成一个简单的检索机器人界面,当用户输入问题后经过检索后将最接近的3个选项的标题及内容显示出来。 其效果类似如下: 将相应的模型加载进来后,接收到用户输入的问题后将其进行嵌入并向量化后,经过召回和重排序后直接显示: 相应数据集来自百度知道,可以访问进行下载。 其相应界面代码如下: 阅读全文
posted @ 2025-04-04 21:44 月薪几千的牛马 阅读(42) 评论(0) 推荐(0)
摘要: 以下是一些文本纠错数据集: shibing624/CSC,其中训练集有282万 另外还有文本生成模型textgen 阅读全文
posted @ 2025-04-04 16:40 月薪几千的牛马 阅读(51) 评论(0) 推荐(0)
摘要: 访问https://pytorch.org/get-started/previous-versions/按照页面内容进行安装 而CUDA的历史版本为https://developer.nvidia.com/cuda-toolkit-archive 阅读全文
posted @ 2025-03-30 16:45 月薪几千的牛马 阅读(18) 评论(0) 推荐(0)
摘要: 其实通过BERT模型对外卖数据集进行分类,从而得到其归类是好评还是差评。其中数据集使用的是waimai_10k。 该数据集中有1.1万条记录,其中差评占绝大多数。需要根据情况拆分为训练集和测试集。 主要考验对Transformers库的使用,就当是训练和学习。 如果不想训练,可以使用已经训练好的模型 阅读全文
posted @ 2025-03-29 16:11 月薪几千的牛马 阅读(40) 评论(0) 推荐(0)
摘要: HNSW是Hierarchical Navigable Small Worlds的缩写,其是一种基于图的数据结构,通过构建多层图从而实现高效的相似性搜索。其相关论文可以参考。 HNSW通过将数据组织成层次结构,每一层都包含由边连接的节点。顶层较为稀疏,可以在图中进行大范围的跳转。而下层密度增加,提供 阅读全文
posted @ 2025-03-28 17:49 月薪几千的牛马 阅读(134) 评论(0) 推荐(0)
摘要: 这里要实现一个小小的界面,用于中文纠错。 相关代码如下: import gradio as gr def corrector(text): texts = text.split("\n") corrected_arr = 纠错函数(texts) #corrected_arr = [("今天新情很好" 阅读全文
posted @ 2025-03-28 14:13 月薪几千的牛马 阅读(36) 评论(0) 推荐(0)