倒地 - 博客园

2024年7月16日

摘要：要完全解决幻觉问题，就要让模型的推理有足够的上下文，而不是凭空编造。这一点需要从训练时就要做到。就是说，例如 role play 的微调，若角色的回复包含了某种状态（天气如何、吃没吃饭等），这些状态不应该是凭空出现的，而是已经出现在上文。我的设想是，模型应当会主动索求状态的说明文字，若没有，也应该主阅读全文

posted @ 2024-07-16 17:56 倒地阅读(96) 评论(0) 推荐(0)

2024年7月12日

peft中使用多个adapter

摘要：总览比起从零训练或是全量微调，使用 peft 库对预训练模型进行微调是更经济的做法。adapter 是 peft 独有的概念，可向预训练模型添加的额外的少量可学习参数。 peft 库是支持对同一基础模型附上多个 adapters 的，但文档写得不是很明了。本文针对需要对多个 adapters 的情阅读全文

posted @ 2024-07-12 12:15 倒地阅读(1712) 评论(0) 推荐(0)

2024年6月28日

快速统计 PyTorch 模型参数量

摘要：使用 .numel() 方法可以统计模型的参数量。以下代码摘自 In-context Autoencoder (ICAE) 的代码仓库。输入 nn.Module，统计该模型的参数量和可训练参数量： def print_trainable_parameters(model): trainable_p 阅读全文

posted @ 2024-06-28 10:48 倒地阅读(350) 评论(0) 推荐(0)

2024年6月8日

快速使用 ThreadPoolExecutor 并行加速

摘要：总览一般的 Python 脚本只会用上单线程。对于 IO 密集型任务，用多线程加速会快得多。本文会给出一个模板，使用 ThreadPoolExecutor 进行并行加速。注意，由于 GIL 的存在，对于 CPU 密集型任务 ProcessPoolExecutor 是更好的选择。快速使用 Th 阅读全文

posted @ 2024-06-08 19:56 倒地阅读(349) 评论(0) 推荐(0)

2024年6月4日

向量数据库chroma

摘要：概述 Chroma 是向量数据库，存向量用的。拥有针对向量的查询能力，根据向量的距离远近查询，这一点和传统数据库不一样。安装与简单使用用 pip install chromadb 命令安装。为了创建数据库实例，先要创建一个 client。 import chromadb chroma_clie 阅读全文

posted @ 2024-06-04 20:41 倒地阅读(3780) 评论(0) 推荐(0)

衡量相似度：度量学习MetricLearning

摘要：总览一般的机器学任务是，给定一个输入，预测其对应的的标签、值或一组值。这样的任务使用像是交叉熵损失 Cross-Entropy Loss 和均方误差损失 Mean Square Error Loss 就行。度量学习 Metric Learning 则不一样，它的目标是预测不同输入的相对距离。例如，阅读全文

posted @ 2024-06-04 17:51 倒地阅读(413) 评论(0) 推荐(0)

使用余弦相似度还是欧氏距离？

摘要：总览度量学习 Metric Learning 的目标是预测不同输入的相对距离。例如衡量两张人脸的相似程度，或是推理两句话表达含义的相似度。通常做法是，让模型使用各种输入生成代表特征的 embedding 向量，然后用向量间的距离衡量这些输入的相似度。至于如何计算 embedding 向量间的距阅读全文

posted @ 2024-06-04 11:42 倒地阅读(366) 评论(0) 推荐(0)

2024年5月31日

pygetwindow：无法在 Jupyter Notebook 正确使用 Window.activate() 的解决方法

摘要：使用 pygetwindow 库，获取窗口 window 后可以通过 window.activate() 将窗口放到前台。但在 Jupyter Notebook 中调用这个方法始终会报错（ https://github.com/asweigart/PyGetWindow/issues/16 ），目阅读全文

posted @ 2024-05-31 22:35 倒地阅读(424) 评论(0) 推荐(0)

使用 Dash 库构建可交互的数据展示 Web 应用

摘要：概述 Dash 是一个 Python 库，脱胎于 Plotly，可以很方便构建可交互的数据展示 Web 应用。快速入门安装 pip install dash 基本结构一个 Hello World 示例，可以看到 dash app 是如何创建的： from dash import Dash, h 阅读全文

posted @ 2024-05-31 21:22 倒地阅读(321) 评论(0) 推荐(0)

2024年5月28日

ViT暂时不会替代CNN

摘要：概述将 Transformer 应用到视觉领域，就形成了 ViT（Vision Transformer）。与卷积神经网络 CNN 不同，ViT 将图像切分为块并转换为向量，像是处理文本一样处理图像。这让 ViT 拥有了超越 CNN 的全局信息捕捉能力。当训练集数量足够时，ViT 表现优于 CNN 阅读全文

posted @ 2024-05-28 10:34 倒地阅读(581) 评论(0) 推荐(0)

chirp

公告