导航

2024年4月4日

摘要: 矩阵乘法是一个常见的计算密集型任务,特别适合于 GPU(图形处理单元)并行计算。 GPU 通过执行成千上万的小型、简单的操作(如浮点运算),可以显著加速矩阵乘法等并行任务。 矩阵乘法在GPU的执行步骤 下面是矩阵乘法在 GPU 上并行优化的一个概述,以及一个简单示例的执行步骤。 1、分割任务 GPU 阅读全文

posted @ 2024-04-04 17:57 蝈蝈俊 阅读(14) 评论(0) 推荐(0) 编辑

2024年3月30日

摘要: 在Twitter上看到一段给代码生成单元测试的Prompt: https://twitter.com/mattshumer_/status/1773385952699789808 虽然它是针对 Claude 3的,但理论上来说可以适用于绝大部分模型。 Prompt 如下: <prompt_expla 阅读全文

posted @ 2024-03-30 14:14 蝈蝈俊 阅读(23) 评论(0) 推荐(0) 编辑

2024年3月15日

摘要: 用 PyInstaller 打包python程序时,收到下面错误: User 140343 INFO: Building PKG because PKG-00.toc is non existent 140344 INFO: Building PKG (CArchive) mainwindow.pk 阅读全文

posted @ 2024-03-15 08:43 蝈蝈俊 阅读(26) 评论(0) 推荐(0) 编辑

2024年3月14日

摘要: 比如:PyInstaller这个包可以通过以下方式来确定是通过 Conda 还是 Pip 安装的: 如果你使用 Conda 安装了 PyInstaller,你可以打开 Conda 终端或命令提示符,然后输入以下命令: conda list 在输出中查找 PyInstaller,如果它在列表中,那么你 阅读全文

posted @ 2024-03-14 09:34 蝈蝈俊 阅读(7) 评论(0) 推荐(0) 编辑

2024年3月10日

摘要: Ollama 默认直接支持很多模型,只需要简单的使用 ollama run命令,示例如下: ollama run gemma:2b 就可安装、启动、使用对应模型。 通过这样方式直接支持的模型我们可以通过https://ollama.com/library 找到。 在https://huggingfa 阅读全文

posted @ 2024-03-10 10:02 蝈蝈俊 阅读(1496) 评论(0) 推荐(0) 编辑

2024年3月9日

摘要: 在HuggingFace上,我们时不时就会看到GGUF后缀的模型文件,它是如何来的?有啥特点? https://huggingface.co/TheBloke/Llama-2-7B-Chat-GGUF GGUF 由来 Georgi Gerganov(https://github.com/ggerga 阅读全文

posted @ 2024-03-09 21:41 蝈蝈俊 阅读(475) 评论(0) 推荐(0) 编辑

2024年3月3日

摘要: 在深度学习和Transformer模型的上下文中,d_model中的“d”通常代表“dimension”,即“维度”的简写。因此,d_model指的是模型中向量的维度大小,这是一个关键的参数,影响着模型的性能和计算复杂度。在Transformer架构中,d_model特别指向嵌入向量的维度,以及模型 阅读全文

posted @ 2024-03-03 13:43 蝈蝈俊 阅读(47) 评论(0) 推荐(0) 编辑

2024年2月27日

摘要: QLoRa的核心思想是首先使用低秩分解技术降低参数的数量,然后对这些低秩表示的参数应用量化技术,进一步减少所需的存储空间和计算量。 低秩分解 低秩分解(Low-Rank Factorization):通过将模型中的权重矩阵分解为更小的矩阵乘积,减少模型中的参数数量。 参看:LoRA 微调和低秩矩阵 阅读全文

posted @ 2024-02-27 09:29 蝈蝈俊 阅读(28) 评论(0) 推荐(0) 编辑

2024年2月26日

摘要: Faster-Whisper https://github.com/SYSTRAN/faster-whisper 是一个使用 CTranslate2 重新实现的 OpenAI Whisper 模型,旨在提高转录速度和效率。 它显著提高了处理速度,与原始 Whisper 模型相比,保持了相同的准确性的 阅读全文

posted @ 2024-02-26 13:51 蝈蝈俊 阅读(151) 评论(0) 推荐(0) 编辑

2024年2月25日

摘要: LoRA(Low-Rank Adaptation)是一种技术,旨在有效调整大型语言模型,以适应特定任务,而无需重新训练整个模型。在论文《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGEMODELS》(https://arxiv.org/abs/2106.0968 阅读全文

posted @ 2024-02-25 20:10 蝈蝈俊 阅读(126) 评论(0) 推荐(0) 编辑