deephub

2024年3月14日

摘要：处理单一任务是强化学习的基础，它的目标是在不确定的环境中采取最佳行动，产生相对于任务的最大长期回报。但是在多代理强化学习中，因为存在多个代理，所以代理之间的关系可以是合作的，也可以是对抗，或者两者的混合。多代理的强化学习引入了更多的复杂性，每个代理的状态不仅包括对自身的观察，还包括对其他代理位置及其阅读全文

posted @ 2024-03-14 11:33 deephub 阅读(370) 评论(0) 推荐(0)

2024年3月13日

2024年3月最新的深度学习论文推荐

摘要：现在已经是3月中旬了，我们这次推荐一些2月和3月发布的论文。 Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning. https://arxiv.org/abs/24 阅读全文

posted @ 2024-03-13 10:43 deephub 阅读(159) 评论(0) 推荐(0)

2024年3月12日

傅里叶变换算法和Python代码实现

摘要：傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。我们使用以下定义来表示傅立叶变换及其逆变换。设 f: ℝ → ℂ 是一个既可积又可平方积分的复值函数。那么它的傅立叶变换，记为 f̂，是由以下复值函数给出：同阅读全文

posted @ 2024-03-12 10:10 deephub 阅读(71) 评论(0) 推荐(0)

2024年3月11日

从16-bit 到 1.58-bit ：大模型内存效率和准确性之间的最佳权衡

摘要：通过量化可以减少大型语言模型的大小，但是量化是不准确的，因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度，而较小的llm则很难精确量化。什么时候使用一个小的LLM比量化一个大的LLM更好? 在本文中，我们将通过使用GPTQ对Mistral 7B、Llama 27 阅读全文

posted @ 2024-03-11 11:06 deephub 阅读(121) 评论(0) 推荐(0)

2024年3月10日

Nomic Embed：能够复现的SOTA开源嵌入模型

摘要： Nomic-embed-text是2月份刚发布的，并且是一个完全开源的英文文本嵌入模型，上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型，如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。模型、训练阅读全文

posted @ 2024-03-10 10:27 deephub 阅读(516) 评论(0) 推荐(0)

2024年3月9日

使用Tokeniser估算GPT和LLM服务的查询成本

摘要：将LLM集成到项目所花费的成本主要是我们通过API获取LLM返回结果的成本，而这些成本通常是根据处理的令牌数量计算的。我们如何预估我们的令牌数量呢？Tokeniser包可以有效地计算文本输入中的令牌来估算这些成本。本文将介绍如何使用Tokeniser有效地预测和管理费用。大语言模型（如GPT）中的阅读全文

posted @ 2024-03-09 09:45 deephub 阅读(64) 评论(0) 推荐(0)

2024年3月8日

StarCoder 2：GitHub Copilot本地开源LLM替代方案

摘要： GitHub CoPilot拥有超过130万付费用户，部署在5万多个组织中，是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力，而且正在永久性地改变数字原住民开发软件的方式，我也是它的付费用户之一。低代码/无代码平台将使应用程序创建、工作流自动化和数据分析更加广泛的应阅读全文

posted @ 2024-03-08 10:54 deephub 阅读(359) 评论(0) 推荐(0)

2024年3月7日

LLM 加速技巧：Muti Query Attention

摘要： MQA 是 19 年提出的一种新的 Attention 机制，其能够在保证模型效果的同时加快 decoder 生成 token 的速度。在大语言模型时代被广泛使用，很多LLM都采用了MQA，如Falcon、PaLM、StarCoder等。在介绍MQA 之前，我们先回顾一下传统的多头注意力 Mult 阅读全文

posted @ 2024-03-07 09:44 deephub 阅读(114) 评论(0) 推荐(0)

2024年3月6日

RNN又行了！DeepMind新发布的Griffin可以与同级别的LLM性能相当

摘要： Hawk和Griffin是DeepMind推出的新型循环神经网络（RNNs），2月刚刚发布在arxiv上。Hawk通过使用门控线性递归（gated linear recurrences）超越了Mamba的性能，而Griffin则是一种混合型模型，结合了门控线性递归和局部注意力（local atten 阅读全文

posted @ 2024-03-06 10:58 deephub 阅读(84) 评论(0) 推荐(0)

2024年3月5日

使用纹理对比度检测检测AI生成的图像

摘要：在本篇文章中我们将介绍如何开发一个深度学习模型来检测人工智能生成的图像大多数用于检测人工智能生成图像的深度学习方法取决于生成图像的方法，或者取决于图像的性质/语义，其中模型只能检测人工智能生成的人、脸、汽车等特定对象。但是这篇论文“Rich and Poor Texture Contrast: 阅读全文

posted @ 2024-03-05 10:27 deephub 阅读(119) 评论(0) 推荐(0)

overfit深度学习

公告