会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
74
75
76
77
78
79
80
81
82
···
139
下一页
2023年7月27日
DeepSpeed-MoE:训练更大及更复杂的混合专家网络
摘要: 这是微软发布在2022 ICML的论文,MoE可以降低训练成本,但是快速的MoE模型推理仍然是一个未解决的问题。所以论文提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE:它包括新颖的MoE架构设计和模型压缩技术,可将MoE模型大小减少3.7倍;通过高度优化的推理系统,减少了7.3
阅读全文
posted @ 2023-07-27 09:56 deephub
阅读(159)
评论(0)
推荐(0)
2023年7月26日
2023年发布的25个开源大型语言模型总结
摘要: 大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。 今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以
阅读全文
posted @ 2023-07-26 10:07 deephub
阅读(191)
评论(0)
推荐(0)
2023年7月25日
Python 3.11的10个使代码更加高效的新特性
摘要: 性能有巨大的提升是Python 3.11的一个重要的改进,除此以外Python 3.11还有增加了许多新的特性。在本文中我们将介绍Python 3.11新特性,通过代码示例演示这些技巧如何提高生产力并优化代码。 https://avoid.overfit.cn/post/106aea11d69946
阅读全文
posted @ 2023-07-25 09:40 deephub
阅读(74)
评论(0)
推荐(0)
2023年7月24日
LLM-Blender:大语言模型也可以进行集成学习
摘要: 最近在看arxiv的时候发现了一个有意思的框架:LLM-Blender,它可以使用Ensemble 的方法来对大语言模型进行集成。 官方介绍如下:LLM-Blender是一个集成框架,可以通过利用多个开源大型语言模型(llm)的不同优势来获得始终如一的卓越性能。 LLM集成 我们都知道集成学习是一种
阅读全文
posted @ 2023-07-24 09:30 deephub
阅读(96)
评论(0)
推荐(0)
2023年7月23日
Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%
摘要: Stable Diffusion是一种基于扩散模型的图像生成技术,能够从文本生成高质量的图像,适用于CG,插图和高分辨率壁纸等领域。 但是它计算过程复杂,使得它的生成速度较慢。所以研究人员就创造了各种提高其速度的方式,比如Xformers、Aitemplate、TensorRT和onflow。在本文
阅读全文
posted @ 2023-07-23 09:45 deephub
阅读(504)
评论(0)
推荐(0)
2023年7月22日
使用QLoRa微调Llama 2
摘要: 上篇文章我们介绍了Llama 2的量化和部署,本篇文章将介绍使用PEFT库和QLoRa方法对Llama 27b预训练模型进行微调。我们将使用自定义数据集来构建情感分析模型。只有可以对数据进行微调我们才可以将这种大模型进行符合我们数据集的定制化。 https://avoid.overfit.cn/po
阅读全文
posted @ 2023-07-22 09:51 deephub
阅读(238)
评论(0)
推荐(0)
2023年7月21日
使用Cleanlab、PCA和Procrustes可视化ViT微调
摘要: 与传统的卷积神经网络不同,vit使用最初设计用于自然语言处理任务的Transformers 架构来处理图像。微调这些模型以获得最佳性能可能是一个复杂的过程。 下面是使用动画演示了在微调过程中嵌入的变化。这是通过对嵌入执行主成分分析(PCA)来实现的。这些嵌入是从处于不同微调阶段的模型及其相应的检查点
阅读全文
posted @ 2023-07-21 09:29 deephub
阅读(44)
评论(0)
推荐(0)
2023年7月20日
使用GGML和LangChain在CPU上运行量化的llama2
摘要: Meta AI 在本周二发布了最新一代开源大模型 Llama 2。对比于今年 2 月发布的 Llama 1,训练所用的 token 翻了一倍,已经达到了 2 万亿,对于使用大模型最重要的上下文长度限制,Llama 2 也翻了一倍。 在本文,我们将紧跟趋势介绍如何在本地CPU推理上运行量化版本的开源L
阅读全文
posted @ 2023-07-20 09:45 deephub
阅读(245)
评论(0)
推荐(0)
2023年7月19日
基于Gym Anytrading 的强化学习简单实例
摘要: 近年来强化学习(RL)在算法交易领域受到了极大的关注。强化学习算法从经验中学习并基于奖励优化行动使其非常适合交易机器人。在这篇文章,我们将简单介绍如何使用Gym Anytrading环境和GME (GameStop Corp.)交易数据集构建一个基于强化学习的交易机器人。 强化学习是机器学习的一个子
阅读全文
posted @ 2023-07-19 09:55 deephub
阅读(51)
评论(0)
推荐(0)
2023年7月18日
时间序列的季节性:3种模式及8种建模方法
摘要: 分析和处理季节性是时间序列分析中的一个关键工作,在本文中我们将描述三种类型的季节性以及常见的8种建模方法。 什么是季节性? 季节性是构成时间序列的关键因素之一,是指在一段时间内以相似强度重复的系统运动。 季节变化可以由各种因素引起,例如天气、日历或经济条件。各种应用程序中都有这样的例子。由于假期和旅
阅读全文
posted @ 2023-07-18 09:59 deephub
阅读(255)
评论(0)
推荐(0)
上一页
1
···
74
75
76
77
78
79
80
81
82
···
139
下一页
公告