穷酸秀才大草包

LLM资料整理

摘要：框架： 1、https://github.com/LianjiaTech/BELLE 支持Docker 2、https://github.com/vllm-project/vllm 3、https://github.com/hiyouga/LLaMA-Factory/ 一个训练框架，比起BELLE来阅读全文

posted @ 2023-10-29 17:39 穷酸秀才大草包阅读(289) 评论(0) 推荐(0)

Pink Noise Is All You Need: Colored Noise Exploration in Deep Reinforcement Learning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Published as a conference paper at ICLR 2023 ABSTRACT 在具有连续动作空间的异策深度强化学习中，探索通常通过在动作选择过程中注入动作噪声来实现。基于随机策略的流行算法，如SAC或MPO，阅读全文

posted @ 2023-10-01 10:58 穷酸秀才大草包阅读(473) 评论(0) 推荐(0)

Deep Exploration via Bootstrapped DQN

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ NIPS 2016 Abstract 有效的探索仍然是强化学习（RL）的主要挑战。常见的探索抖动策略，如ε-贪婪，不进行时间扩展（或深度）探索；这可能导致数据需求呈指数级增长。然而，在复杂的环境中，大多数用于统计有效RL的算法在计算上是不阅读全文

posted @ 2023-09-25 11:38 穷酸秀才大草包阅读(506) 评论(0) 推荐(0)

Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Proceedings of the 36th International Conference on Machine Learning, PMLR 97:5331-5340, 2019 Abstract 深度强化学习算法需要大量的经验来阅读全文

posted @ 2023-09-19 15:23 穷酸秀才大草包阅读(176) 评论(0) 推荐(0)

Meta-Reinforcement Learning of Structured Exploration Strategies

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ 32nd Conference on Neural Information Processing Systems (NeurIPS 2018), Montréal, Canada. Abstract 探索是强化学习（RL）中的一个基本挑战阅读全文

posted @ 2023-09-19 14:42 穷酸秀才大草包阅读(248) 评论(0) 推荐(0)

Varibad：A very good method for bayes-adaptive deep rl via meta-learning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Published as a conference paper at ICLR 2020 ABSTRACT 在未知环境中权衡探索和开发是在学习过程中实现期望回报最大化的关键。贝叶斯最优策略不仅以环境状态为条件，而且以智能体对环境的不确定性阅读全文

posted @ 2023-09-18 11:01 穷酸秀才大草包阅读(234) 评论(0) 推荐(0)

Training language models to follow instructions with human feedback

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ NeurIPS 2022 Abstract 将语言模型做得更大并不能从本质上使它们更好地遵循用户的意图。例如，大型语言模型可能生成不真实、有害或对用户毫无帮助的输出。换句话说，这些模型与其用户不一致。在本文中，我们展示了一种通过对人类反馈阅读全文

posted @ 2023-09-14 15:06 穷酸秀才大草包阅读(616) 评论(0) 推荐(0)

Spikformer: When Spiking Neural Network Meets Transformer

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Published as a conference paper at ICLR 2023（同大组工作） ABSTRACT 我们考虑了两种生物学合理的结构，脉冲神经网络（SNN）和自注意机制。前者为深度学习提供了一种节能且事件驱动的范式，而阅读全文

posted @ 2023-09-07 20:15 穷酸秀才大草包阅读(1932) 评论(0) 推荐(0)

A Novel Noise Injection-based Training Scheme for Better Model Robustness

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ https://arxiv.org/abs/2302.10802 Abstract 在以前的工作中，基于噪声注入的方法已经被证明能够提高人工神经网络的鲁棒性。在这项工作中，我们提出了一种新的基于噪声注入的训练方案，以提高模型的鲁棒性。具体阅读全文

posted @ 2023-08-01 16:42 穷酸秀才大草包阅读(223) 评论(0) 推荐(0)

Exploiting Noise as a Resource for Computation and Learning in Spiking Neural Networks

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ https://arxiv.org/abs/2305.16044 Summary 脉冲神经网络支撑着大脑非凡的信息处理能力，并已成为神经形态智能的支柱模型。尽管对脉冲神经网络(SNN)进行了广泛的研究，但大多数都是建立在确定性模型上的。将阅读全文

posted @ 2023-07-11 11:27 穷酸秀才大草包阅读(439) 评论(0) 推荐(0)

穷酸秀才大艹包

导航

公告