点此进入CSDN

点此添加QQ好友 加载失败时会显示




摘要: 先插句广告,本人QQ522414928,不熟悉PID算法的可以一起交流学习,随时在线(PID资料再我的另一篇博客里) 倒立摆资料连接↓ https://www.cnblogs.com/LiuXinyu12378/p/11222614.html PID视频资料连接↓ https://www.cnblo 阅读全文
posted @ 2018-04-18 23:46 高颜值的殺生丸 阅读(15780) 评论(3) 推荐(5) 编辑
摘要: 我做PID算法的背景和经历:本人之前电子信息科学与技术专业,对控制方向颇感兴趣,刚上大学时听到实验室老师说PID算法,那年在暑假集训准备全国电子设计竞赛,我正在练习做一个以前专科的题目,帆板角度控制系统,还不懂PID是个什么玩意,老师让我把PID加到这个题目里。当时给了一些电子版的一些教程,但是没看 阅读全文
posted @ 2018-04-14 23:17 高颜值的殺生丸 阅读(7140) 评论(0) 推荐(2) 编辑
摘要: --登录数据库 mysql -uroot -p 解释说明: -u表示用户名, -p:密码 --显示当前时间 select now(); --登出(退出)数据库 exit/quit/ctr+d --查看所有数据库 show databases; --创建数据库 create database py40 charset=utf8; --使用数据库 use py40; --查看数据库里面... 阅读全文
posted @ 2016-05-17 10:53 高颜值的殺生丸 阅读(2778) 评论(0) 推荐(0) 编辑
摘要: import copy import os import sys dir_path = os.path.dirname(os.path.realpath(__file__)) sys.path.insert(0, dir_path) import contextlib import torch.ut 阅读全文
posted @ 2024-05-27 17:30 高颜值的殺生丸 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 其实KL散度在这个游戏里的作用不大,游戏的action比较简单,不像LM里的action是一个很大的向量,可以直接用surr1,最大化surr1,实验测试确实是这样,而且KL的系数不能给太大,否则惩罚力度太大,action model 和ref model产生的action其实分布的差距并不太大 i 阅读全文
posted @ 2024-05-15 22:06 高颜值的殺生丸 阅读(72) 评论(0) 推荐(1) 编辑
摘要: 这个难度有些大,有两个policy,一个负责更新策略,另一个负责提供数据,实际这两个policy是一个东西,用policy1跑出一组数据给新的policy2训练,然后policy2跑数据给新的policy3训练,,,,直到policy(N-1)跑数据给新的policyN训练,过程感觉和DQN比较像, 阅读全文
posted @ 2024-05-14 21:56 高颜值的殺生丸 阅读(16) 评论(0) 推荐(0) 编辑
摘要: import pygame import numpy as np import random import sys # 定义迷宫环境 class Maze: def __init__(self): self.size = 10 self.maze = np.zeros((self.size, sel 阅读全文
posted @ 2024-05-13 15:53 高颜值的殺生丸 阅读(14) 评论(0) 推荐(0) 编辑
摘要: import gym import torch import torch.nn as nn import torch.optim as optim import pygame import sys # 定义Actor网络 class Actor(nn.Module): def __init__(se 阅读全文
posted @ 2024-05-13 13:45 高颜值的殺生丸 阅读(3) 评论(0) 推荐(0) 编辑
摘要: import gym import torch import torch.nn as nn import torch.optim as optim import random import pygame import sys from collections import deque # 定义DQN 阅读全文
posted @ 2024-05-13 13:44 高颜值的殺生丸 阅读(5) 评论(0) 推荐(0) 编辑
摘要: cartpole游戏,车上顶着一个自由摆动的杆子,实现杆子的平衡,杆子每次倒向一端车就开始移动让杆子保持动态直立的状态,策略函数使用一个两层的简单神经网络,输入状态有4个,车位置,车速度,杆角度,杆速度,输出action为左移动或右移动,输入状态发现至少要给3个才能稳定一会儿,给2个完全学不明白,给 阅读全文
posted @ 2024-05-12 17:00 高颜值的殺生丸 阅读(120) 评论(0) 推荐(2) 编辑
摘要: 最近在搞分布式训练大模型,踩了两个晚上的坑今天终于爬出来了 我们使用 2台 8*H100 遇到过 错误1 10.255.19.85: ncclSystemError: System call (e.g. socket, malloc) or external library call failed 阅读全文
posted @ 2024-04-18 21:34 高颜值的殺生丸 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 如何实现图像搜索,文搜图,图搜图,CLIP+faiss向量数据库实现图像高效搜索 这是AIGC的时代,各种GPT大模型生成文本,还有多模态图文并茂大模型, 以及stable diffusion和stable video diffusion 图像生成视频生成等新模型, 层出不穷,如何生成一个图文并貌的 阅读全文
posted @ 2023-12-04 11:27 高颜值的殺生丸 阅读(854) 评论(0) 推荐(0) 编辑
摘要: 最近新换了工作,以后的工作内容会和大模型相关,所以先抽空跑了一下chatGLM2-6b的demo,使用Qlora或lora微调模型 今天简单写个文档记录一下,顺便也是一个简单的教程,并且踩了qlora loss变成nan训练不稳定的问题 本教程并没有写lora的原理,需要的话自行查阅 1.chatG 阅读全文
posted @ 2023-11-02 11:31 高颜值的殺生丸 阅读(890) 评论(0) 推荐(0) 编辑

作者信息

昵称:

刘新宇

园龄:4年6个月


粉丝:1209


QQ:522414928