07 2025 档案

摘要:1.内网穿透 好像内网穿透后,访问外部网站的速度会加快 2.模拟测试 【经验1】:模拟测试的时候要使用需要梯度的操作来生成输出,例如Conv2,Linear等nn.module,不要使用torch.rand()去生成,不然更新参数的时候会报错 RuntimeError: element 0 of t 阅读全文
posted @ 2025-07-31 21:21 BingUw 阅读(18) 评论(0) 推荐(0)
摘要:1.模型参数 1.1 参数加载方法 模型参数的加载分为两种,首先是使用torch.load加载,而后是使用huggingface的PyTorchModelHubMixin的from_pretrained的方法来加载.两种方法的加载格式不同,load在pytorch2.6之后才支持safetensor 阅读全文
posted @ 2025-07-30 17:05 BingUw 阅读(30) 评论(0) 推荐(0)
摘要:1.修改emoji与内置语音 1.1 流程复习 先稍微讲述下流程,对于项目源码来说,直接克隆是不带这个文件夹,这个文件夹是进行idf.py build后才出现的。按照官方文档的说明,首先需要设置芯片,之后在进入菜单更换编译Board类型为S3,最后编译,烧录即可。涉及的命令有如下几条 idf.py 阅读全文
posted @ 2025-07-29 10:27 BingUw 阅读(20) 评论(0) 推荐(0)
摘要:这一篇讲一点阿里云产品的内容,主要包括PAI与ECS,应该是一个长期更新的篇章,会根据我看文档的进度不定时做更新 1.PAI平台 1.1 Docs阅读 PAI是阿里云开发的用于人工智能研究和应用的平台产品,以下是其网址PAI平台,进来后点击文档查看相关内容 1.1.1 产品功能 产品的功能包括智能标 阅读全文
posted @ 2025-07-27 23:13 BingUw 阅读(22) 评论(0) 推荐(0)
摘要:1.网络部分相关 1.1 网段通信 同一网段和同一交换机下,知道IP地址即可,在不同网段下,需要通过路由器来连通两个设备。这里首先介绍一下同一网段下的操作,以VMware为例,在VMware的网络适配器选项中,有五种网络连接方式,桥接模式,NAT模式,仅主机模式(host only)这三种通俗来讲就 阅读全文
posted @ 2025-07-27 15:23 BingUw 阅读(18) 评论(0) 推荐(0)
摘要:1.硬件 面包板:可找厂家购买免焊接版本,然后让其给予教程,进行搭建,直接TB搜索小智AI面包板即可 成品开发板:可以选择立创的S3与C3 2.软件 2.1 Flash工具与Web写入 无开发环境写入的具体教程链接如下:无开发环境 Flash软件写入(推荐) 1. 下载工具:Flash工具,该工具不 阅读全文
posted @ 2025-07-25 21:38 BingUw 阅读(131) 评论(0) 推荐(0)
摘要:1.模块 1.1 模块导入 今天在进行训练时,遇到了模块导入的问题,原先在/FineTune/model路径下编写两个模型decoder.py,depth2seg.py在同路径下的test_decoder.ipynb中测试导入没有问题, 而跑到上级路径/FineTune下的test_train.ip 阅读全文
posted @ 2025-07-24 21:22 BingUw 阅读(16) 评论(0) 推荐(0)
摘要:1.读取图像像素 1.1 PIL访问 PIL是python中处理图像的第三方库,关于煮啵今天遇到的一些使用PIL的细节如下:首先PIL不支持下标操作,原因是因为在Python中只有实现getitem的方法的对象才支持下标操作,由于PIL的Image对象没有实现该方法,因此使用pixel=image[ 阅读全文
posted @ 2025-07-24 00:11 BingUw 阅读(28) 评论(0) 推荐(0)
摘要:1.EDGE浏览器快捷操作 介绍一点有关EDGE浏览器的快捷操作内容,希望对于大家的科研或者生活有所帮助 1.1 单页面操作 1.1.1 查找与逐项查找 在EDGE浏览器中可以使用CTRL+F开启查找功能,开启完CTRL+F查找功能后,还可使用Enter与/Shift+Enter进行逐项查找, 【注 阅读全文
posted @ 2025-07-24 00:10 BingUw 阅读(11) 评论(0) 推荐(0)
摘要:1.相机模型复习 1.1 坐标系 在相机模型中一共有四种坐标系,为像素坐标系,图像坐标系,相机坐标系,世界坐标系; 像素坐标系与图像坐标系之间的转换可以使用一个四棱锥表示,棱锥顶点由一个平面顶点垂直向上; 图像坐标系与相机坐标系之间的转换也用四棱锥,棱锥顶点由平面中心点垂直向上; 相机到世界就是简单 阅读全文
posted @ 2025-07-21 20:42 BingUw 阅读(28) 评论(0) 推荐(0)
摘要:今天看到了一篇名为Review of Feed-forward 3D Reconstruction: From DUSt3R to VGGT的文章,介绍了前馈3D重建的各种模型 1.传统范式 作者在文章中介绍到Inferring dense 3D geometry from a collection 阅读全文
posted @ 2025-07-20 22:27 BingUw 阅读(50) 评论(0) 推荐(0)
摘要:1. 大模型接入 大模型的接入分为AI应用平台接入,AI软件客户端接入,程序接入三种方式.其中在程序接入方式中,又拥有4中主流的接入方式,分别为SDK接入,HTTP接入,Spring AI接入,Langchain4J接入等. SDK接入: 1. 下载并安装SDK-官方软件开发包: 例如我选择的大模型 阅读全文
posted @ 2025-07-20 01:44 BingUw 阅读(58) 评论(0) 推荐(0)
摘要:1.YML配置环境 今天学习到了一种新式配置python环境的方法,例如在GitHub上的开源项目SAR3D中,装上这个环境的步骤比较长,我们采用逐步装环境法.将dependencies和pip的部分分离,对于dependencies,测试的效果如下: PLAN_A defaults: 首先在默认的 阅读全文
posted @ 2025-07-18 01:26 BingUw 阅读(25) 评论(0) 推荐(0)
摘要:1.语义分割任务练习1-Unet 1.1 语义分割简介 语义分割(semantic segmentation)就是按照语义给图像上的每一个点打一个标签,即像素级的分类任务。具体来讲给定一对RGB图片与灰度图像的pair,输出一个分割图(有时候也被称为分割图谱)。这个分割图其实是公式Fij=argma 阅读全文
posted @ 2025-07-17 19:00 BingUw 阅读(39) 评论(0) 推荐(0)
摘要:1.训练集微调 1.1 trainer.py run: 现在介绍training文件夹中的trainer文件,trainer文件中较为重要的方法是run,run_train,run_value。run方法中有一句断言用来表示模型的模式只能是train或者val;run_train中所做的包括获得数据 阅读全文
posted @ 2025-07-16 01:37 BingUw 阅读(53) 评论(0) 推荐(0)
摘要:1.torchrun torchrun是一个Python控制台脚本(CLI),指向主模块torch.distributed.run。效果等同于python -m torch.distributed.run。 1.1 简单使用 命令行使用 在命令行中输入如下指令即可启动单节点多进程训练,重要的是第三个 阅读全文
posted @ 2025-07-15 09:43 BingUw 阅读(49) 评论(0) 推荐(0)
摘要:1.训练集微调-1 在这一部分我将先介绍training文件夹本身包含的的.py文件以及config文件夹中.yaml文件 1.1 launch.py 在VGGT的官方提供的训练代码launch.py中,流程十分简单,解析命令行参数,撰写API,传入训练器训练 命令行解析:主要使用argparse模 阅读全文
posted @ 2025-07-14 00:18 BingUw 阅读(193) 评论(2) 推荐(0)
摘要:1.Hydra参考手册 Hydra其余部分知识点被放入了Hydra的参考手册中:https://hydra.cc/docs/advanced/terminology/#config-files ,参考手册中包含术语,Hydra命令行标记,覆盖语法,实例化对象,撰写API,配置搜索路径,应用程序打包, 阅读全文
posted @ 2025-07-12 23:59 BingUw 阅读(40) 评论(0) 推荐(0)
摘要:0.序 在开启今天的内容之前,想先说明下Autodl上远程主机扩展崩溃的问题,根据网上的经验,说是vscode的版本过高,需要回退到1.96.4版本,并禁止自动更新 【注】:如果你想使用Github带的copilot还是更新至最新版本比较好 回退版本: https://code.visualstud 阅读全文
posted @ 2025-07-11 20:00 BingUw 阅读(50) 评论(0) 推荐(0)
摘要:1.训练前置步骤 1.1 数据集下载 数据集下载的仓库地址: https://github.com/facebookresearch/co3d?tab=readme-ov-file#co3dv2-common-objects-in-3d-version-2 在下载数据集这一部分下,作者将数据集文件的 阅读全文
posted @ 2025-07-10 00:18 BingUw 阅读(228) 评论(0) 推荐(0)
摘要:1.任务清单讲解 1.1 添加Class_Token Class_Token的添加可以使用类来实现,创建ClassToken.py模块,并将如下代码写入模块中。 import torch import torch.nn as nn class ClassToken(nn.Module): """ 添 阅读全文
posted @ 2025-07-08 22:13 BingUw 阅读(32) 评论(0) 推荐(0)
摘要:1.ViT复习 1.1 Embedding 【ADD】加入Class Token 由于标准的block要求的输入是[num_token,token_dim],对于图片数据[H,W,C]来说无法直接输入,所以需要进行处理。这里以ViT-B为例 从图片上来看ViT-B的输入图片为[224,224,3], 阅读全文
posted @ 2025-07-07 21:09 BingUw 阅读(33) 评论(0) 推荐(0)
摘要:1.卷积与转置卷积 1.1 卷积 卷积的本质其实是一种滑动窗口机制,卷积出的特征取决于原序列大小和滑动窗口的大小.在数学上需要将滑动窗口中的数据进行180的调转,才能达到数学概念上的卷积. 在二维图像上,卷积将原图X变为特征图Y. 多通道图又有不同的卷积方式,包括分通道卷积,全通道卷积.采用分通道卷 阅读全文
posted @ 2025-07-07 10:03 BingUw 阅读(53) 评论(0) 推荐(1)
摘要:1.VGGT 1.1 VGGT交互组件 VGGT官方提供三种交互组件,分别为demo_colmap.py,demo_gradio.py,demo_viser.py。后两者为网页式交互组件,官方版本使用的gradio在autodl上复现可能会出现错误,需要更换版本,viser可正常使用。 1.2 VG 阅读全文
posted @ 2025-07-06 17:06 BingUw 阅读(317) 评论(0) 推荐(1)
摘要:1.Scannet数据集 Scannet数据集的所占的存储空间非常大,一般使用其预处理后的数据集文件,以下是与scannet数据集预处理相关的项目 1.1 3DMV 3DMV是将RGB颜色和几何信息相结合,进行语义分割。该项目将scannet数据集预处理为如下的文件结构: 等待中... 1.2 Po 阅读全文
posted @ 2025-07-03 21:59 BingUw 阅读(94) 评论(0) 推荐(0)