2021 年 7月随笔档案 - Angry_Panda

并行强化学习设计的一些想法

摘要：突然冒出了一个想法，可以不可以设计一个并行的强化学习计算模式，能够使强化学习算法充分利用计算机的硬件平台来快速计算呢？？？经过好一顿胡思乱想有了下面的设计：说明：由于强化学习算法需要和环境交互，比如最常见的在线强化学习就需要不断的和环境交互以获得最新的数据从而来训练强化学习算法。以往的强化学习阅读全文

posted @ 2021-07-31 20:11 Angry_Panda 阅读(288) 评论(1) 推荐(0)

Python多进程共享numpy 数组

摘要：引用：https://zhuanlan.zhihu.com/p/32513483 共享 numpy 数组需要用到 numpy 时往往是数据量较大的场景，如果直接复制会造成大量内存浪费。共享 numpy 数组则是通过上面一节的 Array 实现，再用 numpy.frombuffer 以及 resh 阅读全文

posted @ 2021-07-29 14:09 Angry_Panda 阅读(4668) 评论(0) 推荐(1)

【转载】源码分析multiprocessing的Value Array共享内存原理

摘要：原文地址： http://xiaorui.cc/archives/3290 当第一次使用python多进程模块(multiprocessing)的Value Array做数据共享，就觉得一定是基于mmap实现的。当然python文档中也说明是共享内存的方式了。 mmap只是提供了文件映射内存到进程阅读全文

posted @ 2021-07-29 13:38 Angry_Panda 阅读(645) 评论(0) 推荐(0)

python中多进程下通信使用管道Pipe与队列 Queue 的区别： Multiprocessing - Pipe vs Queue

摘要：参考： https://stackoverflow.com/questions/8463008/multiprocessing-pipe-vs-queue 区别： A Pipe() can only have two endpoints. A Queue() can have multiple pr 阅读全文

posted @ 2021-07-29 11:41 Angry_Panda 阅读(398) 评论(0) 推荐(0)

国产计算框架mindspore在gpu环境下1.3.0版本的分布式计算组件安装 ——（openmpi 和 nccl 的安装，配置，示例代码的运行）

摘要：前文已经给出1.3.0gpu版本的编译及安装，本文在此基础上进行分布式组件的安装，前文信息参看：国产计算框架mindspore在gpu环境下编译分支r1.3，使用suod权限成功编译并安装，成功运行——（修复部分bug，给出具体编译和安装过程）—— 第一部分：依赖环境的安装国产计算框架minds 阅读全文

posted @ 2021-07-26 23:34 Angry_Panda 阅读(829) 评论(2) 推荐(0)

国产计算框架mindspore在gpu环境下编译分支r1.3，使用suod权限成功编译并安装，成功运行——（修复部分bug，给出具体编译和安装过程）—— 第二部分：源码编译及编译后文件安装、运行

摘要：前文：国产计算框架mindspore在gpu环境下编译分支r1.3，使用suod权限成功编译并安装，成功运行——（修复部分bug，给出具体编译和安装过程）—— 第一部分：依赖环境的安装我们已经进行了依赖环境的安装，本篇文章则是进行源码的下载及编译，并安装编译后的文件并运行以测试是否成功。必要环阅读全文

posted @ 2021-07-26 09:50 Angry_Panda 阅读(379) 评论(0) 推荐(0)

国产计算框架mindspore在gpu环境下编译分支r1.3，使用suod权限成功编译并安装，成功运行——（修复部分bug，给出具体编译和安装过程）—— 第一部分：依赖环境的安装

摘要：国产计算框架MindSpore的r1.3分支源代码存在部分bug，导致无法从源码方式进行gpu环境下的编译。具体参看： https://www.cnblogs.com/devilmaycry812839668/p/15059000.html https://www.cnblogs.com/devi 阅读全文

posted @ 2021-07-25 21:29 Angry_Panda 阅读(296) 评论(0) 推荐(0)

国产计算框架Mindspore1.3.0 gpu源代码中的cmake文件存在问题（bug）,openmpi的url错误，导致不能正常编译——成功解决mindspore-gpu-1.3.0版本不能从源代码中编译的问题

摘要：mindspore 的 r1.3 分支在gpu方式编译下存在问题，无法编译，具体编译结果参考： https://www.cnblogs.com/devilmaycry812839668/p/15054624.html 编译时会报错，提示就是使用cmake自动编译mindspore-r1.3-gpu 阅读全文

posted @ 2021-07-25 20:58 Angry_Panda 阅读(194) 评论(0) 推荐(0)

MindSpore1.3.0 GPU pip方式安装 —— Ubuntu18.04系统（最终安装结果为成功）需要管理员权限，sudo安装

摘要：官网地址： https://www.mindspore.cn/install 安装CUDA11.1.0 和 cuDNN 8.0.X版本： cuda安装下载并安装： wget https://developer.download.nvidia.com/compute/cuda/11.1.0/loca 阅读全文

posted @ 2021-07-24 13:53 Angry_Panda 阅读(218) 评论(0) 推荐(0)

国产深度学习框架mindspore-1.3.0 gpu版本无法进行源码编译

摘要：官网地址： https://www.mindspore.cn/install 所有依赖环境进行sudo make install 安装，最终报错：错误记录信息： cat /tmp/mindspore/build/mindspore/CMakeFiles/CMakeError.log Perfor 阅读全文

posted @ 2021-07-24 10:37 Angry_Panda 阅读(1386) 评论(2) 推荐(0)

在Ubuntu18.04系统中源码安装 gcc7.3.0

摘要：本文给出源码安装gcc7.3.0的方法。依赖的环境安装到自建文件夹下，给出下面操作中环境的安装文件夹： /home/devilmaycry/anaconda3/mindspore_envs这个路径可以按照个人情况进行设置的，只要下面均保持一致即可。下文中修改 .bashrc 是指打开.bash 阅读全文

posted @ 2021-07-22 21:06 Angry_Panda 阅读(1525) 评论(0) 推荐(0)

记一次失败记录： MindSpore1.3.0 GPU 源码安装 —— Ubuntu18.04系统（最终安装结果为失败）

摘要：官网地址： https://www.mindspore.cn/install 系统：Ubuntu18.04 硬件： i7-9700k CPU 2060super nvidia显卡由于考虑到mindspore版本更新，依赖环境的变化，因此将mindspore依赖的环境安装到自建文件夹下，给出下面操阅读全文

posted @ 2021-07-21 22:58 Angry_Panda 阅读(698) 评论(2) 推荐(0)

【转载】使用Python的ctypes查看内存

摘要：原文地址： https://zhuanlan.zhihu.com/p/124994344 Python是很高层的语言，本身没有像C那样的“指针”的概念，文档里涉及到指针的，基本都是"CPython implementation detail"。CPython本身是用C写的，所以肯定也是有“指针”的，阅读全文

posted @ 2021-07-21 14:31 Angry_Panda 阅读(593) 评论(0) 推荐(0)

（摘抄）源码分析multiprocessing的Value Array共享内存原理

摘要：原文地址： http://xiaorui.cc/archives/3290 摘抄内容：接着粗略的聊聊multiprocessing共享内存的实现方法. multiprocessing提前设定的ctypes映射表，这样对你来说只需要传递符号就可以了。 typecode_to_type = { 'c' 阅读全文

posted @ 2021-07-21 10:59 Angry_Panda 阅读(156) 评论(0) 推荐(0)

（续） python 中 ctypes 的使用尝试

摘要：内容接前文： https://www.cnblogs.com/devilmaycry812839668/p/15032493.html 再一次更正前面的理解，看了文章， https://zhuanlan.zhihu.com/p/124994344 又有了新的理解。从文章（https://zhuan 阅读全文

posted @ 2021-07-20 22:37 Angry_Panda 阅读(81) 评论(0) 推荐(0)

python 中 ctypes 的使用尝试

摘要：最近在看Python的性能优化方面的文章，突然想起ctypes这个模块，对于这个模块一直不是很理解，不过再次看完相关资料有了些新的观点。 ctypes 这个模块个人观点就是提供一个Python类型与C类型数据转换接口或者说是规则的一个模块。ctypes定义的数据类型其实并不是一种数据类型，而更应该说阅读全文

posted @ 2021-07-19 21:54 Angry_Panda 阅读(1276) 评论(2) 推荐(0)

深度强化学习算法（深度强化学习框架）为考虑可以快速适用多种深度学习框架建议采用弱耦合的软件设计方法——快速适用于多种深度学习计算框架的深度强化学习框架设计方案

摘要：如题：深度强化学习算法（深度强化学习框架）为考虑可以快速适用多种深度学习框架建议采用弱耦合的软件设计方法今日在看强化学习的框架，发现现在的深度强化学习框架不论是依赖Tensorflow的还是PyTorch的，在设计时都没有考虑过耦合这个问题，虽然强化学习算法源于学术界，而且现在也还是主要停留于学阅读全文

posted @ 2021-07-17 21:41 Angry_Panda 阅读(702) 评论(0) 推荐(0)

分布式深度学习计算框架依赖环境——NCCL的安装

摘要：分布式深度学习计算框架（MindSpore, PyTorch）依赖环境——NCCL， NCCL提供多显卡之间直接进行数据交互的功能（可以跨主机进行）。注意：本文环境为 Ubuntu18.04 以mindspore1.2.1-gpu计算框架为示范 NCCL的官方主页： https://develo 阅读全文

posted @ 2021-07-17 13:20 Angry_Panda 阅读(7684) 评论(0) 推荐(0)

docker容器下安装nccl失败，报错：Failed to init nccl communicator for group，init nccl communicator for group nccl_world_group

摘要：相关内容参考： https://www.cnblogs.com/devilmaycry812839668/p/15022320.html docker 容器内安装 nccl 后，测试是否安装成功：使用 NVIDIA公司官方提供的测试工具： nccl-tests 国内下载地址： https://gi 阅读全文

posted @ 2021-07-17 13:14 Angry_Panda 阅读(2356) 评论(0) 推荐(0)

MindSpore分布式并行训练（GPU-Docker）mindspore—1.2.1—gpu—docker版本运行报错，Failed to init nccl communicator for group，init nccl communicator for group nccl_world_group

摘要：如题目所述：计算框架MindSpore分布式并行训练报错，具体版本：docker-gpu-1.2.1 运行环境：硬件：Intel CPU， 4卡泰坦软件：Ubuntu18.04宿主机，docker容器运行MindSpore-gpu-1.2.1-docker版本相关软件安装与免密登陆配置： d 阅读全文

posted @ 2021-07-16 23:44 Angry_Panda 阅读(677) 评论(2) 推荐(0)

（续）MindSpore计算框架如何发布训练好的模型到官方模型仓库MindSpore_Hub上 —— 对fork的MindSpore_Hub进行PR提交

摘要：参考： https://gitee.com/mindspore/mindspore/blob/r1.2/CONTRIBUTING.md 对fork的MindSpore_Hub进行PR提交： 1. 在MindSpore_hub官网代码库行进行fork （这里以gitee为例）地址： https:// 阅读全文

posted @ 2021-07-15 22:39 Angry_Panda 阅读(111) 评论(0) 推荐(0)

MindSpore计算框架如何发布训练好的模型到官方模型仓库MindSpore_Hub上

摘要：相关官方资料： https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/use/publish_model.html 参考地址： https://gitee.com/mindspore/hub/blob/r1.2/mshub_res/README. 阅读全文

posted @ 2021-07-15 14:04 Angry_Panda 阅读(170) 评论(0) 推荐(0)

【转载】 docker挂载volume的用户权限问题,理解docker容器的uid

摘要：在刚开始使用docker volume挂载数据卷的时候，经常出现没有权限的问题。这里通过遇到的问题来理解docker容器用户uid的使用，以及了解容器内外uid的映射关系。遇到的问题本地有一个node的项目需要编译，采用docker来run npm install. sudo docker r 阅读全文

posted @ 2021-07-14 21:11 Angry_Panda 阅读(967) 评论(0) 推荐(0)

（续）使用MindSpore_hub 进行加载模型用于推理或迁移学习

摘要：接前文： https://www.cnblogs.com/devilmaycry812839668/p/15005959.html 前文中，在冻结底层特征提取层的参数后，只训练最后一层全连接层，最终可以获得测试效果： 59 epoch, metric: {'Loss': 0.769819343223 阅读全文

posted @ 2021-07-13 20:18 Angry_Panda 阅读(189) 评论(0) 推荐(0)

使用MindSpore_hub 进行加载模型用于推理或迁移学习

摘要：从官方资料： https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/use/save_model.html?highlight=save_checkpoint 在模型训练过程中，可以添加检查点(CheckPoint)用于保存模型的参数，以便执行推阅读全文

posted @ 2021-07-13 13:07 Angry_Panda 阅读(535) 评论(0) 推荐(0)

在计算框架MindSpore中手动保存参数变量（Parameter 变量）—— from mindspore.train.serialization import save_checkpoint

摘要：本文参考内容： https://www.mindspore.cn/doc/programming_guide/zh-CN/r1.2/advanced_usage_of_checkpoint.html?highlight=save_checkpoint 有官方文档内容可知，我们对网络参数的保存不仅可以阅读全文

posted @ 2021-07-12 16:13 Angry_Panda 阅读(387) 评论(0) 推荐(0)

MindSpore 计算框架模型参数和优化器参数的重新载入

摘要：本文主要内容源于： https://www.mindspore.cn/tutorial/training/zh-CN/master/use/load_model_for_inference_and_transfer.html#id1 本地加载模型用于推理验证针对仅推理场景可以使用load_che 阅读全文

posted @ 2021-07-12 10:55 Angry_Panda 阅读(679) 评论(0) 推荐(0)

MindSpore 框架的官方预训练模型的加载 —— MindSpore / hub 的安装

摘要：MindSpore计算框架提供了一个官方版本的预训练模型存储库，或者叫做官方版本的预训练模型中心库，那就是 MindSpore / hub 。首先我们需要明确概念：第一个就是 mindspore_hub 是一个Python库，或者说是一个Python包（package），我们需要在Python 阅读全文

posted @ 2021-07-11 22:15 Angry_Panda 阅读(1306) 评论(0) 推荐(0)

MindSpore框架加载文本数据集示例

摘要：代码原地址： https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/use/load_dataset_text.html 完整代码： import os os.system("rm -f ./datasets/tokenizer.txt") if 阅读全文

posted @ 2021-07-11 08:25 Angry_Panda 阅读(459) 评论(0) 推荐(0)

MindSpore中使用model.train，在每一步训练结束后自动进行调用自定义函数 —— from mindspore.train.callback import Callback

摘要：在MindSpore中使用model.train训练网络时我们难以处理间断性的任务，为此我们可以考虑使用MindSpore中的Callback机制。Callback 函数可以在 model.train 的每一步（step）训练结束后进行自定义的操作。Callback 函数： from mindspo 阅读全文

posted @ 2021-07-10 21:46 Angry_Panda 阅读(1384) 评论(0) 推荐(0)

(续 2 ）在深度计算框架MindSpore中如何对不持续的计算进行处理——对数据集进行一定epoch数量的训练后，进行其他工作处理，再返回来接着进行一定epoch数量的训练——单步计算

摘要：内容接前文： https://www.cnblogs.com/devilmaycry812839668/p/14988686.html https://www.cnblogs.com/devilmaycry812839668/p/14990021.html 前面是我们自己按照个人理解实现的单步计算，阅读全文

posted @ 2021-07-09 20:43 Angry_Panda 阅读(146) 评论(0) 推荐(0)

在 MindSpore 中 dataset_sink_mode 的设置对算法的性能有多少影响呢？？？

摘要：参考代码： https://www.cnblogs.com/devilmaycry812839668/p/14971668.html dataset_sink_mode=True 时，我们可以理解是把数据进行部分的缓存到计算设备上，那么dataset_sink_mode为False和True时对性能阅读全文

posted @ 2021-07-09 20:10 Angry_Panda 阅读(446) 评论(0) 推荐(0)

(续）在深度计算框架MindSpore中如何对不持续的计算进行处理——对数据集进行一定epoch数量的训练后，进行其他工作处理，再返回来接着进行一定epoch数量的训练——单步计算

摘要：内容接前文： https://www.cnblogs.com/devilmaycry812839668/p/14988686.html 这里我们考虑的数据集是自建数据集，那么效果又会如何呢？？？ import mindspore import numpy as np # 引入numpy科学计算库 i 阅读全文

posted @ 2021-07-09 12:11 Angry_Panda 阅读(233) 评论(0) 推荐(0)

在深度计算框架MindSpore中如何对不持续的计算进行处理——对数据集进行一定epoch数量的训练后，进行其他工作处理，再返回来接着进行一定epoch数量的训练——单步计算

摘要：如题所述：深度学习框架MindSpore是华为公司研发的，由于性能设计的原因，MindSpore的一些使用方式和TensorFlow和PyTorch有一些不同，其中的一点就是在进行单步计算或者是非持续数据流的计算的时候，该种情景下MindSpore的编程方式有些自有特点。参考前文： https: 阅读全文

posted @ 2021-07-08 23:37 Angry_Panda 阅读(254) 评论(0) 推荐(0)

model.train方法的dataset_sink_mode参数设置为False时以step作为单位打印数据——（只在mode=context.GRAPH_MODE下成立，在mode=context.PYNATIVE_MODE模式下不成立）

摘要：如题：官方中的内容支持： https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/advanced_use/summary_record.html?highlight=sink_mode 使用summary功能时，建议将model.train方法阅读全文

posted @ 2021-07-08 11:45 Angry_Panda 阅读(795) 评论(1) 推荐(1)

07 2021 档案

公告

导航