摘要: 工欲善其事,必先利其器 量化交易常用工具梳理,数据、回测、实盘 数据 akshare 个人用户首推,因为免费! tushare Tushare大数据开放社区 https://tushare.pro/ 号称免费,实则积分制,和收钱没啥区别,1积分=1rmb,所以年费大概200-1500,数据质量风评一 阅读全文
posted @ 2023-02-22 10:10 鱼与鱼 阅读(1204) 评论(0) 推荐(0) 编辑
摘要: HOW POWERFUL ARE GRAPH NEURAL NETWORKS? 本文是 Jure Leskovec 又一力作,首先对图神经网络的原理做了深入检出、提纲挈领的叙述,然后从原理方面介绍了如何发挥图神经网络的效用。 图神经网络可以分为三个阶段: Aggregate:聚合邻居节点信息 $$ 阅读全文
posted @ 2023-02-22 10:08 鱼与鱼 阅读(74) 评论(0) 推荐(0) 编辑
摘要: Self-Supervised Learning 的核心思想 Unsupervised Pre-train, Supervised Fine-tune. 两大主流方法 基于 Generative 的方法 基于 Contrative 的方法 基于 Generative 的方法主要关注的重建误差,还原原 阅读全文
posted @ 2023-02-21 20:12 鱼与鱼 阅读(713) 评论(0) 推荐(0) 编辑
摘要: GPT系列 GPT2 The GPT-2 is built using transformer decoder blocks. BERT, on the other hand, uses transformer encoder blocks. auto-regressive: outputs one 阅读全文
posted @ 2023-02-07 16:43 鱼与鱼 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 在处理大规模数据时,数据无法全部载入内存,我们通常用两个选项 使用tfrecords 使用 tf.data.Dataset.from_generator() tfrecords的并行化使用前文已经有过介绍,这里不再赘述。如果我们不想生成tfrecord中间文件,那么生成器就是你所需要的。 本文主要记 阅读全文
posted @ 2022-06-11 12:20 鱼与鱼 阅读(593) 评论(0) 推荐(1) 编辑
摘要: 写在前面: LightGBM 用了很久了,但是一直没有对其进行总结,本文从 LightGBM 的使用、原理及参数调优三个方面进行简要梳理。 开箱即用 quickstart 使用 LightGBM 官方接口,核心步骤 定义参数 构造数据 train predict # 1.定义参数 config = 阅读全文
posted @ 2022-06-03 18:23 鱼与鱼 阅读(2095) 评论(0) 推荐(0) 编辑
摘要: 前不久看到了几个二进制文件可视化的项目,做了一些了解,通过可视化可以看出加壳或者加密文件,在纹理结构上和正常文件还是有较大区别。 而且可视化对文件格式不敏感,任何文件都可以查看其可视化结果。 二进制文件可视化 可视化数据源可分为以下两类: 二进制文件可视化 二进制熵可视化 对绘图的方式有几种方法: 阅读全文
posted @ 2022-06-02 14:34 鱼与鱼 阅读(1160) 评论(0) 推荐(0) 编辑
摘要: Docker 属于 Linux 容器的一种封装,提供简单易用的容器使用接口 安装 docker 设置仓库 $ sudo yum install -y yum-utils $ sudo yum-config-manager \ --add-repo \ https://download.docker. 阅读全文
posted @ 2022-05-29 22:28 鱼与鱼 阅读(620) 评论(0) 推荐(2) 编辑
摘要: 功能很全面的开源反汇编框架,可以结合python使用。 Install git clone https://github.com/radareorg/radare2 radare2/sys/install.sh 官方文档: https://github.com/radareorg/radare2 命 阅读全文
posted @ 2022-05-29 17:48 鱼与鱼 阅读(215) 评论(0) 推荐(0) 编辑
摘要: EMBER https://github.com/elastic/ember\ paper: https://arxiv.org/abs/1804.04637 特征 9个特征组,可以分为两大部分 文件结构无关特征 字节直方图 字节熵直方图 可打印字符串统计 {'numstrings': 3967, 阅读全文
posted @ 2022-05-29 17:24 鱼与鱼 阅读(88) 评论(0) 推荐(0) 编辑
摘要: MLOPS Hidden Technical Debt in Machine Learning Systems. google对MLOPS的介绍:MLOps:机器学习中的持续交付和自动化流水线 mlops上也有不错的介绍,那么如何搭建一个MLOPS? mymlops是一个不错的选择,提供了50+种M 阅读全文
posted @ 2022-05-29 10:57 鱼与鱼 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 一些可视化binary文件的程序 binvis.io 看起来是这个样子,使用希尔伯特曲线画出来的 博客地址 https://corte.si/posts/visualisation/entropy/index.html 开源的github应该可以在这里找到: https://github.com/c 阅读全文
posted @ 2022-05-28 19:54 鱼与鱼 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 主要针对大规模数据,对 tfrecord 进行切片,以及使用多进程加速数据处理 quick start 多进程分片写入 tfrecord 读取 def feature_transform(file): …… # 写入 tfrecord def serialize_example(sha256, da 阅读全文
posted @ 2022-05-13 15:10 鱼与鱼 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 假设通过用户 - 物品相似度进行个性化推荐 用户和物品的 Embedding 都在一个 \(k\) 维的 Embedding 空间中,物品总数为 \(n\),计算一个用户和所有物品向量相似度的时间复杂度是$ O(k*n)$ 直觉的解决方案 基于聚类 基于索引 基于聚类的思想 优点: 离线计算好每个 阅读全文
posted @ 2022-04-17 14:49 鱼与鱼 阅读(665) 评论(0) 推荐(0) 编辑
摘要: 模型压缩 网络剪枝 Netwrok pruning 剪掉网络中无用的参数。 有意思的图,连接先增加后减少。 train large model 评估重要性 参数重要性(以参数为剪枝单位) 比如根据权重的绝对值 神经元重要性(以神经元为剪枝单位) 比如 神经元是否为0 剪掉不重要的 微调小模型,重复执 阅读全文
posted @ 2022-04-11 22:49 鱼与鱼 阅读(189) 评论(0) 推荐(0) 编辑