摘要: 在处理大规模数据时,数据无法全部载入内存,我们通常用两个选项 使用tfrecords 使用 tf.data.Dataset.from_generator() tfrecords的并行化使用前文已经有过介绍,这里不再赘述。如果我们不想生成tfrecord中间文件,那么生成器就是你所需要的。 本文主要记 阅读全文
posted @ 2022-06-11 12:20 鱼与鱼 阅读(344) 评论(0) 推荐(1) 编辑
摘要: 写在前面: LightGBM 用了很久了,但是一直没有对其进行总结,本文从 LightGBM 的使用、原理及参数调优三个方面进行简要梳理。 开箱即用 quickstart 使用 LightGBM 官方接口,核心步骤 定义参数 构造数据 train predict # 1.定义参数 config = 阅读全文
posted @ 2022-06-03 18:23 鱼与鱼 阅读(630) 评论(0) 推荐(0) 编辑
摘要: 前不久看到了几个二进制文件可视化的项目,做了一些了解,通过可视化可以看出加壳或者加密文件,在纹理结构上和正常文件还是有较大区别。 而且可视化对文件格式不敏感,任何文件都可以查看其可视化结果。 二进制文件可视化 可视化数据源可分为以下两类: 二进制文件可视化 二进制熵可视化 对绘图的方式有几种方法: 阅读全文
posted @ 2022-06-02 14:34 鱼与鱼 阅读(793) 评论(0) 推荐(0) 编辑
摘要: Docker 属于 Linux 容器的一种封装,提供简单易用的容器使用接口 安装 docker 设置仓库 $ sudo yum install -y yum-utils $ sudo yum-config-manager \ --add-repo \ https://download.docker. 阅读全文
posted @ 2022-05-29 22:28 鱼与鱼 阅读(572) 评论(0) 推荐(2) 编辑
摘要: 功能很全面的开源反汇编框架,可以结合python使用。 Install git clone https://github.com/radareorg/radare2 radare2/sys/install.sh 官方文档: https://github.com/radareorg/radare2 命 阅读全文
posted @ 2022-05-29 17:48 鱼与鱼 阅读(84) 评论(0) 推荐(0) 编辑
摘要: EMBER https://github.com/elastic/ember\ paper: https://arxiv.org/abs/1804.04637 特征 9个特征组,可以分为两大部分 文件结构无关特征 字节直方图 字节熵直方图 可打印字符串统计 {'numstrings': 3967, 阅读全文
posted @ 2022-05-29 17:24 鱼与鱼 阅读(19) 评论(0) 推荐(0) 编辑
摘要: MLOPS Hidden Technical Debt in Machine Learning Systems. google对MLOPS的介绍:MLOps:机器学习中的持续交付和自动化流水线 mlops上也有不错的介绍,那么如何搭建一个MLOPS? mymlops是一个不错的选择,提供了50+种M 阅读全文
posted @ 2022-05-29 10:57 鱼与鱼 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 一些可视化binary文件的程序 binvis.io 看起来是这个样子,使用希尔伯特曲线画出来的 博客地址 https://corte.si/posts/visualisation/entropy/index.html 开源的github应该可以在这里找到: https://github.com/c 阅读全文
posted @ 2022-05-28 19:54 鱼与鱼 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 主要针对大规模数据,对 tfrecord 进行切片,以及使用多进程加速数据处理 quick start 多进程分片写入 tfrecord 读取 def feature_transform(file): …… # 写入 tfrecord def serialize_example(sha256, da 阅读全文
posted @ 2022-05-13 15:10 鱼与鱼 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 假设通过用户 - 物品相似度进行个性化推荐 用户和物品的 Embedding 都在一个 \(k\) 维的 Embedding 空间中,物品总数为 \(n\),计算一个用户和所有物品向量相似度的时间复杂度是$ O(k*n)$ 直觉的解决方案 基于聚类 基于索引 基于聚类的思想 优点: 离线计算好每个 阅读全文
posted @ 2022-04-17 14:49 鱼与鱼 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 模型压缩 网络剪枝 Netwrok pruning 剪掉网络中无用的参数。 有意思的图,连接先增加后减少。 train large model 评估重要性 参数重要性(以参数为剪枝单位) 比如根据权重的绝对值 神经元重要性(以神经元为剪枝单位) 比如 神经元是否为0 剪掉不重要的 微调小模型,重复执 阅读全文
posted @ 2022-04-11 22:49 鱼与鱼 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 模型层间差分学习率 一般在微调Bert等预训练模型时使用,可以配合warmup,见warmup小记。 tensorflow 几行搞定,参考官方文档[1] import tensorflow_addons as tfa optimizers = [ tf.keras.optimizers.Adam(l 阅读全文
posted @ 2022-04-10 19:33 鱼与鱼 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 什么是warmup 热身,在刚刚开始训练时以很小的学习率进行训练,使得网络熟悉数据,随着训练的进行学习率慢慢变大,到了一定程度,以设置的初始学习率进行训练,接着过了一些inter后,学习率再慢慢变小; 学习率变化:上升——平稳——下降 为什么用warmup 有助于减缓模型在初始阶段对mini-bat 阅读全文
posted @ 2022-04-10 16:13 鱼与鱼 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 模型召回之SimCSE dataset unsuper import numpy as np import math class UnsuperviseData(tf.keras.utils.Sequence): def __init__(self, x_set, batch_size): self 阅读全文
posted @ 2022-04-09 16:35 鱼与鱼 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 模型召回之DSSM 双塔模型 负样本构造:训练前构造或训练时批内构造 实现 model from transformers import AutoConfig,AutoTokenizer,TFAutoModel MODEL_NAME = "hfl/chinese-roberta-wwm-ext" t 阅读全文
posted @ 2022-04-09 15:48 鱼与鱼 阅读(130) 评论(0) 推荐(0) 编辑