03 2020 档案

《文章推荐系统》系列文章笔记
摘要:架构图 要点 1. 推荐流程设计 解决信息过载问题 召回 协同过滤召回 内容相似召回 热门召回 新物品召回 等等 排序 LR GBDT/XGB/LGB DNN Wide&Deep 调整 去重 规则过滤 热门补充 其他规则调整 2. 同步业务数据 为避免推荐系统的数据读写、计算对业务系统的影响,推荐系 阅读全文

posted @ 2020-03-31 22:59 海阔心 阅读(732) 评论(0) 推荐(1)

图片去重
摘要:需求分析 针对海量图片去重通常是如下思路 1. 根据某种方法提取图片特征或者说指纹 2. 根据提取出来的特征计算图片间的距离 3. 根据距离调整阈值判断图片是否相似 1、提取指纹 常用的有如下方法: 1. ahash 2. phash 3. dhash ahash 1. 将图片灰度 2. 将图片re 阅读全文

posted @ 2020-03-31 22:52 海阔心 阅读(1610) 评论(0) 推荐(2)

RuntimeError already started
摘要:Env: os: Ubuntu python3 pytorch vscode Desc 在上述环境中运行A3C多进程模型,使用命令行时没问题,使用vscode时出现 'RuntimeError: already started' 的错误, 具体错误信息如下: Solution 在自己的代码头添加以下 阅读全文

posted @ 2020-03-31 22:50 海阔心 阅读(684) 评论(0) 推荐(1)

pip&conda 换源
摘要:PIP 各种可用源 清华源:https://pypi.tuna.tsinghua.edu.cn/simple 临时指定源 永久更改源 linux下: 1. vim ~/.pip/pip.conf 2. 添加以下内容 windows下: 1. 在用户目录下:C:\Users\Administrator 阅读全文

posted @ 2020-03-31 22:49 海阔心 阅读(400) 评论(0) 推荐(1)

transformers---FloatProgress not found. Please update jupyter and ipywidgets.
摘要:问题 运行 huggingface transformers 的 demo,报错FloatProgress not found。具体如下: 报错: 解决: 添加 from ipywidgets import IntProgress 阅读全文

posted @ 2020-03-31 22:47 海阔心 阅读(585) 评论(0) 推荐(0)

python 迭代器 iter多次消费
摘要:问题 Python 中的迭代器是我们经常使用的迭代工具, 但其只能消费一次,再次消费便会出现 StopIteration 报错。 解决方案 封装了一个类,当迭代器使用完后再次初始化。 代码 阅读全文

posted @ 2020-03-31 22:46 海阔心 阅读(438) 评论(0) 推荐(2)

计算文件MD5
摘要:计算文件MD5 阅读全文

posted @ 2020-03-31 22:45 海阔心 阅读(360) 评论(0) 推荐(0)

win10 远程桌面 ubuntu
摘要:一、获取本机ip 通过 "ip查询网址" 来查询本机外网地址 二、下载远程链接软件 下载 "向日葵" ,注册账号 三、远程链接 1. 将连接端与被连接端分别绑定账号,输入相应ip地址,即可连接。 阅读全文

posted @ 2020-03-31 22:44 海阔心 阅读(300) 评论(0) 推荐(0)

VMware 虚拟机开机黑屏
摘要:VMware 虚拟机开机黑屏 1. 在 cmd 中运行以下命令: 2. 重启计算机 阅读全文

posted @ 2020-03-31 22:43 海阔心 阅读(159) 评论(0) 推荐(0)

计算机存储单位换算
摘要:单位换算 存储类型 相关单位 数据类型 阅读全文

posted @ 2020-03-31 22:41 海阔心 阅读(290) 评论(0) 推荐(0)

TextCNN代码实践
摘要:在上文 "《TextCNN论文解读》" 中已经介绍了TextCNN的原理,本文通过tf2.0来做代码实践。 数据集: "来自中文任务基准测评的数据集IFLYTEK" 导库 数据预处理 设置数据路径 read_json: 定义json数据读取函数 ReplacePunct: 一个用正则去除标点符号的类 阅读全文

posted @ 2020-03-31 22:37 海阔心 阅读(1061) 评论(1) 推荐(0)

TextCNN论文解读
摘要:引言 本文是对《Convolutional Neural Networks for Sentence Classification》的原理解读,简称TextCNN。 作者提出了一种基于CNN的新的文本分类模型。该模型结构简单,支持静态词向量和可微调词向量。作者做了一系列实验验证了该方法的优势,在各种 阅读全文

posted @ 2020-03-31 22:34 海阔心 阅读(2265) 评论(0) 推荐(0)

word2vector代码实践
摘要:引子 在上次的 "《word2vector论文笔记》" 中大致介绍了两种词向量训练方法的原理及优劣,这篇咱们以skip gram算法为例来代码实践一把。 当前教程参考: "A Word2Vec Keras tutorial" 导库 '2.0.0' 数据下载与预处理 将数据下载到本地,若本地已有数据则 阅读全文

posted @ 2020-03-31 22:31 海阔心 阅读(581) 评论(0) 推荐(0)

word2vector论文笔记
摘要:背景 很多当前的NLP系统和技术都把单词像ont hot一样当做原子性的一个概念去对待,单纯就是一个索引,无法表示词之间的相似性。原因就是往往一个简单的、鲁棒的、可观测的模型在海量数据集上的学习效果要优于一个复杂模型在少量数据集上的学习效果。 然而,基于简单技术的模型有以下缺陷:比如语音识别和机器翻 阅读全文

posted @ 2020-03-31 22:26 海阔心 阅读(389) 评论(0) 推荐(0)

Mysql 连接池
摘要:通常,如果我们的服务涉及到mysql的操作,当一个新的请求进来的时候,可以先连接mysql, 使用完之后再断开连接即可。 但这样做有个弊端,当请求量巨大时,会在瞬间有大量的数据库连接与断开操作,这是非常影响 mysql 性能的做法。此时,我们就需要使用Mysql连接池。 在 Python 服务中使用 阅读全文

posted @ 2020-03-31 22:16 海阔心 阅读(414) 评论(0) 推荐(0)

导航