摘要: 1. 问题描述 在处理用户上网数据时,用户的上网行为数据之间存在时间间隔,按照实际情况,若时间间隔小于阈值(next_access_time_app),则可把这几条上网行为合并为一条行为数据;若时间间隔大于阈值(next_access_time_app),则可把这几条上网行为分别认为是独立无关的行为 阅读全文
posted @ 2018-12-13 19:28 Bo_hemian 阅读(1375) 评论(0) 推荐(0)
摘要: 机器学习领域有一个十分有魅力的词:熵。然而究竟什么是熵,相信多数人都能说出一二,但又不能清晰的表达出来。 而笔者对熵的理解是:“拒绝学习、拒绝提升的人是没有未来的,也只有努力才能变成自己想成为的人”。 下图是对熵的一个简单描述: 熵可以理解为是一种对无序状态的度量方式。那么熵又是如何被用在机器学习中 阅读全文
posted @ 2018-12-06 20:26 Bo_hemian 阅读(12345) 评论(2) 推荐(4)
摘要: 1. DeepFM算法的提出 由于DeepFM算法有效的结合了因子分解机与神经网络在特征学习中的优点:同时提取到低阶组合特征与高阶组合特征,所以越来越被广泛使用。 在DeepFM中,FM算法负责对一阶特征以及由一阶特征两两组合而成的二阶特征进行特征的提取;DNN算法负责对由输入的一阶特征进行全连接等 阅读全文
posted @ 2018-12-02 21:17 Bo_hemian 阅读(38523) 评论(13) 推荐(6)
摘要: Web上数据的增长使得在完整的数据集上使用许多机器学习算法变得更加困难。特别是对于个性化推荐问题,数据采样通常不是一种选择,需要对分布式算法设计进行创新,以便我们能够扩展到这些不断增长的数据集。 协同过滤(CF)是其中一个重要的应用领域。CF是一种推荐系统技术,能够帮助人们发现感兴趣的东西。在Fac 阅读全文
posted @ 2018-11-25 00:16 Bo_hemian 阅读(754) 评论(0) 推荐(0)
摘要: BERT(Bidirectional Encoder Representations from Transformers)是谷歌AI研究人员最近发表的一篇论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Und 阅读全文
posted @ 2018-11-21 13:09 Bo_hemian 阅读(1835) 评论(1) 推荐(0)
摘要: 在文章词嵌入的那些事儿(一)中,我们得到了以下结论: 本文主要是在上文的基础上,对模型的隐藏层-输出层的设计做进一步探索。 1. 霍夫曼编码 霍夫曼编码(Huffman Coding),又译为哈夫曼编码、赫夫曼编码,是一种用于无损数据压缩的熵编码(权编码)算法。 霍夫曼树常处理符号编写工作。根据整组 阅读全文
posted @ 2018-11-20 11:53 Bo_hemian 阅读(1189) 评论(0) 推荐(1)
摘要: 1. 词向量介绍 在讨论词嵌入之前,先要理解词向量的表达形式,注意,这里的词向量不是指Word2Vec。关于词向量的表达,现阶段采用的主要有One hot representation和Distributed representation两种表现形式。 1.1 One hot representat 阅读全文
posted @ 2018-11-18 17:58 Bo_hemian 阅读(5787) 评论(0) 推荐(2)
摘要: 1. TPOT介绍 一般来讲,创建一个机器学习模型需要经历以下几步: 数据预处理 特征工程 模型选择 超参数调整 模型保存 本文介绍一个基于遗传算法的快速模型选择及调参的方法,TPOT:一种基于Python的自动机器学习开发工具。项目源代码位于:https://github.com/Epistasi 阅读全文
posted @ 2018-11-09 17:27 Bo_hemian 阅读(6190) 评论(0) 推荐(0)
摘要: 1. 什么是API 当调包侠们训练好一个模型后,下一步要做的就是与业务开发组同学们进行代码对接,以便这些‘AI大脑’们可以顺利的被使用。然而往往要面临不同编程语言的挑战,例如很常见的是调包侠们用Python训练模型,开发同学用Java写业务代码,这时候,Api就作为一种解决方案被使用。 简单地说,A 阅读全文
posted @ 2018-11-04 21:01 Bo_hemian 阅读(3851) 评论(0) 推荐(0)
摘要: 1. 预备知识 1.1 KS-检验 KS-检验与t-检验等方法不同的是KS检验不需要知道数据的分布情况,可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布时,KS-检验的灵敏度没有相应的检验来的高。在样本量比较小的时候,KS-检验作为非参数检验,在分析两组数据之间是否存 阅读全文
posted @ 2018-10-30 16:24 Bo_hemian 阅读(1904) 评论(0) 推荐(0)