摘要: 1. 问题描述 在对课程表进行数据抽取时,由于课表结构的原因,需要在原始表字段名作为第一行数据,并对原始字段名进行替换。 原始数据如下所示: 2. 解决办法 经思考,此问题可抽象为:在不影响原始数据的前提下,把字段名作为第一行数据插入原始数据表中,同时更新字段名。 代码如下: 3. 总结阅读全文
posted @ 2018-12-13 19:29 Bo_hemian 阅读(2) 评论(0) 编辑
摘要: 1. 问题描述 在处理用户上网数据时,用户的上网行为数据之间存在时间间隔,按照实际情况,若时间间隔小于阈值(next_access_time_app),则可把这几条上网行为合并为一条行为数据;若时间间隔大于阈值(next_access_time_app),则可把这几条上网行为分别认为是独立无关的行为阅读全文
posted @ 2018-12-13 19:28 Bo_hemian 阅读(4) 评论(0) 编辑
摘要: 机器学习领域有一个十分有魅力的词:熵。然而究竟什么是熵,相信多数人都能说出一二,但又不能清晰的表达出来。 而笔者对熵的理解是:“拒绝学习、拒绝提升的人是没有未来的,也只有努力才能变成自己想成为的人”。 下图是对熵的一个简单描述: 熵可以理解为是一种对无序状态的度量方式。那么熵又是如何被用在机器学习中阅读全文
posted @ 2018-12-06 20:26 Bo_hemian 阅读(116) 评论(1) 编辑
摘要: 1. DeepFM算法的提出 由于DeepFM算法有效的结合了因子分解机与神经网络在特征学习中的优点:同时提取到低阶组合特征与高阶组合特征,所以越来越被广泛使用。 在DeepFM中,FM算法负责对一阶特征以及由一阶特征两两组合而成的二阶特征进行特征的提取;DNN算法负责对由输入的一阶特征进行全连接等阅读全文
posted @ 2018-12-02 21:17 Bo_hemian 阅读(134) 评论(0) 编辑
摘要: Web上数据的增长使得在完整的数据集上使用许多机器学习算法变得更加困难。特别是对于个性化推荐问题,数据采样通常不是一种选择,需要对分布式算法设计进行创新,以便我们能够扩展到这些不断增长的数据集。 协同过滤(CF)是其中一个重要的应用领域。CF是一种推荐系统技术,能够帮助人们发现感兴趣的东西。在Fac阅读全文
posted @ 2018-11-25 00:16 Bo_hemian 阅读(18) 评论(0) 编辑
摘要: BERT(Bidirectional Encoder Representations from Transformers)是谷歌AI研究人员最近发表的一篇论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Und阅读全文
posted @ 2018-11-21 13:09 Bo_hemian 阅读(61) 评论(0) 编辑
摘要: 在文章词嵌入的那些事儿(一)中,我们得到了以下结论: 本文主要是在上文的基础上,对模型的隐藏层-输出层的设计做进一步探索。 1. 霍夫曼编码 霍夫曼编码(Huffman Coding),又译为哈夫曼编码、赫夫曼编码,是一种用于无损数据压缩的熵编码(权编码)算法。 霍夫曼树常处理符号编写工作。根据整组阅读全文
posted @ 2018-11-20 11:53 Bo_hemian 阅读(37) 评论(0) 编辑
摘要: 1. 词向量介绍 在讨论词嵌入之前,先要理解词向量的表达形式,注意,这里的词向量不是指Word2Vec。关于词向量的表达,现阶段采用的主要有One hot representation和Distributed representation两种表现形式。 1.1 One hot representat阅读全文
posted @ 2018-11-18 17:58 Bo_hemian 阅读(65) 评论(0) 编辑
摘要: 1. TPOT介绍 一般来讲,创建一个机器学习模型需要经历以下几步: 数据预处理 特征工程 模型选择 超参数调整 模型保存 本文介绍一个基于遗传算法的快速模型选择及调参的方法,TPOT:一种基于Python的自动机器学习开发工具。项目源代码位于:https://github.com/Epistasi阅读全文
posted @ 2018-11-09 17:27 Bo_hemian 阅读(229) 评论(0) 编辑
摘要: 1. 什么是API 当调包侠们训练好一个模型后,下一步要做的就是与业务开发组同学们进行代码对接,以便这些‘AI大脑’们可以顺利的被使用。然而往往要面临不同编程语言的挑战,例如很常见的是调包侠们用Python训练模型,开发同学用Java写业务代码,这时候,Api就作为一种解决方案被使用。 简单地说,A阅读全文
posted @ 2018-11-04 21:01 Bo_hemian 阅读(171) 评论(0) 编辑