摘要:以脚本spark_clean_online_action.py、数据集new_sxf_time_count_1781115582.csv为例: 集群节点包括212、216、217、218。需要注意的是: 每台节点有且仅有Python 2.7.5 和Python 2.6.8 两个环境 完成相关依赖安装 阅读全文
posted @ 2019-04-01 10:16 Bo_hemian 阅读 (352) 评论 (0) 编辑
摘要:1. 引言 个人以为,机器学习是朝着更高的易用性、更低的技术门槛、更敏捷的开发成本的方向去发展,且AutoML或者AutoDL的发展无疑是最好的证明。因此花费一些时间学习了解了AutoML领域的一些知识,并对AutoML中的技术方案进行归纳整理。 众所周知,一个完整的机器学习项目可概括为如下四个步骤 阅读全文
posted @ 2019-02-14 22:12 Bo_hemian 阅读 (2305) 评论 (0) 编辑
摘要:1. Pandas_UDF介绍 PySpark和Pandas之间改进性能和互操作性的其核心思想是将Apache Arrow作为序列化格式,以减少PySpark和Pandas之间的开销。 Pandas_UDF是在PySpark2.3中新引入的API,由Spark使用Arrow传输数据,使用Pandas 阅读全文
posted @ 2019-01-21 13:51 Bo_hemian 阅读 (1068) 评论 (0) 编辑
摘要:1. Learning to Rank 1.1 什么是排序算法 为什么google搜索 ”idiot“ 后,会出现特朗普的照片? “我们已经爬取和存储了数十亿的网页拷贝在我们相应的索引位置。因此,你输入一个关键字,我们将关键词与网页进行匹配,并根据200多个因子对其进行排名,这些因子包括相关性、新鲜 阅读全文
posted @ 2019-01-04 21:22 Bo_hemian 阅读 (1270) 评论 (0) 编辑
摘要:前一段时间研究了下知识图谱,根据一些博客和技术分享,整理出思维导图,以供有需求时回顾。 主要分为三大模块:命名实体识别、实体关系预测以及Neo4J图数据库。 其中,命名实体识别主要包括实体库的构造和新实体的更新;实体关系预测是算法工程师的重点工作内容,包括实体关系获取(训练数据)和实体关系预测(分类 阅读全文
posted @ 2019-01-02 21:02 Bo_hemian 阅读 (530) 评论 (0) 编辑
摘要:2. 隐语义模型 隐语义模型又可称为LFM(latent factor model),它从诞生到今天产生了很多著名的模型和方法,其中和该技术相关且耳熟能详的名词有pLSA、 LDA、隐含类别模型(latent class model)、隐含主题模型(latent topic model)、矩阵分解( 阅读全文
posted @ 2019-01-02 10:29 Bo_hemian 阅读 (365) 评论 (0) 编辑
摘要:1. 极大似然估计 假设有一枚硬币,我们想确定这枚硬币是否质地均匀。即想知道抛这枚硬币,正反面出现的概率各是多少?于是我们将这枚硬币抛了10次,得到的数据x0是:反正正正正反正正正反。我们想求的正面概率θ是模型参数,而抛硬币模型可以假设服从二项分布。 那么,出现实验结果x0(反正正正正反正正正反)的 阅读全文
posted @ 2018-12-23 14:52 Bo_hemian 阅读 (1032) 评论 (0) 编辑
摘要:对于以下dataframe执行dataframe.groupby(['name', 'course']).apply(lambda x: test(x)) 操作 其中test(x)函数为: 那么打印结果为: 可以发现,groupby()后的第一个结果被打印了两次。 对于这种情况,Pandas官方文档 阅读全文
posted @ 2018-12-20 20:25 Bo_hemian 阅读 (1181) 评论 (0) 编辑
摘要:本系列文章会从最简单的推荐系统到目前主流的推荐系统解决方案做总结。 1. 基于邻域的算法 基于邻域的算法是推荐系统中最基本的算法,在业界得到了广泛应用。基于邻域的算法分为两大类,一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。 1.1 基于用户的协同过滤算法(UserCF) 定义: 在 阅读全文
posted @ 2018-12-17 10:35 Bo_hemian 阅读 (701) 评论 (0) 编辑
摘要:1. 问题描述 在对课程表进行数据抽取时,由于课表结构的原因,需要在原始表字段名作为第一行数据,并对原始字段名进行替换。 原始数据如下所示: 2. 解决办法 经思考,此问题可抽象为:在不影响原始数据的前提下,把字段名作为第一行数据插入原始数据表中,同时更新字段名。 代码如下: 3. 总结 阅读全文
posted @ 2018-12-13 19:29 Bo_hemian 阅读 (715) 评论 (0) 编辑