摘要: 参考博客 https://blog.csdn.net/strivenoend/article/details/79842836 注意:把 git remote add origin git@github.com:wangjiax9/beautifulDay.git 换成 git clone git@ 阅读全文
posted @ 2019-07-12 10:31 AI_Engineer 阅读(148) 评论(0) 推荐(0)
摘要: 余弦相似度和欧式距离的区别 1. 计算公式 余弦相似度: \[\cos \left( {A,B} \right) = \frac{{A \cdot B}}{{{{\left\| A \right\|}_2}{{\left\| B \right\|}_2}}} = \frac{{\sum\limits 阅读全文
posted @ 2019-07-11 17:12 AI_Engineer 阅读(2168) 评论(0) 推荐(0)
摘要: TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语 阅读全文
posted @ 2019-07-11 11:55 AI_Engineer 阅读(280) 评论(0) 推荐(0)
摘要: 1. 有一万盏灯,是灭的,有一万个人,都按照1~10000编号,每个人上去按灯,会按自己倍数的灯,比如2会按2,4,6 等等,3会按3,6,9 等。问最终哪些是亮着的。 完全平法方数的灯是亮着的。 参考博客 https://blog.csdn.net/ELI_CJ/article/details/5 阅读全文
posted @ 2019-07-10 16:25 AI_Engineer 阅读(354) 评论(0) 推荐(0)
摘要: 设X,Y是两个相互独立的随机变量,它们的分布函数分别是Fx(x)和Fy(y),现在求M=max{X,Y}和N=min{X,Y}的分布函数。 Fmax(z) = P{M<=z} = P{X<=z, Y<=z} = P{X<=z}P{Y<=z} 即:Fmax(z) = Fx(z)Fy(z) Fmin(z 阅读全文
posted @ 2019-07-09 11:12 AI_Engineer 阅读(15415) 评论(0) 推荐(2)
摘要: 问题:kmeans如何多机并行? 把样本点均分到多太机器上,向每台机器上传入当前计算的到的k个中心点,在每台机器上计算出每个样本的类别,都传到另外一台机器上重新计算k个中心点。 参考博客 https://www.cnblogs.com/pinard/p/6164214.html 阅读全文
posted @ 2019-07-07 17:21 AI_Engineer 阅读(204) 评论(0) 推荐(0)
摘要: 算法思想 初始想法 推荐系统中面对的特征往往是海量稀疏特征,如何挖掘出这些海量特征里隐含的组合特征对于改善推荐系统的效果来说非常重要。普通的线性模型时优化时是一个个特征考虑的,没有显示的考虑到组合特征。FM通过对于每一维特征的隐变量内积来提取特征组合。最终的结果也非常好。但是,虽然理论上来讲FM可以 阅读全文
posted @ 2019-07-04 20:29 AI_Engineer 阅读(345) 评论(0) 推荐(0)
摘要: 堆排序 10亿个数中取前1000大的数 维护一个1000个节点的小顶堆。 时间复杂度O(nlogk) 合并k个有序(假设升序)数组 具体步骤:(1)将k个数组的第一个元素取出来,维护一个小顶堆。 (2)弹出堆顶元素存入结果数组中,并把该元素所在数组的下一个元素取出来压入队中。 (3)调整堆的结构,使 阅读全文
posted @ 2019-07-03 23:37 AI_Engineer 阅读(15933) 评论(0) 推荐(0)
摘要: 算法思想 GBDT也是Boosting家族的一员,也采用了前向分布加法模型,但是GBDT和AdaBoost还是存在很大的区别的: 1.AdaBoost没有对弱分类器的种类做限定,GBDT的弱分类器只能是CART回归树。 2.Adaboost是根据本轮弱分类器的分类误差率来改变训练样本在下轮训练时的权 阅读全文
posted @ 2019-07-03 17:12 AI_Engineer 阅读(665) 评论(0) 推荐(0)
摘要: 数据结构和算法 https://www.cnblogs.com/skywang12345/p/3603935.html https://www.cnblogs.com/linxiyue/p/3849239.html 机器学习 https://www.cnblogs.com/pinard/p/6140 阅读全文
posted @ 2019-07-03 09:48 AI_Engineer 阅读(251) 评论(0) 推荐(0)