lily19

2018年5月6日

摘要： GCC 4.4.x or later CMake 2.6 or higher Git GTK+2.x or higher, including headers (libgtk2.0 dev) 控制opencv GUI pkg config Python 2.6 or later and Numpy 阅读全文

posted @ 2018-05-06 20:04 lily19 阅读(594) 评论(0) 推荐(0)

2018年4月25日

hadoop spark ubuntu16

摘要：创建一个新的用户：安装SSH，配置SSH无密码登陆：安装JAVA环境输出路径应当是 /usr/lib/jvm/java 8 openjdk amd64/bin/javac，不知道为什么没有输出，但是可以从本机中查找到。编辑用户的环境变量： JAVA_HOME注意设置在hadoop/etc/ 阅读全文

posted @ 2018-04-25 20:50 lily19 阅读(285) 评论(0) 推荐(0)

/boot空间不足问题

摘要： uname a 查看先在所用的内核 ls /boot 查看boot空间的内容 sudo apt get purge linux image ... generic 删除无用的内核 sudo apt autoremove 自动删除无用的安装包。阅读全文

posted @ 2018-04-25 16:08 lily19 阅读(172) 评论(0) 推荐(0)

2018年4月21日

推荐系统冷启动问题

摘要：冷启动问题：1、用户冷启动；2、物品冷启动；2、系统冷启动。解决问题方法：用户冷启动提供非个性化推荐。 1、利用用户的注册信息，针对用户注册信息获取用户的特征，根据特征粒度选择当前特征范围内最热门的商品进行推荐。一般而言，特征粒度越细，召回率，准确率和覆盖率都会越高。用户注册信息：1、人口统阅读全文

posted @ 2018-04-21 10:52 lily19 阅读(623) 评论(0) 推荐(0)

recommendation system

摘要：基于邻域的方法：协同过滤用户协同过滤物品协同过滤User-co-filtering and ItemCF：推荐算法的评价标准实现，UserCF和ItemCF的实现隐形语义模型： Latent factor model(LFM) 在LFM当中，分类来自于对用户行为的统计，并且对物品的类采用软分类，阅读全文

posted @ 2018-04-21 10:08 lily19 阅读(220) 评论(0) 推荐(0)

2018年4月7日

缺失值处理（前面两种方法偏向于统计学）

摘要：最常见的插值方法是mean imputation（也叫mean substitution）实际上，这个方法不推荐使用，在大部分情况下，没有其他方法的时候可以采取这个方法。原因：1： mean imputation没有保持变量之间的关系（因为是观察值的均值，如果说缺失数据是随机缺失的，那么这个均值估计阅读全文

posted @ 2018-04-07 12:31 lily19 阅读(6155) 评论(0) 推荐(0)

2018年4月4日

概率密度估计（EM算法，混合朴素贝叶斯模型（朴素贝叶斯模型的无监督学习），因子模型）

摘要：概率密度估计最基本任务是为了估计在给定X下，会产生类似于X的输入的概率。一般的估计方法： 1、柱状图估计： $P(X) = \frac{1}{N}*\frac{N(x)}{V} $ 这里，$ \frac{1}{N}$是归一化参数，$\frac{N(x)}{V} $表示数据的密度，V是超立方体，是设阅读全文

posted @ 2018-04-04 21:47 lily19 阅读(1213) 评论(0) 推荐(0)

2018年3月16日

贝叶斯模型

摘要：贝叶斯模型：在给定数据的情况下，选择最有可能的假设。通过学习在任意类别下(x,y)的分布情况，通过先验概率p(c)（即处于该类的概率）来判断P(c|x,y)。最难的地方：先验概率未知。在通常的判定学习方法当中，类别的先验概率式不需要知道的。但是当先验概率已知的时候，贝叶斯式可行的。并且通常阅读全文

posted @ 2018-03-16 10:20 lily19 阅读(566) 评论(1) 推荐(0)

公告