会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
andreaxgz
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
2017年12月29日
模型评估与选择
摘要: 正则化: 正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如正则化项可以是模型参数向量的范数。 正则化的作用: 选择经验风险与模型复杂度同时较小的模型 交叉验证: 在数据充足的情况下,会直接将数据分为训练集
阅读全文
posted @ 2017-12-29 09:24 andreaxgz
阅读(232)
评论(0)
推荐(0)
2017年11月13日
用于短文本聚类的吉布斯采样狄利克雷多项式混合模型算法(GSDMM)
摘要: GSDMM是一种基于狄利克雷多项式混合模型的收缩型吉布斯采样算法(a collapsed Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model)的简称,它是发表在2014年KDD上的论文《A Dirichlet Mu
阅读全文
posted @ 2017-11-13 19:34 andreaxgz
阅读(3839)
评论(0)
推荐(0)
问题整理
摘要: Q1 监督学习与无监督学习 监督学习:通常是分类,通过已有的训练样本,即已知数据及其对应的输出,去训练一个最优模型。再利用这个模型对所有的数据映射相应的输出。对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。 无监督学习: 我们事先没有任何训练样本,而需要直接对数据进行建模
阅读全文
posted @ 2017-11-13 15:38 andreaxgz
阅读(139)
评论(0)
推荐(0)
2017年11月6日
Total Hamming Distance
摘要: 更简便如下: $\overline r_a + \frac{\sum_{b\in N}\quad sim(a, b)*(r_{b, P}\qquad - \overline r_{\qquad b})}{\sum_{b\in N} \quad sim(a, b)}$
阅读全文
posted @ 2017-11-06 13:53 andreaxgz
阅读(158)
评论(0)
推荐(0)
2017年11月1日
Top K Frequent Elements
摘要: 看到网上有个更简便的
阅读全文
posted @ 2017-11-01 17:47 andreaxgz
阅读(113)
评论(0)
推荐(0)
上一页
1
2
公告