会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
理想几岁
博客园
新随笔
联系
管理
上一页
1
···
5
6
7
8
9
10
11
12
13
···
16
下一页
2018年7月19日
自然语言处理--Word2vec(一)
摘要: 一、自然语言处理与深度学习 自然语言处理应用 深度学习模型 为什么需要用深度学习来处理呢 二、语言模型 1、语言模型实例: 机器翻译 拼写纠错 智能问答 1)机器翻译,比如要翻译高价,可能 P(high price) > P(large price),然后得到的结果就是high price 2)拼写
阅读全文
posted @ 2018-07-19 13:28 理想几岁
阅读(571)
评论(0)
推荐(0)
2018年7月18日
自然语言处理--TF-IDF(关键词提取)
摘要: TF-IDF算法 TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇
阅读全文
posted @ 2018-07-18 18:33 理想几岁
阅读(892)
评论(0)
推荐(0)
机器学习-贝叶斯算法
摘要: 0. 前言 这是一篇关于贝叶斯方法的科普文,我会尽量少用公式,多用平白的语言叙述,多举实际例子。更严格的公式和计算我会在相应的地方注明参考资料。贝叶斯方法被证明是非常 general 且强大的推理框架,文中你会看到很多有趣的应用。 1. 历史 托马斯·贝叶斯(Thomas Bayes)同学的详细生平
阅读全文
posted @ 2018-07-18 17:47 理想几岁
阅读(6606)
评论(0)
推荐(1)
如何写一个拼写检查器-by Peter Norvig
摘要: 本文原著:Peter Norvig 中文翻译:徐宥 上个星期, 我的两个朋友 Dean 和 Bill 分别告诉我说他们对 Google 的快速高质量的拼写检查工具感到惊奇. 比如说在搜索的时候键入 [speling], 在不到 0.1 秒的时间内, Google 会返回: 你要找的是不是 [spel
阅读全文
posted @ 2018-07-18 16:24 理想几岁
阅读(1233)
评论(0)
推荐(0)
2018年7月17日
机器学习--boosting家族之XGBoost算法
摘要: 一、概念 XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升,经常被用在一些比赛中,其效果显著。它是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包。XGBoost 所应用的算法就是 GBDT(gradient boo
阅读全文
posted @ 2018-07-17 17:51 理想几岁
阅读(102436)
评论(8)
推荐(8)
2018年7月15日
机器学习--boosting家族之GBDT
摘要: 本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT
阅读全文
posted @ 2018-07-15 18:29 理想几岁
阅读(2388)
评论(0)
推荐(0)
机器学习--boosting家族之Adaboost算法
摘要: 最近在系统研究集成学习,到Adaboost算法这块,一直不能理解,直到看到一篇博文,才有种豁然开朗的感觉,真的讲得特别好,原文地址是(http://blog.csdn.net/guyuealian/article/details/70995333),在此摘录,方便查找与复习。 一、AdaBoost简
阅读全文
posted @ 2018-07-15 16:31 理想几岁
阅读(1692)
评论(0)
推荐(0)
2018年7月14日
机器学习中的范数规则化之L0、L1与L2范数
摘要: 今天看到一篇讲机器学习范数规则化的文章,讲得特别好,记录学习一下。原博客地址(http://blog.csdn.net/zouxy09)。 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇
阅读全文
posted @ 2018-07-14 18:59 理想几岁
阅读(1528)
评论(1)
推荐(1)
2018年7月13日
数据预处理:独热编码(One-Hot Encoding)和 LabelEncoder标签编码
摘要: 一、问题由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 离散特征的编码分为两种情况: 1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射
阅读全文
posted @ 2018-07-13 16:20 理想几岁
阅读(107739)
评论(3)
推荐(12)
机器学习--随机森林
摘要: 一、随机森林的定义 在集成学习中,我们知道bagging + 决策树就构成了随机森林。经典的机器学习模型是神经网络,神经网络预测精确,但是计算量很大。 随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Lear
阅读全文
posted @ 2018-07-13 15:27 理想几岁
阅读(3026)
评论(0)
推荐(0)
上一页
1
···
5
6
7
8
9
10
11
12
13
···
16
下一页