06 2017 档案

摘要:本文来自 "百度文档" 还有一篇比较好的 "博文" 1. 粒子滤波理论 粒子滤波通过非参数化的蒙特卡洛(Monte Carlo)模拟方法来实现递推贝叶斯滤波,适用于任何能用状态空间模型描述的非线性系统,精度可以逼近最优估计。 1.1. 贝叶斯滤波 动态系统的目标跟踪问题可以通过下图的状态空间模型来描 阅读全文
posted @ 2017-06-28 22:36 三门曾经 阅读(7094) 评论(2) 推荐(0)
摘要:1. div网页布局 先码上代码部分: 用火狐打开显示结果如下: 2. 实战首页(只是布局部分) 用火狐打开得到页面布局: 注:此处应用了盒模型中margin,有margin top、margin right、margin button、margin left,顺时针方向,依次为上边距、右边距、下边 阅读全文
posted @ 2017-06-24 21:52 三门曾经 阅读(152) 评论(0) 推荐(0)
摘要:1. 字符串连接函数 paste的一般使用格式为: paste(..., sep = " ", collapse = NULL) ...表示一个或多个R可以被转化为字符型的对象;sep表示分隔符,默认为空格;collapse可选,如果不指定值,那么函数paste的返回值是自变量之间通过sep指定的分 阅读全文
posted @ 2017-06-22 20:35 三门曾经 阅读(325) 评论(0) 推荐(0)
摘要:两个基本假设: 1. 齐次马尔科夫假设:隐藏的马尔科夫链在任意时刻的状态只依赖于前一时刻的状态,与其他时刻的状态及观测无关,也与时刻无关。 2. 观测独立性假设:任意时刻的观测只依赖于该时刻的马尔科夫链状态,与其他观测及状态无关。 公式部分总是整不好,就不写了。参考 "相国大人的博客" 跑了一下博客 阅读全文
posted @ 2017-06-17 22:55 三门曾经 阅读(327) 评论(0) 推荐(0)
摘要:机器学习领域的算法评估有三个基本的指标。 1. 召回率(Recall Rate,也叫查全率):是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。 召回率=系统检索到的相关文档数/系统所有相关文档的总数 2. 准确率(Precision,也称为精度):是检索出的相关文档数 阅读全文
posted @ 2017-06-17 15:46 三门曾经 阅读(2329) 评论(0) 推荐(0)
摘要:下面是设计分类器,用训练集训练,用测试集测试。在做这些工作之前,一定要记住,首先要把测试数据也映射到上面这个TF IDF词向量空间中,也就是说,测试集和训练集处在同一个词向量空间(vocabulary相同),只不过测试集有自己的tdm,与训练集(train_word_bag/tfdifspace.d 阅读全文
posted @ 2017-06-15 22:30 三门曾经 阅读(780) 评论(0) 推荐(0)
摘要:下载安装jieba的过程如下: 1 "下载jieba" 2 将其解压到E:\python2,如图所示: 3 在桌面左下角搜索框中输入“运行”,之后输入“cmd”。再按照下面的命令切换到jieba所在的目录。 4 样例代码 5 运行结果 阅读全文
posted @ 2017-06-15 09:16 三门曾经 阅读(2586) 评论(0) 推荐(0)
摘要:一. 文本预处理 文本处理的核心任务是要把非结构化和半结构化的文本转换成结构化的形式,即向量空间模型,在这之前,必须要对不同类型的文本进行预处理,在大多数文本挖掘任务中,文本预处理的步骤都是相似的,基本步骤如下: 1.选择处理的文本范围 2.建立分类文本语料库 2.1训练集语料(已经分好类的文本资源 阅读全文
posted @ 2017-06-15 09:05 三门曾经 阅读(2049) 评论(0) 推荐(0)
摘要:文本挖掘是从非结构化文本信息中获取用户感兴趣的或者有用的模式的过程。也就是从大量文本数据中抽取事先未知的、可理解的、最中可用的知识的过程,同时运用这些知识更好的组织信息以便将来参考。 中文语言的文本分类技术和流程,步骤: 1.预处理(去除噪声、例如html标签、文本格式转化、检测句子边界) 2.中文 阅读全文
posted @ 2017-06-15 08:49 三门曾经 阅读(1948) 评论(0) 推荐(0)
摘要:接下来,目的就是要将训练集所有文本文件(词向量)统一到同一个词向量空间中。在词向量空间中,事实上不同的词,它的权重是不同的,它对文本分类的影响力也不同,为此我们希望得到的词向量空间不是等权重的空间,而是不同权重的词向量空间。我们把带有不同权重的词向量空间叫做“加权词向量空间”,也有的技术文档将其称为 阅读全文
posted @ 2017-06-14 22:32 三门曾经 阅读(2487) 评论(0) 推荐(0)
摘要:对原始数据集进行分词处理,并且通过绑定为Bunch数据类型,实现了数据集的变量表示。 文本分类的结构化方法就是向量空间模型,把文本表示为一个向量,该向量的每个特征表示为文本中出现的词。通常,把训练集中出现的每个不同的字符串都作为一个维度,包括常用词、专有词、词组和其他类型的模式串,如电子邮件地址和U 阅读全文
posted @ 2017-06-14 16:33 三门曾经 阅读(6360) 评论(0) 推荐(0)
摘要:园子终于开张了,开始种草。 使用Markdown写博客的使用方法: 1. 进入博客后台 2. 点击“设置默认浏览器” 3. 选中“Markdown”并保存 4. 回到随笔页面,点击“添加随笔” 5. 在编辑器中输入内容 在这里,我先试试水。主要参考: "李阿昀的简书" 图片 这里直接点击上面的图片, 阅读全文
posted @ 2017-06-13 19:53 三门曾经 阅读(420) 评论(0) 推荐(0)