摘要: 基于概率的分类方法:朴素贝叶斯贝叶斯决策理论朴素贝叶斯是贝叶斯决策理论的一部分,所以在讲解朴素贝叶斯之前我们先快速简单了解一下贝叶斯决策理论知识。贝叶斯决策理论的核心思想:选择具有最高概率的决策。比如我们毕业选择就业方向,选择C++方向的概率为0.3,选择Java的概率为0.2,选择机器学习的概率为... 阅读全文
posted @ 2015-06-16 14:55 天才白痴梦 阅读(2509) 评论(0) 推荐(1) 编辑
摘要: Python语言实现机器学习的K-近邻算法写在前面额、、、最近开始学习机器学习嘛,网上找到一本关于机器学习的书籍,名字叫做《机器学习实战》。很巧的是,这本书里的算法是用Python语言实现的,刚好之前我学过一些Python基础知识,所以这本书对于我来说,无疑是雪中送炭啊。接下来,我还是给大家讲讲实际... 阅读全文
posted @ 2015-06-10 22:21 天才白痴梦 阅读(13026) 评论(5) 推荐(1) 编辑
摘要: 检索模型与搜索排序前言搜索结果排序是搜索引擎最核心的构成部分,很大程度上决定了搜索引擎的质量好坏以及用户接受与否。尽管搜索引擎在实际结果排序时融合了上百种排序因子,但最重要的两个因素还是用户查询和网页的内容相关性及网页链接情况。那么,我们得到用户搜索词之后,如何从内容相关性的角度上对网页进行排序输出... 阅读全文
posted @ 2015-06-10 00:25 天才白痴梦 阅读(2595) 评论(1) 推荐(0) 编辑
摘要: 决策树学习从今天开始,坚持每天学习一个机器学习的新知识,加油!决策树学习是应用最广的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一颗决策树。决策树表示法决策树通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每一个结点指定了对实例... 阅读全文
posted @ 2015-06-08 18:53 天才白痴梦 阅读(1757) 评论(2) 推荐(1) 编辑
摘要: 机器学习中的监督学习和无监督学习说在前面最近的我一直在寻找实习机会,很多公司给了我第一次电话面试的机会,就没有下文了。不管是HR姐姐还是第一轮的电话面试,公司员工的态度和耐心都很值得点赞,我也非常感激他们。但是我都没有进入下一轮面试的机会,一路想想我的简历和学习经历,确实也挺难有进入第二轮面试的机会... 阅读全文
posted @ 2015-06-07 12:58 天才白痴梦 阅读(6489) 评论(1) 推荐(3) 编辑
摘要: 转载地址 : 通过身边小事解释机器学习是什么一个给不知道机器学习是什么东西的人讲的一个挺不错的例子,方法。今天从quora上看了一个问题:如何给不是CS的学生,给不知道机器学习和数据挖掘的学生,讲明白什么是机器学习和数据挖掘。其中有个答案很不错,拿买芒果的例子来给大家解释。老师们也应该多用用类似的... 阅读全文
posted @ 2015-06-07 10:09 天才白痴梦 阅读(561) 评论(0) 推荐(0) 编辑
摘要: 倒排列表压缩算法目前有很多种倒排列表算法可以选择,但是我们对评判算法的优劣需要定量指标。一般会考虑3个指标:压缩率、压缩速度以及解压速度。压缩率是指数据压缩前和压缩后大小的比例,显然,压缩率越高,就越节约磁盘空间。而压缩速度是压缩单位量的数据所花的时间,但是压缩往往是在建立索引过程中进行的,这是一个... 阅读全文
posted @ 2015-06-06 21:28 天才白痴梦 阅读(1798) 评论(0) 推荐(0) 编辑
摘要: 索引的查询处理为搜索引擎构建索引,其目的是能更快速地提取与用户查询相关的文档信息,假设搜索引擎已经建立了索引,我们如何利用倒排索引来相应用户的查询呢?这一次的总结就是给大家分享一下搜索引擎对于用户查询的处理过程。目前有两种常见的查询处理机制,一种称为一次一文档方式,另外一种称为一次一单词方式。下面我... 阅读全文
posted @ 2015-06-03 19:33 天才白痴梦 阅读(1145) 评论(0) 推荐(0) 编辑
摘要: 索引的建立和更新索引的建立前一总结里说到,如果索引结构建立好了,可以提高搜索的速度,那么给定一个文档集合,索引是如何建立起来的呢?建立索引的方式有很多种,在这里我就书中提到的三种方法简单总结一下。两遍文档遍历法第一次文档遍历第一次扫描文档集合时,并没有立即开始建立索引,而是收集一些的统计信息,比如文... 阅读全文
posted @ 2015-06-03 12:29 天才白痴梦 阅读(1187) 评论(0) 推荐(4) 编辑
摘要: Servlet开发用户在浏览器中输入一个网址并回车,浏览器会向服务器发送一个HTTP请求。服务器端程序接受这个请求,并对请求进行处理,然后发送一个回应。浏览器收到回应,再把回应的内容显示出来。这种请求—响应模式就是典型的Web应用程序访问过程。JavaWeb应用程序中所有的请求—响应都是由Servl... 阅读全文
posted @ 2015-06-03 00:24 天才白痴梦 阅读(1459) 评论(1) 推荐(0) 编辑
摘要: 《算法帝国》--读书笔记大约一个半月前在网上很偶然的机会看到了一则广告,就是对《算法帝国》一书的推销,作为现在大三的我,虽然已经不再参加ACM/ICPC竞赛,但是在看到书名的时候,还是被算法这两个字深深的吸引住了,以为这是一本算法竞赛方面的书籍,于是赶紧去京东购买此书。当我看到此书封面的时候,也就是... 阅读全文
posted @ 2015-06-01 00:53 天才白痴梦 阅读(4384) 评论(2) 推荐(0) 编辑
摘要: 搜索引擎索引基础前几天我阅读了搜索引擎索引这一章,发现倒排索引这一方法确实很巧妙和迷人,它包含的原理和设计方法很独到。所以接下来,我想把我学习到的索引方面的知识给大家讲解一下,总共分为三篇:索引基础、索引建立和更新、索引查询。我们首先认识倒排索引基本概念文档:一般搜索引擎的处理对象是互联网网页,而文... 阅读全文
posted @ 2015-05-31 14:04 天才白痴梦 阅读(1000) 评论(1) 推荐(0) 编辑
摘要: 前言考虑到上次的网络爬虫总结一文对基础的知识还没有介绍完整,所以今天花一点时间来补充上次的网络爬虫基础知识。这次给大家总结了两个方面的内容:暗网抓取和分布式爬虫。希望对阅读本文的博友们有所收获。暗网抓取物理学研究表明,在目前宇宙所有物质的总体质量中,星系等可见物质占其中的20%,不可探测的暗物质占据... 阅读全文
posted @ 2015-05-29 18:12 天才白痴梦 阅读(1009) 评论(0) 推荐(0) 编辑
摘要: 函数式编程最近对Python的学习有些怠慢,最近的学习态度和学习效率确实很不好,目前这种病况正在好转。今天,我把之前学过的Python中函数式编程简单总结一下,分享给大家,也欢迎并感谢大家提出意见。首先,我们学习函数式编程时,需要知道一个概念:高阶函数。那么到底什么是高阶函数呢?把函数作为参数传入,... 阅读全文
posted @ 2015-05-28 23:54 天才白痴梦 阅读(1997) 评论(0) 推荐(3) 编辑
摘要: 网络爬虫基础前言通用搜索引擎的处理对象就是互联网网页,目前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。网络爬虫即起此作用,它是搜索引擎系统中很关键也很基础的构建。本次总结以及接下来的几次总结主要给大... 阅读全文
posted @ 2015-05-28 17:15 天才白痴梦 阅读(1158) 评论(4) 推荐(0) 编辑