摘要: 昨晚在知乎上看到一位题主的问题:“读研到底为了什么,读研到底值不值的?” 引起了很广泛的热议。其实这个问题自己也有想过,读研的日子里每天在实验室做实验,忙于发paper,可是这些paper到底能为自己未来的就业带来什么?以前也问过很多找工作或者已经工作的师兄师姐,他们给出的一致答案都是,研究生的... 阅读全文
posted @ 2015-06-21 17:17 Poll的笔记 阅读(18694) 评论(60) 推荐(52) 编辑
摘要: 本文图文并茂地展示如何在Ubuntu 14.04 上一步步地搭建Hadoop平台,适合于Hadoop的初学者阅读。 阅读全文
posted @ 2015-06-21 00:42 Poll的笔记 阅读(6649) 评论(0) 推荐(1) 编辑
摘要: 本文主要详细地介绍了一种灵活高效地机器学习算法——随机森林(Random Forest)。对其理论研究和工业领域中的应用进行了简单的介绍,并且详细地介绍了它的工作机制,最后用Python进行了实现。 阅读全文
posted @ 2015-06-19 11:29 Poll的笔记 阅读(204337) 评论(35) 推荐(187) 编辑
摘要: 本文汇编了一些机器学习领域的框架、库以及软件(按编程语言排序)。 阅读全文
posted @ 2015-06-18 23:17 Poll的笔记 阅读(5858) 评论(8) 推荐(6) 编辑
摘要: 本文介绍了Python的机器学习库scikit-learn模块,包括如何安装scikit-learn,以及如何利用scikit-learn来进行数据挖掘和数据分析。通过几个简单的实例,展示了scikit-learn的用法。 阅读全文
posted @ 2015-06-17 13:51 Poll的笔记 阅读(20267) 评论(10) 推荐(5) 编辑
摘要: 声明:此文转载自博客开发团队的博客,尊重原创工作。该文适合学分布式系统之前,作为背景介绍来读。 谈到分布式系统,就不得不提Google的三驾马车:Google FS[1],MapReduce[2],Bigtable[3]。 虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详... 阅读全文
posted @ 2015-06-11 11:31 Poll的笔记 阅读(15265) 评论(2) 推荐(0) 编辑
摘要: 在Linux系统下用Python写脚本,肯定不能避免各种与目录和文件夹有关的操作。为了以后方便查阅,简单地针对Python中与目录和文件夹有关的操作进行汇总。 需要实现导入的模块为: import os1.得到当前工作目录,即当前Python脚本工作的目录路径: path=os.getcwd... 阅读全文
posted @ 2015-06-10 20:54 Poll的笔记 阅读(1102) 评论(0) 推荐(0) 编辑
摘要: 写在前面: 以前真心没有玩过Linux系统,总感觉整天摆弄Linux的同学都是大牛。如今,在公司里实习需要远程登录Linux服务器,所有的代码都要在开发板上完成,所以被逼无奈也不得不定下心来好好学学Linux系统的各种操作。我现在用的远程登录软件是PuTTY,所以简单总结一下常用的PuTTY指令,... 阅读全文
posted @ 2015-06-08 23:40 Poll的笔记 阅读(3685) 评论(8) 推荐(4) 编辑
摘要: 写在前面:楼主也是刚刚接触这方面的知识,之前完全是零基础,后来经朋友推荐了几个不错的博文,看完以后豁然开朗。但是此博文更加偏重于基础知识介绍(其实更深的楼主也还不了解,这方面的大神请绕道),只是分享个人的一个学习总结。希望那些跟我一样,在实验室闷头搞科研,一出门实习完全一头雾水的同僚们可以借鉴:... 阅读全文
posted @ 2015-06-07 12:09 Poll的笔记 阅读(5030) 评论(12) 推荐(6) 编辑
摘要: 以前在学校做科研都是直接利用网上共享的一些数据,就像我们经常说的dataset、beachmark等等。但是,对于实际的工业需求来说,爬取网络的数据是必须的并且是首要的。最近在国内一家互联网公司实习,我的mentor交给我的第一件事就是去网络上爬取数据,并对爬取的数据进行相关的分析和解析。1.利... 阅读全文
posted @ 2015-06-05 21:57 Poll的笔记 阅读(11812) 评论(5) 推荐(10) 编辑
摘要: 声明:以下内容转载自平行宇宙。 Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶... 阅读全文
posted @ 2015-06-04 20:21 Poll的笔记 阅读(4292) 评论(1) 推荐(1) 编辑
摘要: Python是一种面向对象的解释性的计算机程序设计语言,也是一种功能强大且完善的通用型语言,已经有十多年的发展历史,成熟且稳定。Python 具有脚本语言中最丰富和强大的类库,足以支持绝大多数日常应用。Python语言有非常简捷、清晰的语法特点,适合完成各种高层任务,可以在所有操作系统中运行。目前,... 阅读全文
posted @ 2015-06-04 20:01 Poll的笔记 阅读(5584) 评论(4) 推荐(5) 编辑
摘要: 声明:以下内容根据潘的博客和crackcell's dustbin进行整理,尊重原著,向两位作者致谢!1 现有的排序模型 排序(Ranking)一直是信息检索的核心研究问题,有大量的成熟的方法,主要可以分为以下两类:相关度排序模型和重要性排序模型。1.1 相关度排序模型(Relevance Ran... 阅读全文
posted @ 2015-06-04 19:54 Poll的笔记 阅读(6078) 评论(0) 推荐(1) 编辑