摘要: 使用Linux的人不管是开发人员、还是运维人员都不可避免的需要使用到终端模拟器(比如,gnome-terminal)去执行一些命令或者脚本。 tmux可以将终端模拟器方便的切分为不同的小窗口如下图如示 tmux的官方介绍是 tmux is a terminal multiplexer. It let 阅读全文
posted @ 2018-03-20 16:31 keyleo 阅读(4408) 评论(0) 推荐(0) 编辑
摘要: [https://zhuanlan.zhihu.com/p/30226687] LDA模型的前世今生 在文本挖掘中,有一项重要的工作就是分析和挖掘出文本中隐含的结构信息,而不依赖任何提前标注的信息。LDA(Latent Dirichlet Allocation)模型在过去十年里开启了一个主题模型领域 阅读全文
posted @ 2018-03-14 14:46 keyleo 阅读(1087) 评论(0) 推荐(0) 编辑
摘要: CrawlSpider也继承自Spider,所以具备它的所有特性,这些特性上章已经讲过了,就再在赘述了,这章就讲点它本身所独有的。 参与过网站后台开发的应该会知道,网站的url都是有一定规则的。像django,在view中定义的urls规则就是正则表示的。那么是不是可以根据这个特性来设计爬虫,而不是 阅读全文
posted @ 2016-11-08 11:46 keyleo 阅读(11018) 评论(2) 推荐(0) 编辑
摘要: 前面两章介绍了scrapy的安装和项目的新建,那么这一章就讲讲spider吧。 scrapy有个命令是runspider, 这个命令的作用就是将一个spider当做一个python文件去执行,而不用创建一个完整的项目。可以说是最简单的一个爬虫项目了,只有一个文件,这也体现出了spider对于scra 阅读全文
posted @ 2016-11-01 16:54 keyleo 阅读(9873) 评论(0) 推荐(1) 编辑
摘要: 阅读本文之前需要安装scrapy,如果你还没有安装该框架,那么可以看之前一篇文章scrapy1.2windows安装。 现在默认大家都已经成功的安装了scrapy可以开始大展身手了。本文主要讲的是新建项目,有人说了,网上那么多的新建项目介绍,也就一条命令的事,你也好意思单拉出一章来讲?在这里我讲的是 阅读全文
posted @ 2016-10-28 17:25 keyleo 阅读(21053) 评论(0) 推荐(0) 编辑
摘要: 快速寻找最优解 -基础知识 通过上文, 我们知道了, 如果盲目使用随机算法或者遍历算法寻找最优解的话, 需要计算的空间将会太大. 为了能够让大家直观的感受一下实际应用的计算量, 我这里再举个例子, 1997年5月11日 IBM的深蓝AI战胜卡国际象棋名家斯帕罗夫. 我们知道 围棋的棋盘是19路总共3 阅读全文
posted @ 2016-10-27 10:04 keyleo 阅读(7611) 评论(3) 推荐(2) 编辑
摘要: 前面两篇文章, 我们先是通过三个非常简单的数学例子了解了机器学习的基本流程(训练, 预测). 接着为大家解释了为什么大家早就学会解方程了, 还需要用到机器学习技术. 我们接下来要讲的是机器学习算法怎样为我们在无数个可能的模型中找出最有可能正确的(最优的)那个模型. 首先在上一篇文章中, 有朋友提问 阅读全文
posted @ 2016-10-25 14:12 keyleo 阅读(5234) 评论(0) 推荐(1) 编辑
摘要: Python 爬虫框架 Scrapy Windows 安装教程 阅读全文
posted @ 2016-10-23 16:21 keyleo 阅读(3434) 评论(0) 推荐(0) 编辑
摘要: 在上一篇文章(我眼中的机器学习(一)) 中, 我们通过三个非常简单的数学例子了解了机器学习的基本流程(训练, 预测). 有的同学可能会觉的机器学习好像也没有什么神奇的, 什么一元一次方程, 三元一次方程, 二元二次方程等, 你们老早就会解了, 不但会解这些高中的方程, 而且还会大学才学到的解线性方程 阅读全文
posted @ 2016-10-23 12:47 keyleo 阅读(1197) 评论(0) 推荐(1) 编辑
摘要: 经常有一些学弟在QQ或者邮箱上面问我, 机器学习是什么? 我要怎么学习机器学习? 机器学习要如何入门/上手 等类似的问题. 现在我索性就发个博客出来, 以后你们直接来看这个文章就好了~ 机器学习是一门研究如何从已有的数据样本中发现该数据样本的数学模型, 而后利用该数学模型对未知数据进行预测的学科. 阅读全文
posted @ 2016-10-21 10:32 keyleo 阅读(3274) 评论(0) 推荐(0) 编辑