星影L

[置顶] 用scikit-learn估计值分类——近邻算法（KNN）

摘要：用scikit-learn估计值分类主要是为数据挖掘搭建通用的框架。有了这个框架之后，增加了算法的泛化性，减少了数据挖掘的复杂性。用scikit-learn估计值分类有这三个方面： 1. 估计器（estimator）：用于分类、聚类和回归分析。 2. 转换器（transformer）：用于数据的预阅读全文

posted @ 2017-05-19 09:43 星影L 阅读(1761) 评论(0) 推荐(1)

2017年5月16日

python算法演练——One Rule 算法

摘要：这样某一个特征只有0和1两种取值，数据集有三个类别。当取0的时候，假如类别A有20个这样的个体，类别B有60个这样的个体，类别C有20个这样的个体。所以，这个特征为0时，最有可能的是类别B，但是，还是有40个个体不在B类别中，所以，将这个特征为0分到类别B中的错误率是40%。然后，将所有的特征统计完阅读全文

posted @ 2017-05-16 22:34 星影L 阅读(1247) 评论(0) 推荐(0)

2017年5月13日

数据挖掘——亲和性分析

摘要：亲和性分析根据样本个体之间的相似度，确定它们关系的亲疏。应用场景: 1.向网站用户提供多样化的服务或投放定向广告。 2.为了向用户推荐电影或商品 3.根据基因寻找有亲缘关系的人比如：统计顾客购买了商品1，然后再购买商品2的比率，算相似度。阅读全文

posted @ 2017-05-13 21:30 星影L 阅读(1872) 评论(0) 推荐(0)

2017年5月12日

Scraper_compare（'NoneType' object has no attribute 'group'）

摘要：三种解析网页的方法各有所用，各有特点。通过，对比三种方式更能明白在什么情况之下采用什么方法。其中，运行代码时，可能会遇到一个bug（），这其实是有一个参数没有对，如果删除之后，运行顺利！输出结果是： Regular expressions: 3.82 secondsBeautifulSoup: 阅读全文

posted @ 2017-05-12 10:08 星影L 阅读(764) 评论(0) 推荐(0)

2017年5月10日

Scraper——BeautifulSoup and LXML

摘要：爬虫解析方式除了正则表达式，还有BeautifulSoup包和LXML模块。现在分别来介绍这两种方式。1.BeautifulSoup包功能比正则表达式很多，且要简洁明白一些。但是，由于它是用python编写出来的包，速度会慢一些。 2.LXML模块这此模块中有一个CSS选择器。在使用前，必须先要安阅读全文

posted @ 2017-05-10 10:51 星影L 阅读(838) 评论(0) 推荐(0)

2017年5月7日

Scraping_regex

摘要：上面链接爬虫只是能将我们所需的网页下载下来，但是，我们没办法得到我们想要的数据。因此，我们只有URL管理器和URL下载器是不足以组成一个完整的网络爬虫的。我们还需要URL解析器，对数据进行提取。数据抓取（Scraping）有三种方式：1.正则表达式；2.第三方包——BeautifulSoup；3. 阅读全文

posted @ 2017-05-07 10:09 星影L 阅读(217) 评论(0) 推荐(0)

Linux：sudo，没有找到有效的 sudoers 资源。

摘要：第一次遇到这个问题时，自己误打误撞解决了。但是，当第二次遇到的时候，却不知道怎么办才好了。所以，百度 Google 了一下，加上自己总结知道了解决的办法。首先，这是因为用户的权限不够导致的。使用 ls -l /etc/passwd 查看所有用户及权限。只有可读权限（r）,说明用户的权限不够。因阅读全文

posted @ 2017-05-07 09:46 星影L 阅读(3087) 评论(0) 推荐(2)

2017年5月5日

Crawler——链接爬虫

摘要：对数据的提取和收集也是数据分析中一大重点，所以，学习爬虫是非常有用的。完成数据采集，对后面的数据分析做下基础。今天，要介绍的是来自《Web Scraping With Python》中的一个示例——链接爬虫。对于此类进行了简单的总结，便于相互学习。阅读全文

posted @ 2017-05-05 23:40 星影L 阅读(711) 评论(0) 推荐(0)

2017年5月1日

Python中关于CSV文件中的I/O

摘要：这用pandas包进行数据处理的时候，会遇到一些文件的输出与写入。比如csv文件，是一种比较常见的文件，它以逗号作为分隔符。所以，总结一下运用pandas数据处理包，处理csv文件的输出与写入方式。引用的csv文件如下： ex1.csv ex2.csv ex3.csv ex3.txt ex4.cs 阅读全文

posted @ 2017-05-01 22:10 星影L 阅读(958) 评论(0) 推荐(0)

2017年4月25日

Python数据处理进阶——pandas

摘要：对于python进行数据处理来说，pandas式一个不得不用的包，它比numpy很为强大。通过对《利用python进行数据分析》这本书中介绍pandas包的学习，再加以自己的理解，写下这篇随笔，与一起喜欢数据分析的朋友分享和相互学习。 pandas中的索引高级处理：用pandas包进行简单的统计学阅读全文

posted @ 2017-04-25 15:44 星影L 阅读(2554) 评论(0) 推荐(0)

人生的坎坷，一半是生活挖的坑，一半是自己的棱角刺的洞！

公告