会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
星影L
人生的坎坷,一半是生活挖的坑,一半是自己的棱角刺的洞!
博客园
首页
新随笔
联系
订阅
管理
[置顶]
用scikit-learn估计值分类——近邻算法(KNN)
摘要: 用scikit-learn估计值分类主要是为数据挖掘搭建通用的框架。有了这个框架之后,增加了算法的泛化性,减少了数据挖掘的复杂性。 用scikit-learn估计值分类有这三个方面: 1. 估计器(estimator):用于分类、聚类和回归分析。 2. 转换器(transformer):用于数据的预
阅读全文
posted @ 2017-05-19 09:43 星影L
阅读(1732)
评论(0)
推荐(1)
2017年5月16日
python算法演练——One Rule 算法
摘要: 这样某一个特征只有0和1两种取值,数据集有三个类别。当取0的时候,假如类别A有20个这样的个体,类别B有60个这样的个体,类别C有20个这样的个体。所以,这个特征为0时,最有可能的是类别B,但是,还是有40个个体不在B类别中,所以,将这个特征为0分到类别B中的错误率是40%。然后,将所有的特征统计完
阅读全文
posted @ 2017-05-16 22:34 星影L
阅读(1217)
评论(0)
推荐(0)
2017年5月13日
数据挖掘——亲和性分析
摘要: 亲和性分析根据样本个体之间的相似度,确定它们关系的亲疏。应用场景: 1.向网站用户提供多样化的服务或投放定向广告。 2.为了向用户推荐电影或商品 3.根据基因寻找有亲缘关系的人 比如:统计顾客购买了商品1,然后再购买商品2的比率,算相似度。
阅读全文
posted @ 2017-05-13 21:30 星影L
阅读(1860)
评论(0)
推荐(0)
2017年5月12日
Scraper_compare('NoneType' object has no attribute 'group')
摘要: 三种解析网页的方法各有所用,各有特点。通过,对比三种方式更能明白在什么情况之下采用什么方法。其中,运行代码时,可能会遇到一个bug( ),这其实是有一个参数没有对,如果删除之后,运行顺利! 输出结果是: Regular expressions: 3.82 secondsBeautifulSoup:
阅读全文
posted @ 2017-05-12 10:08 星影L
阅读(746)
评论(0)
推荐(0)
2017年5月10日
Scraper——BeautifulSoup and LXML
摘要: 爬虫解析方式除了正则表达式,还有BeautifulSoup包和LXML模块。现在分别来介绍这两种方式。1.BeautifulSoup包功能比正则表达式很多,且要简洁明白一些。但是,由于它是用python编写出来的包,速度会慢一些。 2.LXML模块 这此模块中有一个CSS选择器。在使用前,必须先要安
阅读全文
posted @ 2017-05-10 10:51 星影L
阅读(818)
评论(0)
推荐(0)
2017年5月7日
Scraping_regex
摘要: 上面链接爬虫只是能将我们所需的网页下载下来,但是,我们没办法得到我们想要的数据。因此,我们只有URL管理器和URL下载器是不足以组成一个完整的网络爬虫的。我们还需要URL解析器,对数据进行提取。 数据抓取(Scraping)有三种方式:1.正则表达式;2.第三方包——BeautifulSoup;3.
阅读全文
posted @ 2017-05-07 10:09 星影L
阅读(203)
评论(0)
推荐(0)
Linux:sudo,没有找到有效的 sudoers 资源。
摘要: 第一次遇到这个问题时,自己误打误撞解决了。但是,当第二次遇到的时候,却不知道怎么办才好了。所以,百度 Google 了一下,加上自己总结知道了解决的办法。 首先,这是因为用户的权限不够导致的。 使用 ls -l /etc/passwd 查看所有用户及权限。只有可读权限(r),说明用户的权限不够。 因
阅读全文
posted @ 2017-05-07 09:46 星影L
阅读(3083)
评论(0)
推荐(2)
2017年5月5日
Crawler——链接爬虫
摘要: 对数据的提取和收集也是数据分析中一大重点,所以,学习爬虫是非常有用的。完成数据采集,对后面的数据分析做下基础。 今天,要介绍的是来自《Web Scraping With Python》中的一个示例——链接爬虫。对于此类进行了简单的总结,便于相互学习。
阅读全文
posted @ 2017-05-05 23:40 星影L
阅读(690)
评论(0)
推荐(0)
2017年5月1日
Python中关于CSV文件中的I/O
摘要: 这用pandas包进行数据处理的时候,会遇到一些文件的输出与写入。比如csv文件,是一种比较常见的文件,它以逗号作为分隔符。所以,总结一下运用pandas数据处理包,处理csv文件的输出与写入方式。 引用的csv文件如下: ex1.csv ex2.csv ex3.csv ex3.txt ex4.cs
阅读全文
posted @ 2017-05-01 22:10 星影L
阅读(946)
评论(0)
推荐(0)
2017年4月25日
Python数据处理进阶——pandas
摘要: 对于python进行数据处理来说,pandas式一个不得不用的包,它比numpy很为强大。通过对《利用python进行数据分析》这本书中介绍pandas包的学习,再加以自己的理解,写下这篇随笔,与一起喜欢数据分析的朋友分享和相互学习。 pandas中的索引高级处理: 用pandas包进行简单的统计学
阅读全文
posted @ 2017-04-25 15:44 星影L
阅读(2533)
评论(0)
推荐(0)
下一页
公告