随笔分类 -  Python

不平衡分类学习方法 --Imbalaced_learn
摘要:最近在进行一个产品推荐课题时,由于产品的特性导致正负样本严重失衡,远远大于3:1的比例(个人认为3:1是建模时正负样本的一个临界点),这样的样本不适合直接用来建模,例如正负样本的比例达到了50:1,就算算法全部预测为另一样本,准确率也会达到51/50=98%.具有很大的局限性. 处理不平衡样本的方法 阅读全文

posted @ 2018-05-21 19:30 波比12 阅读(3265) 评论(0) 推荐(0)

sklearn中的metrics模块中的Classification metrics
摘要:metrics是sklearn用来做模型评估的重要模块,提供了各种评估度量,现在自己整理如下: 一.通用的用法:Common cases: predefined values 1.1 sklearn官网上给出的指标如下图所示: 1.2除了上图中的度量指标以外,你还可以自定义一些度量指标:通过skle 阅读全文

posted @ 2018-04-17 19:29 波比12 阅读(4833) 评论(0) 推荐(0)

sklearn中的model_selection模块(1)
摘要:sklearn作为Python的强大机器学习包,model_selection模块是其重要的一个模块: 1.model_selection.cross_validation: (1)分数,和交叉验证分数 众所周知,每一个模型会得出一个score方法用于裁决模型在新的数据上拟合的质量。其值越大越好。 阅读全文

posted @ 2018-04-10 21:19 波比12 阅读(2827) 评论(0) 推荐(0)

Keras学习笔记1--基本入门
摘要:""" 1、30s上手keras """ #keras的核心数据结构是“模型”,模型是一种组织网络层的方式,keras 的主要模型是Sequential模型,Sequential是一系列网络层按顺序构成的栈 from keras.models import Sequential model=Sequential() ###将一些网络层通过.add()叠加起来,就构成了一个模型 from kera... 阅读全文

posted @ 2017-11-20 13:48 波比12 阅读(1493) 评论(0) 推荐(0)

python 文字转语音包pyttsx安装出错解决方法
摘要:pyttsx的python的文字转语音的包,但是pyttsx的官方网站上资源只更新2012年,所以在py3中使用pip install pyttsx或者下载安装包进行安装时,虽然可以安装成功,但是import时候会出问题。 会显示导入出错。 解决方法: 阅读全文

posted @ 2017-09-05 16:11 波比12 阅读(1211) 评论(0) 推荐(0)

selenium.common.exceptions.ElementNotVisibleException: Message: element not visible处理方法:selenium针对下拉菜单事件的处理
摘要:使用Selenium爬虫时,可能会遇到一些下拉菜单,动态加载,如果直接使用find_element_by_函数会报错,显示selenium.common.exceptions.ElementNotVisibleException: Message: element not visible。 意思是e 阅读全文

posted @ 2017-08-31 19:35 波比12 阅读(5618) 评论(0) 推荐(0)

WebDriver中如何处理Iframe 及 嵌套Iframe
摘要:最近在用webdriver进行爬虫的时候,遇到了网站存在iframe的情况,处理了好久没有解决,后来发现原来webdriver自带处理方法,汗颜。。 1、iFrame有ID 或者 name的情况 //进入id="frame1"的frame中,定位id="div1"的div和id="input1"的输 阅读全文

posted @ 2017-08-31 08:58 波比12 阅读(1304) 评论(0) 推荐(0)

urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
摘要:对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务。 1、urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的。安装方式:pip install beautifulsoup4 其官方文档中文版地址:https:/ 阅读全文

posted @ 2017-01-06 15:54 波比12 阅读(1483) 评论(0) 推荐(0)

Python爬虫库Scrapy入门1--爬取当当网商品数据
摘要:1.关于scrapy库的介绍,可以查看其官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/ 2.安装:pip install scrapy 注意这个库的运行需要pywin32的支持,因此还需要安装pywin32。可以在这个网站上选择合适的版本下载安 阅读全文

posted @ 2016-12-13 22:21 波比12 阅读(3019) 评论(1) 推荐(1)

Sklearn库例子——决策树分类
摘要:Sklearn上关于决策树算法使用的介绍:http://scikit-learn.org/stable/modules/tree.html 1、关于决策树:决策树是一个非参数的监督式学习方法,主要用于分类和回归。算法的目标是通过推断数据特征,学习决策规则从而创建一个预测目标变量的模型。如下如所示,决 阅读全文

posted @ 2016-12-08 12:55 波比12 阅读(7249) 评论(0) 推荐(0)

【转载】Python 描述符简介
摘要:来源:Alex Starostin 链接:www.ibm.com/developerworks/cn/opensource/os-pythondescriptors/ 关于Python@修饰符的文章可以看:https://my.oschina.net/shyl/blog/626490、 简介 Pyt 阅读全文

posted @ 2016-12-07 10:15 波比12 阅读(453) 评论(0) 推荐(0)

单因素特征选择--Univariate Feature Selection
摘要:An example showing univariate feature selection. Noisy (non informative) features are added to the iris data and univariate feature selection(单因素特征选择) 阅读全文

posted @ 2016-11-24 16:57 波比12 阅读(1463) 评论(0) 推荐(1)

【转】Python 中map、reduce、filter函数
摘要:转自:http://www.blogjava.net/vagasnail/articles/301140.html?opt=admin 介绍下Python 中 map,reduce,和filter 内置函数的方法: 一:map 说明: 对sequence中的item依次执行function(item 阅读全文

posted @ 2016-11-07 16:21 波比12 阅读(344) 评论(0) 推荐(0)

Vmvare下Ubuntu安装Python3.4
摘要:Ubuntu14.4下默认安装的Python版本是2.7.随着Python3.4的使用,现在大部分Python开发者都喜欢使用Py3.4。那么Ubuntu下应该怎么安装Python3.4呢? (1)、下载Python3.4; (2)。由于Ubuntu默认安装的是Python2.7,所以此时你运行Py 阅读全文

posted @ 2016-11-05 15:14 波比12 阅读(401) 评论(0) 推荐(0)

自然语言处理3.8——分割
摘要:分词是分割的一个更普遍的问题实例,这一节,我们要学习一下分割技术。 1、断句 在词级水平处理文本时候通常假定能够将文本划分成单个句子。 一些语料库提高了句子级别的访问。例如,我们可以计算布朗预料库中每个句子的平均词数。 在其他情况下,文本可能只是一个字符流。在将文本分词之前,需要将它分割成句子。NL 阅读全文

posted @ 2016-10-25 14:35 波比12 阅读(2254) 评论(0) 推荐(0)

自然语言处理3.7——用正则表达式为文本分词
摘要:1、分词的简单方法: 在空格字符处分割文本是文本分词最简单的方法。考虑一下摘自《爱丽丝梦游仙境》中的文本。 可以使用raw.split()在空格符处分割原始文本。使用正则表达式能做同样的事情,匹配字符串中的所有空白符是远远不够的,因为这会导致结果中包含'\n'换行符。需要同时匹配任何数量的空格符、制 阅读全文

posted @ 2016-10-21 19:42 波比12 阅读(4985) 评论(0) 推荐(1)

自然语言处理3.6——规范化文本
摘要:在前面的例子中,在处理文本词汇前经常要将文本转化成小写,即(w.lower() for w in words).通过lower()将文本规范化为小写,这样一来,"The"和"the"的区别被忽略了。 我们常常进行更多的尝试,例如去掉文本中的所有词缀已经提取词干的任务等。下一步是确保结果形式是字典中确 阅读全文

posted @ 2016-10-21 19:03 波比12 阅读(1550) 评论(0) 推荐(0)

Python os模块
摘要:一、os模块概述 Python os模块包含普遍的操作系统功能。如果你希望你的程序能够与平台无关的话,这个模块是尤为重要的。(一语中的) 二、常用方法 1、os.name 输出字符串指示正在使用的平台。如果是window 则用'nt'表示,对于Linux/Unix用户,它是'posix'。 2、os 阅读全文

posted @ 2016-10-18 18:52 波比12 阅读(281) 评论(0) 推荐(0)

自然语言处理3.5——正则表达式的有益应用
摘要:1、提出字符串 通过re.findall()方法找出所有(无重叠)匹配指定正则表达式的字符串。例如找出一个词的所有元音字符,并计数 在例如找出文本中两个或者两个以上的原因序列,并确定它们的相对频率 2、在字符串上做更多的事情 英文文本是高度冗余的,忽略掉词内部的元音仍然可以轻松的阅读,有些时候这很明 阅读全文

posted @ 2016-10-13 22:24 波比12 阅读(1434) 评论(0) 推荐(0)

自然语言处理3.4——使用正则表达式检测词组搭配
摘要:许多语言处理任务都涉及模式匹配。以前我们使用‘stsrtswith(str)’或者‘endswith(str)’来寻找特定的单词。但是下面引入正则表达式,正则表达式是一个强大的模块,他不属于哪一种特定的语言,是一个强大的语言处理工具。 在Python中使用正则表达式需要使用import re来导入r 阅读全文

posted @ 2016-10-12 22:02 波比12 阅读(3975) 评论(0) 推荐(0)

导航