2014年3月2日

Logistic回归

摘要: 题记:今天本来心情不好,不打算写博客的,但是考虑到我这仅有的不知名的读者,忍住内心满满的不舒服还是写一篇吧,哪怕一篇也好。总有些伤是硬伤,我们除了去舔舐它的伤口之外,貌似再也找不到其他对待它的方法了!算法概述:Logistic回归也可以被看成是一种概率估计。因为我们在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和带入到Sigmoid函数中得到分类结果。那么,这个Sigmoid函数又是怎么样的呢?σ(z)=1/(1+e-z)当x=0时,其值为0.5,随着x的增大对应的Sigmoid值将逼近1,随着x的减小对应的Sigmoid的值越接近0,进而得到0~1之间的数值,任何大于0.5 阅读全文

posted @ 2014-03-02 21:50 我是咖啡豆哈 阅读(745) 评论(0) 推荐(0)

2014年3月1日

朴素贝叶斯

摘要: 算法概述:朴素贝叶斯的两个假设:特征之间相互独立;特征同等重要。假设有类别1,2,3,...n,待分类数据d,则d属于分类1,2,3...的概率为p1,p2,p3...,那么最高概率对应的类别即为待分类数据所对应的类别,即选择具有最高概率的决策!p(ci|x,y)=p(x,y|ci)p(ci) / p(x,y),如果p(c1|x,y)>p(c2|x,y),则(x,y)属于类别c1,反之属于类别c2。4.1准备数据构建词向量loadDataSet(): postingList=[['my', 'dog', 'has', 'flea&# 阅读全文

posted @ 2014-03-01 20:00 我是咖啡豆哈 阅读(547) 评论(0) 推荐(0)

IPython的安装配置

摘要: 所有的软件下载都可以在http://www.lfd.uci.edu/~gohlke/pythonlibs/这里找到,就不要去官网什么地方了,倒不是担心你英文水平不够读不懂那些balabala,而是担心你找不到合适的版本,上边这个网址不仅种类多而且版本齐全,赞一个!这里是window环境下的!首先安装setuptools,因为不提前安装的话,在安装ipython的过程中也会提示你缺少setuptools模块的;其实也随意啦,爱什么时候装就什么时候装;然后下载ipthon解压之后在命令行模式下输入命令python setupegg.py install进行安装。这时会提示你缺少pyreadline 阅读全文

posted @ 2014-03-01 16:20 我是咖啡豆哈 阅读(824) 评论(0) 推荐(0)

2014年2月28日

Python之列表、元组

摘要: 首先说一下python的计数方式,从第一个元素开始依次为0、1、2...,从最后一个元素往前依次是-1,-2,-3....很有趣是吧!列表和元组的区别是前者可修改,后者不可修改。当用于不可修改的情况下必须元组,其他情况下列表都可以替代元组。通用序列操作:索引:依据编号访问分片(是不是显得比C高大上呀,嘿嘿):通过冒号相隔的两个索引实现,第一个索引包含在分片内,第二个不包含在分片内,另外分片最左边的索引比它最右边的索引早出现在序列中。 可以设置步长,步长为负表示从右往左提取元素。 >>> a[0:6:2] [1, 3, 5] >>> a[5:0:-2] ... 阅读全文

posted @ 2014-02-28 21:46 我是咖啡豆哈 阅读(195) 评论(0) 推荐(0)

Python之字符串

摘要: 在一般情况下,'' '和' '都可以表示字符串,但是当字符串里包含 ' 时再用’ ’会报错,这时需用" ",当然也可以用转义字符\进行转义(转义字符是万能哒)。str(string),把值转化为合理形式的字符串;repr(string)和` `(string)将字符串转化为合法的python表达式raw_input()会把所有输入当做原始数据,而input则会假设用户输入的是合法的python表达式,所以应尽可能使用rwa_input函数书写长字符串需要跨行时可用"""原始字符以r开头,可以在原始 阅读全文

posted @ 2014-02-28 21:04 我是咖啡豆哈 阅读(174) 评论(0) 推荐(0)

决策树

摘要: 算法概述:将原始数据集根据决定性特征划分为几个数据子集,这些数据子集会分布在第一个决策点的所有分支上,如果某个分支下的数据属于同一类型,则表示到达终止模块,可以得到结论,无需进一步对数据集进行分割;如果子集内的数据不属于同一类型,则需重复划分数据子集,直到所有具有相同类型的数据均在一个数据子集内。但是应该怎样划分数据呢,显然是根据决定性特征,这里引进一个度量标准--信息增益(划分数据集之前之后信息发生的变化),我们可以计算每个特征值划分划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。3.1.1计算熵熵定义为信息的期望。如果待分类的事务可能划分在多个分类之中,则符号xi的信息定义 阅读全文

posted @ 2014-02-28 15:38 我是咖啡豆哈 阅读(1953) 评论(0) 推荐(0)

2014年2月27日

k-近邻算法

摘要: 算法思想:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的分类标签。最后选择k个最相似数据中出现次数最多的分类,最为新数据的分类。2.1导入数据导入使用的数据,在此只有2个类标签:A和B2.2实施kNN算法sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True),用迭代器以值为基准进行反向排序,返 阅读全文

posted @ 2014-02-27 19:33 我是咖啡豆哈 阅读(240) 评论(0) 推荐(0)

导航