随笔分类 -  Data Mining & ML

上一页 1 2 3 4 下一页

Andrew Ng机器学习公开课笔记 -- Logistic Regression
摘要:网易公开课,第3,4课 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 前面讨论了线性回归问题, 符合高斯分布,使用最小二乘来作为损失函数 下面继续讨论分类问题,分类问题和回归问题不同在于Y的取值是离散的 我们先讨论最简单的binary classification,即Y的取值只有0和1 分类问题一般不会使... 阅读全文

posted @ 2014-03-28 18:38 fxjwind 阅读(3156) 评论(1) 推荐(3)

Andrew Ng机器学习公开课笔记 -- 线性回归和梯度下降
摘要:网易公开课,监督学习应用.梯度下降 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 线性回归(Linear Regression) 先看个例子,比如,想用面积和卧室个数来预测房屋的价格 训练集如下 首先,我们假设为线性模型,那么hypotheses定义为 , 其中x1,x2表示面积和#... 阅读全文

posted @ 2014-03-26 17:40 fxjwind 阅读(8854) 评论(4) 推荐(6)

统计学习方法笔记 -- 决策树
摘要:决策树 什么是决策树? 决策树可以看成一系列if-then的规则,这个很好理解 也可以看成是条件概率分布, X为特征,x1,x2 Y为分类,1,-1 那么对于每个叶节点,相当于对于每个经过的中间结点的条件概率 当x1=a,x2=b的时候为1分类的概率>0.5,则认为是1分类 决策树学习 决策树学习的本质是从训练数据集上归纳出一组分类规则... 阅读全文

posted @ 2014-03-25 15:41 fxjwind 阅读(1852) 评论(0) 推荐(0)

统计学习方法笔记 -- 朴素贝叶斯
摘要:贝叶斯定理(Bayes theorem) 这是关于“逆概”或“后验概率”的定理,之所以需要这个定理是因为后验概率是以“果”来推导“因”,所以往往难以直接统计出。 但是后验概率却非常重要,因为在现实生活中,往往都只能观测到一些表面的“果”,需要去推断“因”。 而bayes定理就给出一种计算后验概率的方法。 以例子来说明,一个班级中n个学生,有男生也有女生 两个featu... 阅读全文

posted @ 2014-03-20 14:24 fxjwind 阅读(916) 评论(0) 推荐(0)

统计学习方法笔记 -- KNN
摘要:K近邻法(K-nearest neighbor,k-NN),这里只讨论基于knn的分类问题,1968年由Cover和Hart提出,属于判别模型 K近邻法不具有显式的学习过程,算法比较简单,每次分类都是根据训练集中k个最近邻,通过多数表决的方式进行预测。所以模型需要保留所有训练集数据,而象感知机这样的模型只需要保存训练后的参数即可,训练集不需要保留 K近邻算法 K近邻法三要素 和... 阅读全文

posted @ 2014-03-18 18:21 fxjwind 阅读(1131) 评论(0) 推荐(0)

统计学习方法笔记 -- 感知机
摘要:感知机(perceptron),听着很牛比,其实就是二类分类的线性分类模型 属于判别模型,1957年由Rosenblatt提出,是神经网络和支持向量机的基础 任何统计机器学习都是三要素,只需要说清楚模型,策略和算法 感知机模型 感知机是一种线性分类模型。 假设空间是定义在特征空间中的线性分类模型或线性分类器,即函数集合 几何解释为, 线性方程,wx... 阅读全文

posted @ 2014-03-18 15:03 fxjwind 阅读(1597) 评论(0) 推荐(0)

统计学习方法笔记 -- 概论
摘要:统计学习方法是基于训练数据构建统计模型,从而对数据进行预测和分析。 统计学习分为,监督学习(supervised learning),非监督学习,半监督学习和强化学习(reinforcement learning),其中以监督学习最为常见和重要,所以这里只讨论监督学习 统计学习的过程如下, 1. 获取训练数据集合 2. 确定假设空间,即所有可能的模型的集合 3. 确定模型选择... 阅读全文

posted @ 2014-03-14 18:25 fxjwind 阅读(2573) 评论(3) 推荐(1)

大数据处理中基于概率的数据结构
摘要:Probabilistic Data Structures for Web Analytics and Data Mining 对于big data经常需要做如下的查询和统计, Cardinality Estimation (基数或势), 集合中不同元素的个数, 比如, 独立访客(Unique Vi 阅读全文

posted @ 2013-08-29 15:21 fxjwind 阅读(10955) 评论(4) 推荐(1)

SentiAnalysis
摘要:“Opinion Lexicon” Based 1. Refer to the “Mining Twitter for Airline Consumer Sentiment”(1) Loading twitter data into R with twitterR package Loading Hu and Liu’s “opinion lexicon”(2), nearly 6,800 ... 阅读全文

posted @ 2012-03-31 16:09 fxjwind 阅读(911) 评论(0) 推荐(0)

Mining the Social Web
摘要:Introduction: Hacking on Twitter Data鉴于个人对于python, Twitter, 甚至NLTK都非常熟悉, 我就直接切入主题.从Twitter数据中, 我们可以关注两个问题,What are people talking about right now?Extracting relationships from the tweets并且作为一个data scientist, 我们还要关注data visulization.What are people talking about right now?对于python的nlp问题, 我们可以借助nltk包来 阅读全文

posted @ 2012-01-31 10:14 fxjwind 阅读(577) 评论(0) 推荐(0)

Mining of Massive Datasets – Link Analysis
摘要:5.1 PageRank5.1.1 Early Search Engines and Term SpamAs people began to use search engines to find their way around the Web, unethical people saw the opportunity to fool search engines into leading people to their page.Techniques for fooling search engines into believing your page is about something 阅读全文

posted @ 2011-09-06 15:49 fxjwind 阅读(645) 评论(0) 推荐(0)

Mining of Massive Datasets – Mining Data Streams
摘要:Most of the algorithms described in this book assume that we are mining a database. That is, all our data is available when and if we want it. In this chapter, we shall make another assumption: data... 阅读全文

posted @ 2011-08-31 14:48 fxjwind 阅读(604) 评论(0) 推荐(0)

Bloom Filter Python
摘要:http://bitworking.org/news/380/bloom-filter-resourcesThe Bloom filter, conceived by Burton H. Bloom in 1970, is a space-efficient probabilistic data structure that is used to test whether an element is a member of a set. False positives are possible, but false negatives are not. Elements can be adde 阅读全文

posted @ 2011-08-30 10:20 fxjwind 阅读(825) 评论(0) 推荐(0)

Mining of Massive Datasets – Data Mining
摘要:1 What is Data Mining? The most commonly accepted definition of “data mining” is the discovery of “models” for data. 1.1 Statistical Modeling Statisticians were the first to use the term “data m... 阅读全文

posted @ 2011-08-29 15:00 fxjwind 阅读(578) 评论(0) 推荐(0)

Mining of Massive Datasets – Finding similar items
摘要:在前面一篇blog中 (http://www.cnblogs.com/fxjwind/archive/2011/07/05/2098642.html), 我记录了相关的海量文档查同问题, 这儿就系统的来记录一下对于大规模数据挖掘技术而言, 怎样finding similar items……1 Applications of Near-Neighbor SearchThe Jaccard similarity of sets S and T is |S ∩ T |/|S ∪ T |, that is, the ratio of the size of the intersection of S 阅读全文

posted @ 2011-08-24 09:44 fxjwind 阅读(763) 评论(0) 推荐(0)

Filtering microblogging messages for Social TV
摘要:论文摘要, Filtering microblogging messages for Social TV, A Bootstrapping Approach to Identifying Relevant Tweets for Social TVSocial TV was named one of the ten most important emerging technologies in 2010 by the MIT Technology Review.Social Television is a general term for technology that supports com 阅读全文

posted @ 2011-08-02 17:30 fxjwind 阅读(343) 评论(0) 推荐(0)

海量文档查同或聚类问题 -- Locality Sensitive Hash 算法
摘要:考虑一下这个场景 , 使用网络爬虫高速爬取大量的网页内容 , 如果想把这些网页进行实时聚类 , 并从中提取每个网页聚类的主题 . 我们应该怎么样去做 对于普通或常见的聚类算法 , 比如 K-means, 或 Hierarchical 聚类 , 无法适用于这个常见 , 对于这些聚类算法无法进行 incremental 聚类 , 即在聚类开始前必须知道整个数据集 , 而这个场景中的数据集是随着爬虫不断增多的 . 而且这些聚类算法的 performance 不够高 , 比如对于 K-means 需要不断的 partition 以达到比较好的聚类效果 . 所以向来聚类算法在我的印象中是低效的 , 而面 阅读全文

posted @ 2011-07-05 20:53 fxjwind 阅读(2257) 评论(0) 推荐(0)

Programming Collecive Intelligence 笔记 Making Recommendations
摘要:现在recommendation是非常普遍的一项技术, 在网上购物Amazon会推荐你可能感兴趣的商品,在电影,音乐网站,会推荐你可能喜欢的音乐或电影。那么这儿就来看看,这些推荐是怎么样实现的Collaborative Filtering 日常生活中,最简单的获取推荐的方法就是问朋友,你可能知道某些朋友的品位比较高,爱好和你比较相像。不过这种方法并不是一直管用,因为朋友知道的毕竟是很有限的, 相信每个人都会有很纠结不知道去哪儿吃饭,或不知道什么商品更值得买的时候。那么这时候就需要一个Collaborative Filtering算法,A collaborative filtering algo 阅读全文

posted @ 2011-07-04 21:02 fxjwind 阅读(265) 评论(0) 推荐(0)

Extracting Information from Text With NLTK
摘要:因为现实中的数据多为‘非结构化数据’,比如一般的txt文档,或是‘半结构化数据’,比如html,对于这样的数据需要采用一些技术才能从中提取 出有用的信息。如果所有数据都是‘结构化数据’,比如Xml或关系数据库,那么就不需要特别去提取了,可以根据元数据去任意取到你想要的信息。那么就来讨论一下用NLTK来实现文本信息提取的方法,first, the raw text of the document is split into sentences using a sentence segmenter, and each sentence is further subdivided into word 阅读全文

posted @ 2011-07-04 20:52 fxjwind 阅读(461) 评论(0) 推荐(0)

Classify Text With NLTK
摘要:Classification is the task of choosing the correct class label for a given input.A classifier is called supervised if it is built based on training corpora containing the correct label for each input.这里就以一个例子来说明怎样用nltk来实现分类器训练和分类一个简单的分类任务,给定一个名字,判断其性别,就是在male,female两类进行分类好,先来训练,训练就要有corpus,就是分好类的名字的 阅读全文

posted @ 2011-07-04 20:48 fxjwind 阅读(712) 评论(0) 推荐(0)

上一页 1 2 3 4 下一页