随笔分类 -  机器学习和数据挖掘

摘要:自然语言处理要解决的问题: 其实,自然语言处理的应用非常广泛,如: 垃圾邮件识别 通过自动分析邮件中的文本内容,判断该邮件是否垃圾邮件。 中文输入法 通过识别输入的拼音字符串,识别用户希望输入的汉字。 机器翻译 将文本从一种语言转成另一种语言,如中英文机器翻译。 自动问答、客服机器人 用文本输入一个 阅读全文
posted @ 2017-12-08 13:46 大树2 阅读(3438) 评论(1) 推荐(0)
摘要:说明 环境: 已安装Anaconda3 (64-bit) 4.4.0(Python 3.6.1)。其中,代码调试在Spyder 3.1.4中进行,安装包则直接打开Anaconda Prompt调用cmd.exe后进行。 系统为Windows 7 和 Windows 10。 安装包的坑 安装文件的获取 阅读全文
posted @ 2017-12-07 10:26 大树2 阅读(31397) 评论(1) 推荐(1)
摘要:1. 多值无序类数据的特征提取: 多值无序类问题(One-hot 编码)把“耐克”编码为[0,1,0],其中“1”代表了“耐克”的中 间位置,而且是唯一标识。同理我们可以把“中国”标识为[1,0],把“蓝色”标识为[0,1]。 然后把所有的数据编码拼接起来,[“耐克”,“中国”,“蓝色”]的最终编码 阅读全文
posted @ 2017-12-06 18:04 大树2 阅读(607) 评论(0) 推荐(0)
摘要:HMM(Hidden Markov Model,隐马尔可夫模型) CRF(Conditional Random Field,条件随机场), RNN深度学习算法(Recurrent Neural Networks,循环神经网络)。输入条件连续 LSTM(Long Short Term Memory)则 阅读全文
posted @ 2017-12-05 16:36 大树2 阅读(1936) 评论(0) 推荐(0)
摘要:业务解决方案: 0. 数据源加载 1. 特征工程: 字符转数值/二值型/多值型 把字符型特征转化成算法可以处理的数值表示,实现特征抽象.特征是二值型的, 如sex 这个字段有male 和fem 两种,就把sex 抽象成0 和1。如果特征的数值是多值型, 如status,就按照严重程度从0 到1 再到 阅读全文
posted @ 2017-12-05 15:37 大树2 阅读(363) 评论(0) 推荐(0)
摘要:SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。 F 阅读全文
posted @ 2017-12-04 10:17 大树2 阅读(1519) 评论(0) 推荐(0)
摘要:1.Flask简介 Flask是一个相对于Django而言轻量级的Web框架。 和Django大包大揽不同,Flask建立于一系列的开源软件包之上,这其中 最主要的是WSGI应用开发库Werkzeug和模板引擎Jinja: 策略 :werkzeug和Jinja这两个库和Flask一样,都是pocoo 阅读全文
posted @ 2017-12-01 12:03 大树2 阅读(430) 评论(0) 推荐(0)
摘要:所谓人工智能,通俗地讲是指由人工制造出来的系统所表现出来的智能 机器学习简单来讲就是通过算法,使机器能从大量历史数据中学习规律,从而对新的样本做出智能识别或对未来做预测 机器学习是基于概率统计、矩阵或图模型而得出的分析结论 机器学习是人工智能的一个分支 深度学习是机器学习的一个新领域 监督学习 逻辑 阅读全文
posted @ 2017-11-17 16:47 大树2 阅读(773) 评论(0) 推荐(0)
摘要:1. 机器学习 明白一些基本概念 什么是机器学习研究如何通过计算的手段,利用经验来改善系统自身的性能通俗来讲,让代码学着干活 特征:自变量标签:因变量 学习的种类有监督学习:提供标签,分类、回归无监督学习:无标签,聚类增强学习:也称强化学习,马尔科夫决策过程(Markov Decision Proc 阅读全文
posted @ 2017-11-08 15:08 大树2 阅读(2777) 评论(0) 推荐(0)
摘要:KNN算法的定义: KNN通过测量不同样本的特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻 阅读全文
posted @ 2017-11-06 17:59 大树2 阅读(1602) 评论(0) 推荐(0)
摘要:本文是Sublime Text 全程指引 by Lucida (http://www.cnblogs.com/figure9/p/sublime-text-complete-guide.html)的笔记,并添加了自己整理的一些内容,感谢原作者。 1. 下载 可以从官网 http://www.subl 阅读全文
posted @ 2017-11-06 17:05 大树2 阅读(595) 评论(0) 推荐(0)
摘要:动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题 D3.js入门指南 什么是D3?D3是指数据驱动文档(Data-Driven Documents),根据 阅读全文
posted @ 2017-11-03 11:52 大树2 阅读(599) 评论(0) 推荐(0)
摘要:1. Web基础 网页的骨骼HTML 什么是HTML超文本标记语言:Hyper Text Markup Language 这都不重要,重要的是:HTML是Web网页的基本组成部分HTML中定义的元素,决定了网页的内容和结构 Python:编程语言,编写程序HTML:标记语言,像画画一样,画出网页的内 阅读全文
posted @ 2017-11-02 17:50 大树2 阅读(1719) 评论(0) 推荐(0)
摘要:MAMP和WAMP搭建Web环境,数据库,数据分布可视化 1. 数据库 用MAMP和WAMP搭建Web环境,数据分布可视化 Web环境Web服务器:Apache、Nginx,处理Web请求数据库:MySQL,存储和管理数据后端:PHPWeb服务启动后,就可以在浏览器中访问根目录中的网站项目 MAMP 阅读全文
posted @ 2017-11-02 15:00 大树2 阅读(723) 评论(0) 推荐(0)
摘要:爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,loads,dump,load方法介绍 伪装浏览器、IP限制、登陆、验证码(CAPTCHA) 1.爬虫 Ht 阅读全文
posted @ 2017-11-02 11:33 大树2 阅读(743) 评论(0) 推荐(0)
摘要:Python 基本语法,文件读写,数据结构和类型 1.基本语法 解释型(无需编译)、交互式、面向对象、跨平台、简单好用 中文编码:http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 变量名:可以包括英文、数字以及下划线,但不能以数字 阅读全文
posted @ 2017-11-02 10:54 大树2 阅读(587) 评论(0) 推荐(0)
摘要:数据工程采集、存储、清洗、分析、可视化 编程语言C++和Javapython大法Rweb:php、html、css、javascript 结合采集:python存储:python+数据库/.csv/txt清洗:python分析:python+R/pandas/numpy可视化:R+web/matpl 阅读全文
posted @ 2017-11-02 10:26 大树2 阅读(263) 评论(0) 推荐(0)
摘要:看看下面这些项目,并试着用它们实现一些东西出来:• The Django Tutorial 试着用 Django Web Framework 创建一个 web 应用。• SciPy 如果你对科学,数学,还有工程感兴趣的话。如果你想结合 SciPy 或者别的代码写篇美观的论文,你还可以看看 Dexy。 阅读全文
posted @ 2017-10-31 17:09 大树2 阅读(292) 评论(0) 推荐(0)
摘要:demo: import xml.dom.minidom dom=xml.dom.minidom.parse('sample.xml')root = dom.documentElementcc=dom.getElementsByTagName('movie')c1=cc[0]print(root.n 阅读全文
posted @ 2017-10-24 17:40 大树2 阅读(214) 评论(0) 推荐(0)
摘要:demo: import jsonimport requestsimport xml.etree.ElementTree as et def xmlsjondemo(): data={'statuscode':'200','data':'100','age':'11'} s=json.dumps(d 阅读全文
posted @ 2017-10-24 16:20 大树2 阅读(228) 评论(0) 推荐(0)