上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 31 下一页
摘要: pandas的学习总结 作者:csj更新时间:2017.12.31 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结; 回主目录:2017 年学习记录和总结 1.pandas简介2.pandas数据结构 Series DataFrame Index csv文件 阅读全文
posted @ 2018-01-07 16:29 大树2 阅读(2700) 评论(0) 推荐(0)
摘要: 作者:csj更新时间:2017.12.30 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结; 回主目录:2017 年学习记录和总结 1.python 简介: 2.python 解释器 3.python基础: 1.数据类型,变量,字符串,编码2.list,tu 阅读全文
posted @ 2018-01-07 16:28 大树2 阅读(933) 评论(0) 推荐(0)
摘要: 数据获取,解析,存储等知识的学习总结 作者:csj更新时间:2017.12.31 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结,此部分已更新完; 回主目录:2017 年学习记录和总结 我们在数据处理,数据分析时,数据的来源有: 1.直接读取已有的.csv; 阅读全文
posted @ 2018-01-07 16:28 大树2 阅读(349) 评论(0) 推荐(0)
摘要: 今天是2017年12月30日,2017年的年尾,2018年马上就要到了,回顾2017过的确实很快,不知不觉就到年末了,再次开篇对2016.2017年的学习数据挖掘,机器学习方面的知识做一个总结,对自己所学的知识也做一个梳理,查漏补缺关于数据挖据、数据分析,可视化,ML,DL,NLP等。 作者:csj 阅读全文
posted @ 2018-01-07 16:27 大树2 阅读(1669) 评论(0) 推荐(0)
摘要: 最近看了周志华老师的书,主要内容如下,涉及到很多机器学习的知识点: by [2017.12.29 更新 denny shenzhen 59888745@qq.com] 1.线性模型: 3.在样本空间找一个超平面,将不同类别的样本分开; 2.决策树:CSL,ID3,C4.5算法 ID3中根据属性值分割 阅读全文
posted @ 2017-12-29 15:36 大树2 阅读(423) 评论(0) 推荐(0)
摘要: 分析数据, 缺失值处理 ,去重处理, 噪音处理 看了charlotte的博客分析数据, 缺失值处理 学习总结,很受用,如是将她的画图的部分代码添加完整,可以运行,这样学起来更直观. 1.分析数据 在实际项目中,当我们确定需求后就会去找相应的数据,拿到数据后,首先要对数据进行描述性统计分析,查看哪些数 阅读全文
posted @ 2017-12-27 12:01 大树2 阅读(683) 评论(0) 推荐(0)
摘要: 实现文本分词+在线词云实现工具 词云是NLP中比较简单而且效果较好的一种表达方式,说到可视化,R语言当仍不让,可见R语言︱文本挖掘——词云wordcloud2包 当然用代码写词云还是比较费劲的,网上也有一些成型的软件供大家使用。 本节转载于金砖咖啡馆公众号 我们词云制作工具是目前非常流行的tagxe 阅读全文
posted @ 2017-12-19 16:23 大树2 阅读(2695) 评论(0) 推荐(0)
摘要: DeepNLP的核心关键/NLP语言模型 /word embedding/word2vec Indexing: 〇、序 一、DeepNLP的核心关键:语言表示(Representation) 二、NLP词的表示方法类型 1、词的独热表示one-hot representation 2、词的分布式表示 阅读全文
posted @ 2017-12-18 16:43 大树2 阅读(2416) 评论(1) 推荐(0)
摘要: 作者:大树更新时间:2017.12.14 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结; 回主目录:2017 年学习记录和总结 机器学习算法总结: 线性回归 (Linear Regression) (ML分类) Y=aX+b 利用连续性变量来估计实际数值 阅读全文
posted @ 2017-12-14 17:56 大树2 阅读(952) 评论(0) 推荐(0)
摘要: 在自然语言处理和文本分析的问题中,词袋(Bag of Words, BOW)和词向量(Word Embedding)是两种最常用的模型。更准确地说,词向量只能表征单个词,如果要表示文本,需要做一些额外的处理。下面就简单聊一下两种模型的应用。 所谓BOW,就是将文本/Query看作是一系列词的集合。由 阅读全文
posted @ 2017-12-09 09:29 大树2 阅读(18754) 评论(0) 推荐(0)
摘要: 自然语言处理要解决的问题: 其实,自然语言处理的应用非常广泛,如: 垃圾邮件识别 通过自动分析邮件中的文本内容,判断该邮件是否垃圾邮件。 中文输入法 通过识别输入的拼音字符串,识别用户希望输入的汉字。 机器翻译 将文本从一种语言转成另一种语言,如中英文机器翻译。 自动问答、客服机器人 用文本输入一个 阅读全文
posted @ 2017-12-08 13:46 大树2 阅读(3437) 评论(1) 推荐(0)
摘要: 说明 环境: 已安装Anaconda3 (64-bit) 4.4.0(Python 3.6.1)。其中,代码调试在Spyder 3.1.4中进行,安装包则直接打开Anaconda Prompt调用cmd.exe后进行。 系统为Windows 7 和 Windows 10。 安装包的坑 安装文件的获取 阅读全文
posted @ 2017-12-07 10:26 大树2 阅读(31395) 评论(1) 推荐(1)
摘要: 1. 多值无序类数据的特征提取: 多值无序类问题(One-hot 编码)把“耐克”编码为[0,1,0],其中“1”代表了“耐克”的中 间位置,而且是唯一标识。同理我们可以把“中国”标识为[1,0],把“蓝色”标识为[0,1]。 然后把所有的数据编码拼接起来,[“耐克”,“中国”,“蓝色”]的最终编码 阅读全文
posted @ 2017-12-06 18:04 大树2 阅读(607) 评论(0) 推荐(0)
摘要: HMM(Hidden Markov Model,隐马尔可夫模型) CRF(Conditional Random Field,条件随机场), RNN深度学习算法(Recurrent Neural Networks,循环神经网络)。输入条件连续 LSTM(Long Short Term Memory)则 阅读全文
posted @ 2017-12-05 16:36 大树2 阅读(1931) 评论(0) 推荐(0)
摘要: 业务解决方案: 0. 数据源加载 1. 特征工程: 字符转数值/二值型/多值型 把字符型特征转化成算法可以处理的数值表示,实现特征抽象.特征是二值型的, 如sex 这个字段有male 和fem 两种,就把sex 抽象成0 和1。如果特征的数值是多值型, 如status,就按照严重程度从0 到1 再到 阅读全文
posted @ 2017-12-05 15:37 大树2 阅读(361) 评论(0) 推荐(0)
摘要: SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。 F 阅读全文
posted @ 2017-12-04 10:17 大树2 阅读(1518) 评论(0) 推荐(0)
摘要: 1.Flask简介 Flask是一个相对于Django而言轻量级的Web框架。 和Django大包大揽不同,Flask建立于一系列的开源软件包之上,这其中 最主要的是WSGI应用开发库Werkzeug和模板引擎Jinja: 策略 :werkzeug和Jinja这两个库和Flask一样,都是pocoo 阅读全文
posted @ 2017-12-01 12:03 大树2 阅读(428) 评论(0) 推荐(0)
摘要: 所谓人工智能,通俗地讲是指由人工制造出来的系统所表现出来的智能 机器学习简单来讲就是通过算法,使机器能从大量历史数据中学习规律,从而对新的样本做出智能识别或对未来做预测 机器学习是基于概率统计、矩阵或图模型而得出的分析结论 机器学习是人工智能的一个分支 深度学习是机器学习的一个新领域 监督学习 逻辑 阅读全文
posted @ 2017-11-17 16:47 大树2 阅读(772) 评论(0) 推荐(0)
摘要: 1. 机器学习 明白一些基本概念 什么是机器学习研究如何通过计算的手段,利用经验来改善系统自身的性能通俗来讲,让代码学着干活 特征:自变量标签:因变量 学习的种类有监督学习:提供标签,分类、回归无监督学习:无标签,聚类增强学习:也称强化学习,马尔科夫决策过程(Markov Decision Proc 阅读全文
posted @ 2017-11-08 15:08 大树2 阅读(2773) 评论(0) 推荐(0)
摘要: KNN算法的定义: KNN通过测量不同样本的特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻 阅读全文
posted @ 2017-11-06 17:59 大树2 阅读(1601) 评论(0) 推荐(0)
摘要: 本文是Sublime Text 全程指引 by Lucida (http://www.cnblogs.com/figure9/p/sublime-text-complete-guide.html)的笔记,并添加了自己整理的一些内容,感谢原作者。 1. 下载 可以从官网 http://www.subl 阅读全文
posted @ 2017-11-06 17:05 大树2 阅读(595) 评论(0) 推荐(0)
摘要: 动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题 D3.js入门指南 什么是D3?D3是指数据驱动文档(Data-Driven Documents),根据 阅读全文
posted @ 2017-11-03 11:52 大树2 阅读(598) 评论(0) 推荐(0)
摘要: 1. Web基础 网页的骨骼HTML 什么是HTML超文本标记语言:Hyper Text Markup Language 这都不重要,重要的是:HTML是Web网页的基本组成部分HTML中定义的元素,决定了网页的内容和结构 Python:编程语言,编写程序HTML:标记语言,像画画一样,画出网页的内 阅读全文
posted @ 2017-11-02 17:50 大树2 阅读(1718) 评论(0) 推荐(0)
摘要: MAMP和WAMP搭建Web环境,数据库,数据分布可视化 1. 数据库 用MAMP和WAMP搭建Web环境,数据分布可视化 Web环境Web服务器:Apache、Nginx,处理Web请求数据库:MySQL,存储和管理数据后端:PHPWeb服务启动后,就可以在浏览器中访问根目录中的网站项目 MAMP 阅读全文
posted @ 2017-11-02 15:00 大树2 阅读(721) 评论(0) 推荐(0)
摘要: 爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,loads,dump,load方法介绍 伪装浏览器、IP限制、登陆、验证码(CAPTCHA) 1.爬虫 Ht 阅读全文
posted @ 2017-11-02 11:33 大树2 阅读(740) 评论(0) 推荐(0)
摘要: Python 基本语法,文件读写,数据结构和类型 1.基本语法 解释型(无需编译)、交互式、面向对象、跨平台、简单好用 中文编码:http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 变量名:可以包括英文、数字以及下划线,但不能以数字 阅读全文
posted @ 2017-11-02 10:54 大树2 阅读(586) 评论(0) 推荐(0)
摘要: 数据工程采集、存储、清洗、分析、可视化 编程语言C++和Javapython大法Rweb:php、html、css、javascript 结合采集:python存储:python+数据库/.csv/txt清洗:python分析:python+R/pandas/numpy可视化:R+web/matpl 阅读全文
posted @ 2017-11-02 10:26 大树2 阅读(263) 评论(0) 推荐(0)
摘要: import sysimport jiebaimport jieba.analyseimport jieba.posseg as posg sentence=u'''深圳新闻网讯 10月30日,世界城市日——全球城市竞争力论坛在广州举行。会上,中国社科院财经战略研究院和联合国人类住区规划署发布了《全 阅读全文
posted @ 2017-10-31 23:44 大树2 阅读(172) 评论(0) 推荐(0)
摘要: 看看下面这些项目,并试着用它们实现一些东西出来:• The Django Tutorial 试着用 Django Web Framework 创建一个 web 应用。• SciPy 如果你对科学,数学,还有工程感兴趣的话。如果你想结合 SciPy 或者别的代码写篇美观的论文,你还可以看看 Dexy。 阅读全文
posted @ 2017-10-31 17:09 大树2 阅读(292) 评论(0) 推荐(0)
摘要: demo: import xml.dom.minidom dom=xml.dom.minidom.parse('sample.xml')root = dom.documentElementcc=dom.getElementsByTagName('movie')c1=cc[0]print(root.n 阅读全文
posted @ 2017-10-24 17:40 大树2 阅读(214) 评论(0) 推荐(0)
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 31 下一页