伏草惟存 - 博客园

2016年12月23日

摘要：随着机器学习和深度学习的热潮，各种图书层出不穷。然而多数是基础理论知识介绍，缺乏实现的深入理解。本系列文章是作者结合视频学习和书籍基础的笔记所得。本系列文章将采用理论结合实践方式编写。首先介绍机器学习和深度学习的范畴，然后介绍关于训练集、测试集等介绍。接着分别介绍机器学习常用算法，分别是监督学习之分类（决策树、临近取样、支持向量机、神经网络算法）监督学习之回归（线性回归、非线性回归）非监督学习（K-means聚类、Hierarchical聚类）。本文采用各个算法理论知识介绍，然后结合python具体实现源码和案例分析的方式（本文原创编著，转载注明出处:机器学习及其基础概念简介(1)）阅读全文

posted @ 2016-12-23 22:08 伏草惟存阅读(5597) 评论(0) 推荐(0) 编辑

2016年12月22日

【Machine Learning】Python开发工具：Anaconda+Sublime

摘要：随着机器学习和深度学习的热潮，各种图书层出不穷。然而多数是基础理论知识介绍，缺乏实现的深入理解。本系列文章是作者结合视频学习和书籍基础的笔记所得。本系列文章将采用理论结合实践方式编写。首先介绍机器学习和深度学习的范畴，然后介绍关于训练集、测试集等介绍。接着分别介绍机器学习常用算法，分别是监督学习之分类（决策树、临近取样、支持向量机、神经网络算法）监督学习之回归（线性回归、非线性回归）非监督学习（K-means聚类、Hierarchical聚类）。本文采用各个算法理论知识介绍，然后结合python具体实现源码和案例分析的方式（本文原创编著，转载注明出处:Python开发工具：Anaconda+Sublime(1)）阅读全文

posted @ 2016-12-22 09:44 伏草惟存阅读(7641) 评论(0) 推荐(1) 编辑

2016年11月25日

【HanLP】HanLP中文自然语言处理工具实例演练

摘要： HanLP中文自然语言处理工具实例演练作者：白宁超 2016年11月25日13:45:13 目录【HanLP】HanLP资料链接汇总(1) 【HanLP】HanLP中文自然语言处理工具实例演练(2) 【HanLP】HanLP自然语言处理源码分析研究(3) 1 MyEclipse安装HanLP 【阅读全文

posted @ 2016-11-25 21:28 伏草惟存阅读(4024) 评论(0) 推荐(0) 编辑

2016年11月24日

【HanLP】资料链接汇总

摘要： Java中调用HanLP配置 HanLP自然语言处理包开源官方文档了解HanLP的全部自然语言处理HanLP 开源自由的汉语言处理包主页 GitHub源码基于hanLP的中文分词详解-MapReduce实现&自定义词典文件 hanlp中文分词器解读 HanLP下载中心 Solr集成HanLP中阅读全文

posted @ 2016-11-24 22:05 伏草惟存阅读(1376) 评论(0) 推荐(1) 编辑

【结巴分词资料汇编】结巴中文分词基本操作(3)

摘要：摘要：结巴中文分词的特点如下：支持三种分词模式：（精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。）、支持繁体分词、支持自定义词典、MIT 授权协议。本文系列文章一是对官方文档的介绍，文章二是引用收集网友对结巴分词源码的分析，文章三是对基本操作代码示例演示。（本文原创汇编而成，转载请标明出处：【结巴分词资料汇编】结巴中文分词基本操作(3) 阅读全文

posted @ 2016-11-24 18:54 伏草惟存阅读(6088) 评论(1) 推荐(0) 编辑

2016年11月23日

【结巴分词资料汇编】结巴中文分词源码分析(2)

摘要：摘要：结巴中文分词的特点如下：支持三种分词模式：（精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。）、支持繁体分词、支持自定义词典、MIT 授权协议。本文系列文章一是对官方文档的介绍，文章二是引用收集网友对结巴分词源码的分析，文章三是对基本操作代码示例演示。（本文原创汇编而成，转载请标明出处：结巴中文分词源码分析(2) 阅读全文

posted @ 2016-11-23 18:50 伏草惟存阅读(5042) 评论(0) 推荐(2) 编辑

【资料汇编】结巴中文分词官方文档和源码分析系列文章

摘要：摘要：结巴中文分词的特点如下：支持三种分词模式：（精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。）、支持繁体分词、支持自定义词典、MIT 授权协议。本文系列文章一是对官方文档的介绍，文章二是引用收集网友对结巴分词源码的分析，文章三是对基本操作代码示例演示。（本文原创汇编而成，转载请标明出处：结巴分词官方文档分析（1）阅读全文

posted @ 2016-11-23 16:54 伏草惟存阅读(4166) 评论(0) 推荐(2) 编辑

2016年11月21日

Python自然语言处理工具小结

摘要： Python自然语言处理工具小结作者：白宁超 2016年11月21日21:45:26 目录【Python NLP】干货！详述Python NLTK下如何使用stanford NLP工具包(1) 【Python NLP】Python 自然语言处理工具小结(2) 【Python NLP】Python 阅读全文

posted @ 2016-11-21 22:01 伏草惟存阅读(17119) 评论(3) 推荐(8) 编辑

2016年11月11日

【读书目录】

摘要：昔日读书，主要针对技术范畴，做一目录，做以鞭策自己，如镜静心：已读：在读：备读： PHP http://coffeephp.com/shares 阅读全文

posted @ 2016-11-11 11:29 伏草惟存阅读(244) 评论(0) 推荐(0) 编辑

2016年11月10日

【Reading Note】算法读书杂记

摘要： 1 排序排序基本信息稳定性：排序前大的数在排序后，大的数依然保持不变就是稳定排序，反之不稳定内外排序：根据待排序的记录是否放在内存里面区分的。诸如：插入排序（直接插入&希尔）、交换排序（冒泡&快排）、选择排序（简单选择&堆排）、归并排序（归并）。算法性能影响：时间性能、辅助空间、算法复杂性（阅读全文

posted @ 2016-11-10 15:09 伏草惟存阅读(219) 评论(0) 推荐(0) 编辑

【Reading Note】Python读书杂记

摘要：赋值条件语句： any和all 元组：各种遍历序列的方式训练集和测试集语料划分：9：1 合并函数：阅读全文

posted @ 2016-11-10 01:35 伏草惟存阅读(338) 评论(0) 推荐(0) 编辑

2016年11月8日

【NLP】Python NLTK处理原始文本

摘要：摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。本文主要介绍：1）怎样编写程序访问本地和网络上的文件，从而获得无限的语言材料？2）如何把文档分割成单独的单词和标点符号，并进行文本语料上的分析？3）怎样编写程序产生格式化输出，并把结果保存在文件中？关于Python基础知识可以参看本人的【Python五篇慢慢弹】系列文章（本文原创编著，转载注明出处:Python NLTK处理原始文本）阅读全文

posted @ 2016-11-08 22:47 伏草惟存阅读(18746) 评论(0) 推荐(4) 编辑

Linux常用命令操作

摘要：系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT / 阅读全文

posted @ 2016-11-08 13:30 伏草惟存阅读(804) 评论(0) 推荐(0) 编辑

2016年11月7日

【NLP】Python NLTK获取文本语料和词汇资源

摘要：摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。本文主要介绍NLTK（Natural language Toolkit）的几种语料库，以及内置模块下函数的基本操作，诸如双连词、停用词、词频统计、构造自己的语料库等等，这些都是非常实用的。主要还是基础知识，关于python方面知识，可以参看本人的【Python五篇慢慢弹】系列文章（本文原创编著，转载注明出处:Python NLTK获取文本语料和词汇资源）阅读全文

posted @ 2016-11-07 13:16 伏草惟存阅读(9441) 评论(0) 推荐(2) 编辑

2016年11月6日

【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理

摘要：摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。而Stanford NLP 是由斯坦福大学的 NLP 小组开源的 Java 实现的 NLP 工具包，同样对 NLP 领域的各个问题提供了解决办法。斯坦福大学的 NLP 小组是世界知名的研究小组，能将 NLTK 和 Stanford NLP 这两个工具包结合起来使用，那对于自然语言开发者是再好不过的！在 2004 年 Steve Bird 在 NLTK 中加上了对 Stanford NLP 工具包的支持，通过调用外部的 jar 文件来使用 Stanford NLP 工具包的功能。本分析显得非常方便好用。本文主要介绍NLTK（Natural language Toolkit）下配置安装Stanford NLP ，以及对St 阅读全文

posted @ 2016-11-06 22:00 伏草惟存阅读(38782) 评论(2) 推荐(5) 编辑

2016年11月4日

【算法】数据结构面试算法题目

摘要： 1 数组去重 python实现字典去重 python字符串追加去重排序 Java实现 set实现 java字符串追加去重实现 2 求数组中逆序对的总数，如输入数组1,2,3,4,5，6，7,0 逆序对7 Python实现 Java实现 3 无序数组A，找到第K个最大值，复杂度小于O（NlgN） P 阅读全文

posted @ 2016-11-04 15:10 伏草惟存阅读(1172) 评论(0) 推荐(0) 编辑

2016年10月28日

推荐算法概览

摘要：推荐算法概览推荐算法概览（一）为推荐系统选择正确的推荐算法非常重要，而可用的算法很多，想要找到最适合所处理问题的算法还是很有难度的。这些算法每种都各有优劣，也各有局限，因此在作出决策前我们应当对其做以衡量。在实践中，我们很可能需要测试多种算法，以便找出最适合用户的那种；了解这些算法的概念以及工作阅读全文

posted @ 2016-10-28 12:25 伏草惟存阅读(907) 评论(0) 推荐(0) 编辑

2016年10月27日

【算法】C语言实现数组的动态分配

摘要：摘要：数据结构和算法对于编程的意义不言而喻，具有指导意义的。无论从事算法优化方向研究，还是大数据处理，亦或者网站开发APP开发云云。在求职过程中数据结构必然也是笔试的重点，面试的常客。基于此，系统梳理复习下数据结构和算法相关知识，其实核心为链表操作，串的匹配，树的先序、中序、后序。排序的相关操作，查找相关操作，深度优先遍历、广度优先遍历、哈弗曼树、动态规划等。本节为开胃菜，数组的相关操作（本文原创编著，转载注明出处:C语言实现数组的动态分配）阅读全文

posted @ 2016-10-27 20:56 伏草惟存阅读(9343) 评论(0) 推荐(2) 编辑

【算法】费波那契数列算法

摘要：费波那契数列算法作者：白宁超 2016年10月27日20:06:54 斐波那契数学描述： F0 = 0 (n=0) F1 = 1 (n=1) Fn = F[n-1]+ F[n-2](n=>2) Python语言实现：分析：当n=0时为0，n=1时为1，n>2时，最后两数之和。由此可知，链表fib 阅读全文

posted @ 2016-10-27 20:09 伏草惟存阅读(1449) 评论(0) 推荐(0) 编辑

数据结构

摘要：【数据结构】 1 堆栈的区别内存中几个区的理解：栈区：由编译器自动分配和释放，存放函数的参数值、局部变量值等，类似数据结构的栈。堆区:由程序员分配和释放，若程序员不释放，程序结束时可能系统自动回收。类似数据结构中的链表全局区（静态区）：全局变量和静态变量存储在一起，初始化全局变量和静态变量在阅读全文

posted @ 2016-10-27 10:52 伏草惟存阅读(955) 评论(0) 推荐(1) 编辑