摘要: 1、使用占位符和变量 2、基础计算 3、矩阵操作 阅读全文
posted @ 2017-11-14 22:30 ybf&yyj 阅读(392) 评论(0) 推荐(0)
摘要: hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。 这里主要介绍一下hanlp的中文分词、命名实体识别、依存句法分析,这里就不介绍具体的hanlp的安装了,百度教程很多,可以看这里:http://www.hankcs.com/nlp/python-calls- 阅读全文
posted @ 2017-11-07 22:14 ybf&yyj 阅读(32122) 评论(1) 推荐(2)
摘要: 这是我以前遇到的一个网站:人卫临床助手,这个网站比较奇怪,不能点击右键查看源码,但是大家可以使用ctrl+U,打开开发者选项,点击network,然后点击第2页和第3页: 可以看到上面的URL是一模一样的,这是我以前没见过的,可以参考我最早写的博客:python获取动态网站上面的动态加载的数据(初级 阅读全文
posted @ 2017-10-22 17:04 ybf&yyj 阅读(901) 评论(0) 推荐(0)
摘要: 最近突然想到以前爬取百度学术上的参考文献,大家可以看一下以前我的写的博客:http://www.cnblogs.com/ybf-yyj/p/7351493.html,但是如果利用这个方法,太痛苦了,需要人工来复制粘贴,所以这里来介绍用selenium来实现这个功能,贴上代码: 注意: 代码中红色标注 阅读全文
posted @ 2017-10-22 16:14 ybf&yyj 阅读(2895) 评论(0) 推荐(0)
摘要: 最近在学习处理自然语言处理,就发现LTP的(哈工大语言云),这个比我最先使用的jieba分词更好,词库更大,功能也更强大。 这里介绍两种方法:1、调用LTP的API,2、使用pyltp,这里的方法基于python,对于其它语言的使用的请大家了解这里:LTP 3.3文档 1、调用LTP的API ①进入 阅读全文
posted @ 2017-10-13 11:51 ybf&yyj 阅读(4051) 评论(0) 推荐(0)
摘要: 以上为普通的快速排序,用python实现,但是以上的快排还是有一些问题的: 快排算法的基数选择为最左边的数,当数组左边的数一直是最小的数,则整个排序过程则非常不平衡 解决思路: 将随机数性算法加入快排,即基数的选择随机,并不是特定的选择,这样可以避免块排的最坏情况 以下为改进的块排 以下为两种最坏情 阅读全文
posted @ 2017-09-25 23:46 ybf&yyj 阅读(690) 评论(0) 推荐(1)
摘要: jieba分词中Tokenize的使用,Tokenize主要是用来返回词语在原文的弃之位置,下面贴上代码: 运行结果为: 阅读全文
posted @ 2017-09-22 17:44 ybf&yyj 阅读(259) 评论(0) 推荐(0)
摘要: 结巴分词系统中实现了两种关键词抽取法,一种是TF-IDF关键词抽取算法另一种是TextRank关键词抽取算法,它们都是无监督的算法。 以下是两种算法的使用: 运行结果为: TF-IDF算法分析 TF-IDF全称是:Term Frequency-- Inverse Document Frequency 阅读全文
posted @ 2017-09-22 17:10 ybf&yyj 阅读(364) 评论(0) 推荐(0)
摘要: 近几天在做自然语言处理,看了一篇论文:面向知识库的中文自然语言问句的语义理解,里面提到了中文的分词,大家都知道对于英文的分词,NLTK有很好的支持,但是NLTK对于中文的分词并不是很好(其实也没有怎么尝试,哈哈哈!) 然后发现了jieba(结巴)分词,发现还是很强大的,还有一个THULAC(http 阅读全文
posted @ 2017-09-19 17:12 ybf&yyj 阅读(397) 评论(0) 推荐(0)
摘要: 马尔可夫模型(Markov Model)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。经过长期发展,尤其是在语音识别中的成功应用,使它成为一种通用的统计工具。 以下利用一篇英文演讲来实现简单得文字生成器,结果其实是一个胡言乱语得结果,但我们可以通过 阅读全文
posted @ 2017-08-20 20:52 ybf&yyj 阅读(476) 评论(0) 推荐(0)