2021年4月27日
摘要: 词性标注是指为输入文本中的单词标注对应词性的过程。词性标注的主要作用在于预测接下来一个词的词性,并为句法分析、信息抽取等工作打下基础。通常地,实现词性标注的算法有HMM(隐马尔科夫)和深度学习(RNN、LSTM等)。然而,在中文中,由于汉语是一种缺乏词形态变化的语言,没有直接判断的依据,且常用词兼类 阅读全文
posted @ 2021-04-27 17:59 Yuki-lsq 阅读(783) 评论(0) 推荐(0) 编辑
摘要: 命名实体识别是指对现实世界中某个对象的名称的识别。与词性标注一样,是自然语言处理的技术基础之一。它的作用主要是通过模型识别出文本中需要的实体,也可以推导出实体之间的关系(实体消歧)。 本文介绍的是运用Python从头训练一个spaCy模型来识别中标公告中中标公司的名字,现通过爬虫爬取了大约200篇中 阅读全文
posted @ 2021-04-27 16:46 Yuki-lsq 阅读(1136) 评论(0) 推荐(0) 编辑
2021年4月9日
摘要: Gensim库简介 机器学习算法需要使用向量化后的数据进行预测,对于文本数据来说,因为算法执行的是关于矩形的数学运算,这意味着我们必须将字符串转换为向量。从数学的角度看,向量是具有大小和方向的几何对象,不需过多地关注概念,只需将向量化看作一种将单词映射到数学空间的方法,同时保留其本身蕴含的信息。 G 阅读全文
posted @ 2021-04-09 15:05 Yuki-lsq 阅读(1852) 评论(0) 推荐(1) 编辑
2021年3月30日
摘要: spaCy简介 spaCy语言模型包含了一些强大的文本分析功能,如词性标注和命名实体识别功能。目前spaCy免费支持的语言有:英文、德语、法语、西班牙语、葡萄语、意大利语和荷兰语,其他的语言也在慢慢的增长。对于spaCy处理中文文本(本文选取了《天龙八部》小说来示例)具体实现过程如下: 1、对文本进 阅读全文
posted @ 2021-03-30 16:56 Yuki-lsq 阅读(1594) 评论(0) 推荐(0) 编辑
2021年3月26日
摘要: 利用百度API自然语言处理技术中的评论观点抽取方面,对淘宝购物的评论进行分析,把关键词进行提取,方便买家快速了解该商品的相关特点,具体实现过程如下: 1、创建相关新应用 首先,需要登录百度AI平台,创建一个关于自然语言处理技术的应用(领取免费额度),获得AppID、API Key和Secret Ke 阅读全文
posted @ 2021-03-26 09:53 Yuki-lsq 阅读(781) 评论(0) 推荐(0) 编辑
2021年3月15日
摘要: 对于用Python制作一个简易版的淘宝客服机器人,大概思路是:首先从数据库中用sql语句获取相关数据信息并将其封装成函数,然后定义机器问答的主体函数,对于问题的识别可以利用正则表达式来进行分析,结合现实情况选择答案,最后在执行时可以设置循环语句,并且在每次回答间隔1s方便进一步做并发处理作为未来优化 阅读全文
posted @ 2021-03-15 11:45 Yuki-lsq 阅读(1071) 评论(1) 推荐(1) 编辑
2021年3月6日
摘要: PartⅡ:数据可视化 前言 根据上一篇文章,利用Python对房天下网站中深圳十个区的二手房房源信息进行了爬取,并保存到了本地。然后对数据集进行重复值检查、缺失值检查、分列处理、异常值检查等清洗操作,得到了新数据集,现对其进行可视化分析,研究深圳二手房房源的整体情况,并从分析结果给出相关建议。 数 阅读全文
posted @ 2021-03-06 16:54 Yuki-lsq 阅读(159) 评论(0) 推荐(0) 编辑
2021年3月5日
摘要: PartⅠ:数据获取和数据清洗 写在前面 很早就有写博客的想法,一直对自己不自信所以没敢尝试,每次看别人的博客都很羡慕和崇拜,希望自己在未来的某一天也能给其他人给予一些力所能及的帮助。目前的我还是个小小小小白,很多东西都只懂些皮毛,这是我的第一篇博客,分享一下我在学校的一篇期末论文(轻点喷呜呜呜.. 阅读全文
posted @ 2021-03-05 12:36 Yuki-lsq 阅读(38) 评论(0) 推荐(0) 编辑