Yuki-lsq - 博客园

2021年4月27日

摘要：词性标注是指为输入文本中的单词标注对应词性的过程。词性标注的主要作用在于预测接下来一个词的词性，并为句法分析、信息抽取等工作打下基础。通常地，实现词性标注的算法有HMM（隐马尔科夫）和深度学习（RNN、LSTM等）。然而，在中文中，由于汉语是一种缺乏词形态变化的语言，没有直接判断的依据，且常用词兼类阅读全文

posted @ 2021-04-27 17:59 Yuki-lsq 阅读(970) 评论(0) 推荐(0)

实现spaCy实体标注模型

摘要：命名实体识别是指对现实世界中某个对象的名称的识别。与词性标注一样，是自然语言处理的技术基础之一。它的作用主要是通过模型识别出文本中需要的实体，也可以推导出实体之间的关系（实体消歧）。本文介绍的是运用Python从头训练一个spaCy模型来识别中标公告中中标公司的名字，现通过爬虫爬取了大约200篇中阅读全文

posted @ 2021-04-27 16:46 Yuki-lsq 阅读(1403) 评论(0) 推荐(0)

2021年4月9日

使用Gensim库对文本进行词袋、TF-IDF和n-gram方法向量化处理

摘要： Gensim库简介机器学习算法需要使用向量化后的数据进行预测，对于文本数据来说，因为算法执行的是关于矩形的数学运算，这意味着我们必须将字符串转换为向量。从数学的角度看，向量是具有大小和方向的几何对象，不需过多地关注概念，只需将向量化看作一种将单词映射到数学空间的方法，同时保留其本身蕴含的信息。 G 阅读全文

posted @ 2021-04-09 15:05 Yuki-lsq 阅读(2223) 评论(0) 推荐(1)

2021年3月30日

利用spaCy对中文文本分词和去除停用词处理

摘要： spaCy简介 spaCy语言模型包含了一些强大的文本分析功能，如词性标注和命名实体识别功能。目前spaCy免费支持的语言有：英文、德语、法语、西班牙语、葡萄语、意大利语和荷兰语，其他的语言也在慢慢的增长。对于spaCy处理中文文本（本文选取了《天龙八部》小说来示例）具体实现过程如下： 1、对文本进阅读全文

posted @ 2021-03-30 16:56 Yuki-lsq 阅读(2267) 评论(0) 推荐(0)

2021年3月26日

利用百度API进行淘宝评论关键词提取

摘要：利用百度API自然语言处理技术中的评论观点抽取方面，对淘宝购物的评论进行分析，把关键词进行提取，方便买家快速了解该商品的相关特点，具体实现过程如下： 1、创建相关新应用首先，需要登录百度AI平台，创建一个关于自然语言处理技术的应用（领取免费额度），获得AppID、API Key和Secret Ke 阅读全文

posted @ 2021-03-26 09:53 Yuki-lsq 阅读(1125) 评论(0) 推荐(0)

2021年3月15日

Python模拟简易版淘宝客服机器人

摘要：对于用Python制作一个简易版的淘宝客服机器人，大概思路是：首先从数据库中用sql语句获取相关数据信息并将其封装成函数，然后定义机器问答的主体函数，对于问题的识别可以利用正则表达式来进行分析，结合现实情况选择答案，最后在执行时可以设置循环语句，并且在每次回答间隔1s方便进一步做并发处理作为未来优化阅读全文

posted @ 2021-03-15 11:45 Yuki-lsq 阅读(1222) 评论(1) 推荐(1)

2021年3月6日

深圳二手房房源市场研究（下）

摘要： PartⅡ：数据可视化前言根据上一篇文章，利用Python对房天下网站中深圳十个区的二手房房源信息进行了爬取，并保存到了本地。然后对数据集进行重复值检查、缺失值检查、分列处理、异常值检查等清洗操作，得到了新数据集，现对其进行可视化分析，研究深圳二手房房源的整体情况，并从分析结果给出相关建议。数阅读全文

posted @ 2021-03-06 16:54 Yuki-lsq 阅读(294) 评论(0) 推荐(0)

2021年3月5日

深圳二手房房源市场研究（上）

摘要： PartⅠ：数据获取和数据清洗写在前面很早就有写博客的想法，一直对自己不自信所以没敢尝试，每次看别人的博客都很羡慕和崇拜，希望自己在未来的某一天也能给其他人给予一些力所能及的帮助。目前的我还是个小小小小白，很多东西都只懂些皮毛，这是我的第一篇博客，分享一下我在学校的一篇期末论文（轻点喷呜呜呜.. 阅读全文

posted @ 2021-03-05 12:36 Yuki-lsq 阅读(72) 评论(0) 推荐(0)