随笔分类 -  文本分析

摘要:1.绪论过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理,以及中文自然语言处理上,似乎没有太厉害的成果?尤其是中文短文本处理的问题上,尚且没有太成功的应用于分布式条件下的深度处理模型?(大公司或许有... 阅读全文
posted @ 2017-11-17 22:26 wangyaning 阅读(10409) 评论(0) 推荐(0)
摘要:目前对中文分词精度影响最大的主要是两方面:未登录词的识别和歧义切分。据统计:未登录词中中文姓人名在文本中一般只占2%左右,但这其中高达50%以上的人名会产生切分错误。在所有的分词错误中,与人名有关的错误占到了将近90%,这中国人名都是根据人的想法起的名字,有很大的随意性,并且数量巨大... 阅读全文
posted @ 2017-11-17 22:26 wangyaning 阅读(11347) 评论(1) 推荐(0)
摘要:绪论最近做课题,需要分析短文本的标签,在短时间内学习了自然语言处理,社会标签推荐等非常时髦的技术。我们的需求非常类似于从大量短文本中获取关键词(融合社会标签和时间属性)进行用户画像。这一切的基础就是特征词提取技术了,本文主要围绕关键词提取这个主题进行介绍(英文)。不同版本pytho... 阅读全文
posted @ 2016-11-23 22:29 wangyaning 阅读(3760) 评论(0) 推荐(0)