随笔分类 -  数据清洗

摘要:我们在做数据分析,清洗的过程中,很多时候会面对各种各样的数据源,要针对不同的数据源进行清洗,入库的工作。当然python这个语言,我比较喜欢,开发效率高,基本上怎么写都能运行,而且安装配置简单,基本上有网的环境pip install全部都搞定,没网的话,把whl包copy过来一行命令... 阅读全文
posted @ 2017-11-17 22:26 wangyaning 阅读(749) 评论(0) 推荐(0)
摘要:目前对中文分词精度影响最大的主要是两方面:未登录词的识别和歧义切分。据统计:未登录词中中文姓人名在文本中一般只占2%左右,但这其中高达50%以上的人名会产生切分错误。在所有的分词错误中,与人名有关的错误占到了将近90%,这中国人名都是根据人的想法起的名字,有很大的随意性,并且数量巨大... 阅读全文
posted @ 2017-11-17 22:26 wangyaning 阅读(11343) 评论(1) 推荐(0)