Python数据分析8-----网页文本处理
摘要:
1、去除网页的标签,如<br/> 2、将标点符号等去掉,用正则表达式。 去除特殊符号: 3、将文本中的单词小写化,并将data用空格分开 4、去掉停用词 5、将所有的词连接成一个句子 6、把空格前缀去除 7、删除短词,删除句子中词语长度小于3的词,如haa,hi等无意义的词 8、分词 9、提取词干 阅读全文
posted @ 2018-07-17 21:19 吱吱了了 阅读(542) 评论(0) 推荐(0)
浙公网安备 33010602011771号