摘要: def function0(): print('这是function0') def function1(): print('这是function1') def function2(): print('这是function2') if __name__ == '__main__': config = 阅读全文
posted @ 2022-02-22 13:32 AloisWei 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 关于文本分句这点,说简单也简单,说复杂也复杂。一般的自然语言处理任务中对这点要求并不严格,一般按照句末标点切分即可。也有一些专门从事文本相关项目的行业,可能就会有较高的要求,想100%分句正确是要考虑许多语言本身语法的,这里算是写个中等水平的。以《背影》中的一段话为例: python实现: 主要考虑 阅读全文
posted @ 2019-10-15 19:05 AloisWei 阅读(4948) 评论(0) 推荐(1) 编辑
摘要: 前一章介绍了jieba分词之前关于前缀词典的构建,本章介绍jieba的主体:jieba.cut。 jieba分词有三种模式:全模式、精确模式、搜索引擎模式。全模式和精确模式通过jieba.cut实现,搜索引擎模式对应cut_for_search,且三者均可以通过参数HMM决定是否使用新词识别功能。官 阅读全文
posted @ 2019-09-22 15:17 AloisWei 阅读(25310) 评论(0) 推荐(3) 编辑
摘要: 简介 总的来说,jieba分词主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动态规划算法,计算得到最大概率路径,也就得到了最终的切分形式。 初始化 jieba采用了延迟加载机制,在import后,不会立刻加载词典文 阅读全文
posted @ 2019-09-11 17:55 AloisWei 阅读(2064) 评论(2) 推荐(0) 编辑
摘要: 今天在测试数据的时候偶然发现一个问题,如下: for循环居然不能删除列表中所有空值! 偶然收到@有问题尽管问我 发的消息,才对此问题有些明白。下面是他的原话: for的计数器是依次递增的,但列表的内容已通过remove更改,i迭代的值为a ‘’ ‘’ ‘’然后越界,所以,只能删除前三个空元素。 这个 阅读全文
posted @ 2018-05-24 16:35 AloisWei 阅读(78846) 评论(2) 推荐(2) 编辑
摘要: 环境:win10 python3.6 先说一下算法思想: 首先建立本地拼音库(不带声调)。使用逆向最大匹配将字符串与本地拼音库(这里提供给大家一个)进行匹配。话不多说,见code: def pinyin_or_word(string): ''' judge a string is a pinyin 阅读全文
posted @ 2018-05-01 16:28 AloisWei 阅读(4600) 评论(2) 推荐(0) 编辑
摘要: 运行环境: py3.6 matplotlib 2.1.2 PS:感觉好土。。。 阅读全文
posted @ 2018-04-25 19:48 AloisWei 阅读(21128) 评论(4) 推荐(4) 编辑
摘要: 一、定义 ======= 1. UserCF:推荐那些和他有共同兴趣爱好的用户喜欢的物品 2. ItemCF:推荐那些和他之前喜欢的物品类似的物品 根据用户推荐重点是反应和用户兴趣相似的小群体的热点,根据物品推荐着重与用户过去的历史兴趣,即: UserCF是某个群体内的物品热门程度 ItemCF是反 阅读全文
posted @ 2017-09-25 16:10 AloisWei 阅读(2211) 评论(1) 推荐(1) 编辑
摘要: 折腾了一天,终于好了。应该是版本的问题。在R3.2.2能居中(别问我为什么知道),在R3.3.2上就不能。解决方式如下: 阅读全文
posted @ 2016-12-09 17:35 AloisWei 阅读(25523) 评论(0) 推荐(1) 编辑