会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Just do it!
这个人很懒!
博客园
首页
新随笔
联系
订阅
管理
2019年9月22日
jieba源码解析(二):jieba.cut
摘要: 前一章介绍了jieba分词之前关于前缀词典的构建,本章介绍jieba的主体:jieba.cut。 jieba分词有三种模式:全模式、精确模式、搜索引擎模式。全模式和精确模式通过jieba.cut实现,搜索引擎模式对应cut_for_search,且三者均可以通过参数HMM决定是否使用新词识别功能。官
阅读全文
posted @ 2019-09-22 15:17 AloisWei
阅读(26311)
评论(0)
推荐(3)
2019年9月11日
jieba源码解析(一):分词之前
摘要: 简介 总的来说,jieba分词主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动态规划算法,计算得到最大概率路径,也就得到了最终的切分形式。 初始化 jieba采用了延迟加载机制,在import后,不会立刻加载词典文
阅读全文
posted @ 2019-09-11 17:55 AloisWei
阅读(2225)
评论(2)
推荐(0)
2018年5月1日
python识别一段由字母组成的字符串是否是拼音
摘要: 环境:win10 python3.6 先说一下算法思想: 首先建立本地拼音库(不带声调)。使用逆向最大匹配将字符串与本地拼音库(这里提供给大家一个)进行匹配。话不多说,见code: def pinyin_or_word(string): ''' judge a string is a pinyin
阅读全文
posted @ 2018-05-01 16:28 AloisWei
阅读(4931)
评论(2)
推荐(0)
2018年4月25日
matplotlib画散点图,并在散点处打上相应标签
摘要: 运行环境: py3.6 matplotlib 2.1.2 PS:感觉好土。。。
阅读全文
posted @ 2018-04-25 19:48 AloisWei
阅读(21467)
评论(4)
推荐(4)
2017年9月25日
推荐算法之用户推荐(UserCF)和物品推荐(ItemCF)对比
摘要: 一、定义 ======= 1. UserCF:推荐那些和他有共同兴趣爱好的用户喜欢的物品 2. ItemCF:推荐那些和他之前喜欢的物品类似的物品 根据用户推荐重点是反应和用户兴趣相似的小群体的热点,根据物品推荐着重与用户过去的历史兴趣,即: UserCF是某个群体内的物品热门程度 ItemCF是反
阅读全文
posted @ 2017-09-25 16:10 AloisWei
阅读(2464)
评论(1)
推荐(1)
2016年12月9日
ggplot2画图时标题无法居中的问题
摘要: 折腾了一天,终于好了。应该是版本的问题。在R3.2.2能居中(别问我为什么知道),在R3.3.2上就不能。解决方式如下:
阅读全文
posted @ 2016-12-09 17:35 AloisWei
阅读(25703)
评论(0)
推荐(1)
公告