随笔档案「2012年12月」 - 巫峡

我是屌丝程序猿，我爱有声小说---python多线程下载有声小说

摘要：升级版，支持指定下载开始章节数，默认步长为10，直至下载完毕阅读全文

posted @ 2012-12-24 15:42 巫峡阅读(3704) 评论(22) 推荐(5)

浅谈中文文本自动纠错在影视剧搜索中应用与Java实现

摘要：1.背景：这周由于项目需要对搜索框中输入的错误影片名进行校正处理，以提升搜索命中率和用户体验，研究了一下中文文本自动纠错(专业点讲是校对,proofread)，并初步实现了该功能，特此记录。2.简介：中文输入错误的校对与更正是指在输入不常见或者错误文字时系统提示文字有误，最简单的例子就是在word里打字时会有红色下划线提示。实现该功能目前主要有两大思路：(1) 基于大量字典的分词法：主要是将待分析的汉字串与一个很大的“机器词典”中的词条进行匹配，若在词典中找到则匹配成功；该方法易于实现，比较适用于输入的汉字串属于某个或某几个领域的名词或名称；(2) 基于统计信息的分词法：常用的是... 阅读全文

posted @ 2012-12-21 23:52 巫峡阅读(3515) 评论(5) 推荐(2)

利用python对新浪微博用户标签进行分词并推荐相关用户

摘要：新浪微博的开放平台的开发者日益活跃，除了商业因素外还有很大的一股民间工程师力量；大量热衷于群体行为研究与自然语言处理以及机器学习和数据挖掘的研究者 and 攻城师们开始利用新浪真实的数据和平台为用户提供更好的应用或者发现群体的行为规律包括一些统计信息，本文就是利用新浪开放平台提供的API对微博的用户标签进行分词处理，然后根据分词后的关键字给用户推荐感兴趣的人，在此记录下以备后用。requisition: python+sinaWeibo python SDK+ICTCLAS备注：ICTCLAS是中国科学院计算技术研究所提供的中文分词包开始上代码：1.先要注册新浪开发者以获得APP_KE... 阅读全文

posted @ 2012-12-14 22:50 巫峡阅读(3134) 评论(2) 推荐(2)

mahout ItemBasedCF算法的输入参数

摘要：1.maxPrefsPerUser------ 在计算用户向量时考虑喜好的最大数量2.maxSimilaritiesPerItem ------ 在计算item相似度时每行相似度的最大数3.maxPrefsPerUserInItemSimilarity------在计算item-vector时每个用户给予考虑最大喜好（评分）数量阅读全文

posted @ 2012-12-10 23:07 巫峡阅读(303) 评论(0) 推荐(0)

巫峡专栏

导航

公告

12 2012 档案

我是屌丝程序猿，我爱有声小说---python多线程下载有声小说

浅谈中文文本自动纠错在影视剧搜索中应用与Java实现

利用python对新浪微博用户标签进行分词并推荐相关用户

mahout ItemBasedCF算法的输入参数