随笔 - 402  文章 - 0  评论 - 1036 
  置顶随笔
摘要: 工作内容:改善搜狗输入法(Android/iPhone/iPad/TV平台)和搜狗号码通产品核心品质,提升用户体验:输入更快更精准,陌生来电识别更全更准职位要求:1. 对自然语言处理/数据挖掘相关技术及应用(机器学习/语言模型/分词/机器翻译/推荐系统/用户行为分析等)技术有相关项目经验2. 有知识...阅读全文
posted @ 2014-04-16 20:29 finallyly 阅读(3113) 评论(4) 编辑
摘要: 课题简介: “自动化学科创新思想与科学方法研究”课题,编号2009IM020300。 项目旨在对影响国内自动化领域发展的知识要素(包括 人物、机构、研究对象等)进行系统分析,形成知识体系,构建知识服务网络平台,提供知识服务,促进知识创新。 项目涉及文献情报分析与研究、知识关联与服务等层面,但是在底层数据获取的方面需要依赖于文本挖掘技术。资源简介:论文:面向自动化学科中文期刊论文的文本挖掘系统PPT:面向自动化学科中文期刊论文的文本挖掘系统PPT数据专区:http://www.datatang.com/member/5878以下算法在论文中都有提到,人名消歧和机构名称归一http://downl阅读全文
posted @ 2012-06-02 11:03 finallyly 阅读(3534) 评论(14) 编辑
摘要: 作者:finallyly 出处:博客园 (转载请注明 作者和出处)前言:感谢dudu和博客园的支持,我于2010年10月曾在博客园的个人博客中发布了个人整理的汉语新闻分类语料,以及文本分类流程程序。 历时两年收到了广大网友的支持、批评和指正。现在面临毕业,所以对自己硕士阶段的工作进行了部分开源。文本语料库(包括中英文新闻)的详细说明以及下载地址为:http://www.datatang.com/data/13484文本分类程序最新版的详细说明以及下载地址为:http://www.datatang.com/data/13483文本分类的中间表达形式VSM模型的详细说明以及下载地址为:(1)英文语阅读全文
posted @ 2012-01-15 09:45 finallyly 阅读(9362) 评论(23) 编辑
摘要: “科技创新,方法先行”。为响应科技部“十二五”关于加强科技资源共享的号召,中科院自动化所“自动化学科创新思想与科学方法研究(课题编号:2009IM020300)”课题 与国内专业的科研数据共享平台-数据堂 网站展开全面合作,将自动化学科数字化知服务网络平台的部分后台数据,以及项目中的一些其他数据资源,免费提供给自然语言处理等相关领域同仁从事科研使用。数据专区地址是:http://www.datatang.com/member/5878。如您论文或项目使用该专区数据,请注明数据来自“自动化学科创新思想与科学方法研究”课题,编号2009IM020300,以及数据堂数据地址http://www.d.阅读全文
posted @ 2012-01-11 11:15 finallyly 阅读(1211) 评论(0) 编辑
摘要: 各位同学、老师、网友,大家好,由中科院自动化所综合信息中心承担、国家科技部支持的自动化学科数字化知识服务网络平台已经上线。网站地址是:http://autoinnovation.ia.ac.cn/,欢迎大家使用,并且给我们提出意见和建议。下面是平台使用过程中的几点注意事项:(1)初次使用时,如果您的浏览器没有安装silverlight插件,请您按提示下载安装该插件;(2)如果您在使用中遇到一些小问题,可以查看网站的帮助文件;(3)该平台框架实际为数据库检索系统,因此您输入检索词后,需要等待下拉菜单出现相应检索词,选中相应检索词,之后在点击搜索按钮,如下图所示图 1 检索说明示意图该平台主要包括阅读全文
posted @ 2011-12-29 10:45 finallyly 阅读(553) 评论(8) 编辑
摘要: (作者:finallyly 出处:博客园 转载请注明作者和出处) 把汉字转换成拼音,实际上是一个非技术活,无外乎查表而已。可能由于汉字拼音转换表资源比较宝贵的缘故,网络上开源的转换程序比较少。另外,网络上给出的码表,可能不能覆盖全部的多音字,生僻字,所以基于此类码表写成的程序,也就有一定的局限性。 本文给出一份完毕的,将汉字转换成无声调标注的拼音的设计思路、全部代码并且给出一份在一定程度上可用的汉字拼音转换表。首先指出本文部分参考了 《Python返回汉字的汉语拼音(原创) 》的汉字拼音转换表以及大概思路。下面步入正轨汉语拼音转换表的物理存储格式:(汉字+空格+汉字对应的拼音,多个候选读音用哪阅读全文
posted @ 2011-05-16 21:58 finallyly 阅读(11144) 评论(11) 编辑
摘要: 作者:finallyly 出处:博客园(转载请注明作者和出处) 很多时候,我们设计了一个方法,为了证明我们的方法是有效的,就要将自己的方法和其他人的方法对比,作用于同一个数据集,然后对比实验结果。很多时候我们手头的数据集没有标注,这时候可以借助“用户评价”的模式来进行方法评估。本文的主旨就是希望对搜索、语义计算有兴趣的朋友来帮忙评测下以下两种方法作用于同一个数据集时,那个方法效果更好。待测试的两个方法的目的是:从汉语技术术语中找出语义上同旨,或者语义上非常详尽的术语,作为一个聚类。该方法的应用前景有:(1)学术搜索中的关键词扩展;(2)辅助术语词典的自动编撰下面简单看一下试验素材:(如下图所示阅读全文
posted @ 2011-04-20 21:04 finallyly 阅读(1214) 评论(6) 编辑
摘要: 由于本篇博文的图不能正常显示,故将本篇博文的底稿上传。下载地址为:http://files.cnblogs.com/finallyliuyu/allpathbetweentwonodes.rar希望能对大家有用。另外需要指出的是:我的这个求两点之间所有路径的算法并不高效,但是可以保证正确,无论是有向图,还是无向图都可以使用。作者:finallyly 出处:技术(如若转载请注明作者和出处)最近在实现一个算法,算法之内有一个子算法是求有向图内两个定点(原点和目的点)之间的全部路径。在网上翻阅了大部分资料,发现给出的算法和代码要么只能解决DAG(有向无环图)的两定点之间所有路径问题,要么就是算法本身阅读全文
posted @ 2011-04-18 10:00 finallyly 阅读(18842) 评论(24) 编辑
摘要: 作者:finallyliuyu 出处:博客园(博文转载请标明作者和出处)编者按:本系列文章给出的网络数据采集方法、思路、和框架并无工业化应用价值,但足以满足各高校实验室在实验阶段爬去语料库,获取网络资源的需求。 欢迎老鸟指点,但是此篇博文的定位是“写个菜鸟,新手的”所以禁止无厘头的疯狗式乱骂。 在上一篇文章:《巧用C# webbrowser实现动态网页爬虫机器人》中,给出了...阅读全文
posted @ 2010-11-02 13:04 finallyly 阅读(8452) 评论(17) 编辑
摘要: 最终版本的文本分类代码、语料、以及中间文件都已经开源共享见:http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html。由于数据和程序规模比较大,就不在博客园上传了。大家可以自己注册下载。(注:转载请注明作者和出处 作者:finallyliuyu 出处:博客园)适用人群:文本分类初学者、新手、菜鸟、业余爱好者目的:1.将书本上关于文本分类的相关内容,如分类器、特征词选择算法等,用程序实现,让入门者对文本分类有个感性的、具体的了解,毕竟数学公式还是蛮抽象的; 2.“尽信书不如无书”,“纸上得来终觉浅,绝知此事要躬行”,借阅读全文
posted @ 2010-10-04 22:50 finallyly 阅读(20290) 评论(61) 编辑
摘要: (注:博文转载请注明作者和出处 作者:finallyliuyu 出处:博客园)本博文旨在通过实践验证各种特征词选择算法对文本分类性能的影响。根据Yi ming yang 1999年的论文《A comparision of feature selection algorithms in Text Categorization》中的论断: DF,IG,CHI-square法性能差不多,point wi...阅读全文
posted @ 2010-10-04 21:51 finallyly 阅读(4655) 评论(11) 编辑
摘要: 博文转载请注明作者和出处(作者:finallyliuyu :出处博客园)附:《卡方特征词选择算法》  《DF特征词选择算法》一.数学背景将数学知识、数学理论以及数学思想迁移到实际工程问题中,经常会促进工程问题的圆满解决。可是如何将数学知识引入工程问题中呢?首先需要有“数学思维”例如理解数学公式所刻画的内涵;其次需要有“建模”能力:从不同的视角来看待同...阅读全文
posted @ 2010-10-04 09:53 finallyly 阅读(3832) 评论(4) 编辑
摘要: (注:如有转载请标明作者:finallyliuyu, 和出处:博客园)《文本分类 step by step(一)》  在《文本分类step by step(一)》中,我们从处理语料库开始讲起,一直讲到利用分类器进行分类。文章末尾还随机抽取了一篇文章,给出了这篇文章的标题、正文、实际类别,分类器所分类别等信息。在此篇博客中我们将介绍分类器的评估,以及代码的一些介绍,最后给出程序和实验语料库的下载地址...阅读全文
posted @ 2010-09-29 19:30 finallyly 阅读(4135) 评论(5) 编辑
摘要: 运行情况截图:结果的部分截图:(数据结构含义:比如“和睦”这个词”第一行term,第二行term出现在多少篇文章中,第三行:在id为多少的文章中出现过几次) · 特征词选择 代码中实现了两种特征词选择算法(DF法和chi-square法)。这里仅给出对chi-square特征词选择算法的调用。使用chi-square特征词选择法,首先需要构造出con...阅读全文
posted @ 2010-09-29 14:55 finallyly 阅读(7590) 评论(22) 编辑
摘要:     群号:9826518 群简介:(来自群主“寄居”) 普及一下吧: 为了让新成员快速融入本群,为了让大家彼此之间多多交流,因此在这介绍一下本群以及各位成员。 本群讨论的话题主要为互联网方面的一些技术、创意,比如:NLP,架构,IR,Web Mining,推荐,ML,AI等等。只要你想到的,群里总有人在从事的。 在人员构成方面,这个群是我还在...阅读全文
posted @ 2010-09-27 13:36 finallyly 阅读(1313) 评论(6) 编辑
摘要: 作者:finallyliuyu(转载请注明原作者和出处) (代码暂不发布源码下载版,以后会发布)     KNN文本分类算法又称为(k nearest neighhor)。它是一种基于事例的学习方法,也称懒惰式学习方法。     它的大概思路是:对于某个待分类的样本点,在训练集中找离它最近的k个样本点,并观察这k个样本点所属类别。看...阅读全文
posted @ 2010-09-26 21:58 finallyly 阅读(11788) 评论(31) 编辑
摘要: 作者:finallyliuyu(转载请标明原作者与出处)在文本分类问题中,离不开特征词选择模块。特征选择是特征降维的关键步骤。首先我们给出一般性的特征词选择模块的伪代码描述: (此图摘自 C.D. Maning Introduction to InformationRetrieval 原版p251页 或者王斌译版p188页)此处仅赘述两点,其他还劳请读者自己去看书1。 上面的伪代码给出的是算法是...阅读全文
posted @ 2010-09-26 20:12 finallyly 阅读(7501) 评论(17) 编辑
摘要: 注:此篇博客无法提供源代码下载,读者可自行从博文上拷贝代码。作者:finallyliuyu(博文转载请注明作者和出处)注:有网友提出来说直接把抽取之后的搜狗2008版新闻语料库发布,根据搜狗实验室的数据使用许可说明(http://www.sogou.com/labs/dl/license.html):有如下条款三.受益者的义务禁止将搜狗实验室数据提供给第三方使用,第三方如有需要可直接访问搜狗实验室...阅读全文
posted @ 2010-09-18 22:20 finallyly 阅读(5956) 评论(17) 编辑
摘要: 注:博文转载、语料库使用,请注明提供者、来源以及空间提供方。免责声明:此语料库仅供自然语言处理的业余爱好者研究和交流,禁止用于任何商业用途(包括在资源内部链接广告等行为)。感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心提供新闻素材。新闻著作权归以上网站所有,任何人未经上述公司允许不得抄袭。语料库下载地址: http://download.cnblogs.com/finallyliuyu/corpus.rar(注意:有网友提出要MSSQL2000数据库的MDF版本数据,这样在2000以上的数据库上可以进行附加。所以给出MDF,LDF格式的语料库下载地址:MDF版本语料库下载地址)语阅读全文
posted @ 2010-09-11 19:28 finallyly 阅读(8974) 评论(23) 编辑
摘要: 源代码下载作者:finallyliuyu 转载使用等请注明出处笔者按:此系列博文仅对于Libsvm二分类做入门性的介绍,并非研究libsvm的专业水准文章。至于如何用libsvm进行回归,多分类,笔者目前还没有涉及,请您查阅libsvm的相关文档说明。这里给出文本预处理模块(Python语言编写);调用libsvm进行文本分类模块采用C语言编写;实验结果处理模块(Matlab)用此份代码做的实验:...阅读全文
posted @ 2010-09-04 14:30 finallyly 阅读(3981) 评论(6) 编辑
  2017年10月6日
摘要: **************input************** [[[[-0.36166722 0.04847232 1.20818889 -0.1794038 -0.53244466] [-0.67821187 -1.81838071 0.59005165 -1.17246294 0.3320阅读全文
posted @ 2017-10-06 20:41 finallyly 阅读(11) 评论(0) 编辑
  2017年10月4日
摘要: 先来看个例子: args = (1, 2, 3, 4) kwargs = {} args = () kwargs = {'a': 1, 'c': 3, 'b': 2} args = (1, 2, 3, 4) kwargs = {'a': 1, 'c': 3, 'b': 2} args = ('a',阅读全文
posted @ 2017-10-04 20:46 finallyly 阅读(15) 评论(0) 编辑
  2017年10月2日
摘要: http://www.cnblogs.com/qggg/p/6832705.html 1*4*4*2 [[[[ 1. 2.] [ 3. 4.] [ 5. 6.] [ 7. 8.]] [[ 8. 7.] [ 6. 5.] [ 4. 3.] [ 2. 1.]] [[ 4. 3.] [ 2. 1.] [ 阅读全文
posted @ 2017-10-02 18:48 finallyly 阅读(5) 评论(0) 编辑
  2017年9月30日
摘要: > qqplot(spear,fastrankweight)> qqplot(spear,fastrankweight,main="title")> qqplot(spear,fastrankweight,main="distribution relation between spearman an阅读全文
posted @ 2017-09-30 10:01 finallyly 阅读(6) 评论(0) 编辑
  2017年6月2日
摘要: #-*-coding:utf-8-*- ######################################################################### # Copyright (C) 2017 All rights reserved. # # FileName:GetLongestSubString.py # Creator: x'x'x@xxx...阅读全文
posted @ 2017-06-02 09:47 finallyly 阅读(34) 评论(0) 编辑
  2017年3月7日
摘要: http://jingyan.baidu.com/article/ab69b270de8b4f2ca7189f1d.html cd /rootvim .bashrcLANG="zh_CN.GBK" :wqsoure.bashrc阅读全文
posted @ 2017-03-07 10:55 finallyly 阅读(27) 评论(0) 编辑
  2017年3月5日
摘要: rt RT阅读全文
posted @ 2017-03-05 19:05 finallyly 阅读(17) 评论(0) 编辑
  2017年2月23日
摘要: export LC_ALL=C sort -k 2,2rn p.txt > d.txt阅读全文
posted @ 2017-02-23 14:48 finallyly 阅读(10) 评论(0) 编辑
  2017年1月22日
摘要: http://blog.csdn.net/fly_yr/article/details/49815705阅读全文
posted @ 2017-01-22 14:04 finallyly 阅读(13) 评论(0) 编辑
  2017年1月6日
摘要: http://www.cprogramming.com/c++11/c++11-lambda-closures.html阅读全文
posted @ 2017-01-06 16:02 finallyly 阅读(17) 评论(0) 编辑