11 2013 档案
ANSI C——文件I/O流
摘要:文件流:根据应用程序对文件的访问方式,即是否存在缓冲区,对文件的访问可分为带缓冲区的文件操作和非缓冲文件操作。非缓冲文件访问方式(POSIX标准系统调用函数),每次对文件进行任意一次读写时都需要使用读写文件系统来处理该操作。执行一次系统调用将涉及CPU状态的切换(从用户太到内核态),这会损耗一定的CPU时间,频繁的磁盘访问对程序的执行效率会造成很大影响。带缓冲区的文件操作(ANSI标准C库函数)建立在底层系统调用之上,采用缓冲机制,这样对磁盘文件进行读操作时可以一次性的从文件中读出大量数据到缓冲区,以后对这部分数据的读写操作就不需要使用系统调用了,从而只需要少量的CPU状态的切换。这样只需要等 阅读全文
posted @ 2013-11-30 11:16 瞌睡的美人鱼 阅读(417) 评论(0) 推荐(0)
IK分词源代码分析学习——子分词器及歧义处理
摘要:IK分词源代码分析学习——子分词器http://blog.chinaunix.net/uid-20761674-id-3424176.htmlIK分词源代码分析学习——歧义处理http://blog.chinaunix.net/uid-20761674-id-3424553.html创建ik对象时,调用IKSegmenter类的构造函数进行初始化IKSegmenter ik=new IKSegmenter(sr, false); //true代表调用IKSegmenter()构造函数时使用智能分词构造函数如下:public IKSegmenter(Reader input , boolean. 阅读全文
posted @ 2013-11-27 21:08 瞌睡的美人鱼 阅读(987) 评论(0) 推荐(0)
eclipse环境中调试solr源代码
摘要:根据在网上查找的资料总结,eclipse环境中调试solr源代码大体上分为三种方式:1.用tomcat启动;即run on server2.run as a java application3.run on jetty(需要装run-jetty-run插件)1、2、3的配置前面步骤均相似(1)下载solr4.3源代码,并编译(shift+鼠标右键->”在此处打开命令行窗口”),然后运行命令:ant eclipse(2)将solr4.3 import到eclipse(java EE IDE)General——existing progects into workplace——指向solr源 阅读全文
posted @ 2013-11-27 16:14 瞌睡的美人鱼 阅读(2151) 评论(1) 推荐(0)
命令行选项及参数——getopt()
摘要:getopt()用来解析命令行参数getopt(int argc,char **argv,const char *shotopts)第一个参数为命令参数的个数;第二个参数存命令参数;第三个参数为所有可能的参数字符串optstring,仅支持短参数参数ab:c::d::代表。/getopt -a -b host -chello -d world(world不是参数值,因为-d后面有空格)getopt()成功后返回第一个选项a,并设置全局变量optarg:指向当前参数的指针,如果调用函数的人为某个参数赋值,则它指向这个值(eg:b的值host)optind:再次调用getopt()时的下一个arg 阅读全文
posted @ 2013-11-22 22:54 瞌睡的美人鱼 阅读(617) 评论(0) 推荐(0)
IK分词源代码分析学习——总体流程
摘要:IK正向迭代最细粒度切分算法流程一、IK分词初始化初始化最主要的工作就是读入词典,并将这些词放入内存字典树1.main2012.dic(关键词)2.quantifier.dic(量词)3.stopword.dic(停用词)4.ext.dic(扩展词,可选) http://blog.csdn.net/iamaboyy/article/details/7569977二、匹配1.主流程主要的就是ik.next()方法:1)读入待匹配的文本2)初始化文本指针,指向文本中的第一个字符3)遍历分词器,进行分词处理,这里是最核心的流程之一,将待匹配文本生成分词候选集。——子分词器4)处理完一个字符之后,文本 阅读全文
posted @ 2013-11-22 17:12 瞌睡的美人鱼 阅读(1990) 评论(0) 推荐(0)
IK分词源代码分析学习——与solr4.0接口
摘要:在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口。因此IK分词器2012 FF版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory类。所以以前在schema.xml文件中加入的内容: ...... ...... 而现在在schema.xml文件中加入的内容为: 这也是之前配置会出错的原因,除非自己实现了IKTokenizerFacto... 阅读全文
posted @ 2013-11-22 16:39 瞌睡的美人鱼 阅读(439) 评论(0) 推荐(0)