08 2012 档案
摘要:#define doit(name) pr_limits(#name,name) #name 中的#为name 创建字符窜对unix系统中的一些比如最大创建文件名字大小这些系统设定的硬性标准,都可以通过程序进行设定,然后由主进程进行规定,子进程共享这些规定。这个时候对于系统和变量的判别就需要用到#if defined ,#define ,#endif这些条件编译。
阅读全文
摘要:setvbuf是设置缓存的语句。将流与数组或者系统设置的数组进行挂钩。将数组作为缓存的一个操作。 setjmp是在多重调用的嵌套下,迅速返回指定位置的语句。和goto 的用法差不多,但是goto只是限于同层调用的。setjmp是用于嵌套调用。
阅读全文
摘要:1:先将大数据量大文本的东西粗略的处理一下,大致分一下类,然后再在这个基础上细分,不要一上来就细分。2:数学在计算机里面是很有用的,要多加练习。粗浅的认识为算法。3:sourceinsight是个很好的代码查看器 4:要经常查看自己写的代码,这样可以更好的改进自己的代码水平。
阅读全文
摘要:开发一个搜索引擎,要有下载网页,索引,网页质量,网页与关键词的相关性四个方面。 第一个下载网页方面是网络爬虫的问题,是个DFS和BFS的交叉性的问题。 索引是建立颗粒度和快速查找的依据,也是布尔代数的基础。 网页质量是采用了Pagerank算法。民主表决,很多人链接的网页,这个网页的质量就高。 链接数矩阵和等值矩阵不断迭代,然后逼近真正的网页质量,据检测,经过10次之后,大致变化就不大了。 网页和关键词的相关性---采用了TF-IDF的方法,理论为:将关键词拆分,然后拆分的词的频率*权值的和。信息论的依据还有相关的公式。信息量越多,TF-IDF值越大,而在命中的文献中平均出现的次...
阅读全文
摘要:数学之美以浅显易懂的方式向我讲述了很多现在前沿性的问题。为我阐释了很多复杂的问题其实很简单,分成几个阶段,然后每个阶段再仔细研究。 从文字和语言vs 数字和信息中两者之间的联系。都是用来记载信息的。用于交流的。 自然语言处理和通信方式的相同,从规则的计算的复杂性然后转到统计规则的必然,然后统计中如何选取更好的模版。 统计语言模型先用大方面介绍了选取概率比较的大的结果,然后是条件概率,并且对概率小于一定阀值的概率事件做平滑处理。 然后接着谈到中文分词,具体到了中文分词中的概率统计。提出了一个词的颗粒性概念。 隐含马尔可夫模型,通信中的一个模型,用到了自然语言处理,这个是从编码到解码的统计概率..
阅读全文

浙公网安备 33010602011771号