随笔档案「2012年8月」 - gui__li

设定系统硬性标准

摘要：#define doit(name) pr_limits(#name,name) #name 中的#为name 创建字符窜对unix系统中的一些比如最大创建文件名字大小这些系统设定的硬性标准，都可以通过程序进行设定，然后由主进程进行规定，子进程共享这些规定。这个时候对于系统和变量的判别就需要用到#if defined ,#define ,#endif这些条件编译。阅读全文

posted @ 2012-08-23 22:07 gui__li 阅读(161) 评论(0) 推荐(0)

setvbuf和setjmp

摘要：setvbuf是设置缓存的语句。将流与数组或者系统设置的数组进行挂钩。将数组作为缓存的一个操作。 setjmp是在多重调用的嵌套下，迅速返回指定位置的语句。和goto 的用法差不多，但是goto只是限于同层调用的。setjmp是用于嵌套调用。阅读全文

posted @ 2012-08-22 22:10 gui__li 阅读(123) 评论(0) 推荐(0)

编写程序的一个参考的思路

摘要：1：先将大数据量大文本的东西粗略的处理一下，大致分一下类，然后再在这个基础上细分，不要一上来就细分。2：数学在计算机里面是很有用的，要多加练习。粗浅的认识为算法。3：sourceinsight是个很好的代码查看器 4：要经常查看自己写的代码，这样可以更好的改进自己的代码水平。阅读全文

posted @ 2012-08-14 23:01 gui__li 阅读(166) 评论(0) 推荐(0)

数学之美感想2---开发一个简单的搜索引擎大概

摘要：开发一个搜索引擎，要有下载网页，索引，网页质量，网页与关键词的相关性四个方面。第一个下载网页方面是网络爬虫的问题，是个DFS和BFS的交叉性的问题。索引是建立颗粒度和快速查找的依据，也是布尔代数的基础。网页质量是采用了Pagerank算法。民主表决，很多人链接的网页，这个网页的质量就高。链接数矩阵和等值矩阵不断迭代，然后逼近真正的网页质量，据检测，经过10次之后，大致变化就不大了。网页和关键词的相关性---采用了TF-IDF的方法，理论为：将关键词拆分，然后拆分的词的频率*权值的和。信息论的依据还有相关的公式。信息量越多，TF-IDF值越大，而在命中的文献中平均出现的次... 阅读全文

posted @ 2012-08-07 23:09 gui__li 阅读(197) 评论(0) 推荐(0)

数学之美感想1

摘要：数学之美以浅显易懂的方式向我讲述了很多现在前沿性的问题。为我阐释了很多复杂的问题其实很简单，分成几个阶段，然后每个阶段再仔细研究。从文字和语言vs 数字和信息中两者之间的联系。都是用来记载信息的。用于交流的。自然语言处理和通信方式的相同，从规则的计算的复杂性然后转到统计规则的必然，然后统计中如何选取更好的模版。统计语言模型先用大方面介绍了选取概率比较的大的结果，然后是条件概率，并且对概率小于一定阀值的概率事件做平滑处理。然后接着谈到中文分词，具体到了中文分词中的概率统计。提出了一个词的颗粒性概念。隐含马尔可夫模型，通信中的一个模型，用到了自然语言处理，这个是从编码到解码的统计概率.. 阅读全文

posted @ 2012-08-05 22:45 gui__li 阅读(218) 评论(0) 推荐(0)

gui__li

08 2012 档案

公告