《数学之美》读书笔记

数学之美

一，文字和语言数字和信息

语言研究的两种方向：语料，语法
犹太人抄圣经的校验数

二自然语言处理从规则到统计

基于统计的句法分析

三统计语言模型

一个句子是否合理，取决于其存在的可能性。
统计语言的二元模型
马尔可夫链
高阶语言模型
零概率问题：古德图灵估计公式

四谈谈中文分词

查字典法
统计语言模型方法：分词后句子出现的概率最大。
动态规划维特比译码
英文手写体的识别
分词的层次概念

五隐含马尔可夫模型

训练算法（鲍姆-韦尔奇算法）
解码算法（维特比算法）
自然语言处理、机器学习

六信息的度量和作用

信息熵
条件熵相关搜索
互信息熵与条件熵的差异。解决词义的二义性（亚让斯基）
相对熵衡量两个正值函数的相似性，度量两个随机分布的差异性，比较两词是否同义，比较文章是否同类，TF-IDF

七贾里尼克和现代语言处理

bcjr算法

八布尔代数和搜索引擎的索引

用一个很长的二进制表示一个关键字是否出现在每篇文献中。多个关键词就是求与。

九图论和网络爬虫

广度优先和深度优先。
优先级队列
页面分析 URL提取，模拟脚本
hash记录

十 pagerank

一个网页的排名=所有指向这个网页的其他网页的权重之和。
矩阵相乘，迭代。
稀疏矩阵。

十一确定网页和查询的相关性

tf-idf 词频/逆文本频率指数
关键词概率分布的交叉熵

十二有限状态机和动态规划

地址识别
基于概率的有限状态机
离散的马尔可夫链

十三阿米特辛格

简单有效

十四余弦定理和新闻分类

新闻的特征向量关键词的tfidf
新闻相似性度量余弦定理夹角
新闻的分类聚类

十五矩阵运算和文本处理分类问题

矩阵的奇异值分解同时完成关键词分类和文章分类
奇异值分解的并行算法

十六信息指纹及其应用

哈希存储
判定集合相同和基本相同垃圾邮件识别
网页比对
相似哈希
视频关键帧比对

十七密码学的数学原理

均匀分布统计独立
公开密钥大素数

十八搜索引擎反作弊问题

噪声清除抗抗干扰
余弦定理判别网站的出链向量
图论识别互相链接的clique

十九数学模型的重要性

形式简单
数据积累
不要乱打补丁修正

二十最大熵模型

保留全部不确定性，风险降到最低
概率分布的信息熵最大
完美用于词性标注句法分析
训练方法：通用迭代算法gis 改进迭代算法iis 吴军的改进

二十一拼音输入法的数学原理

汉字的信息熵上下文相关性
语言模型解决一音多字
拼音转汉字隐性马尔可夫模型有限状态机

教父马库斯

ldc语料库
柯林斯的自然语言文法分析器

二十三布隆过滤器

二进制向量加随机映射函数
快速省空间
有误判概率
用于垃圾邮件识别

二十四贝叶斯网络

马尔可夫链的扩展
np完备问题
训练
主题词分类
rephil

二十五条件随机场和句法分析

拉纳帕提括括号句法分析
条件随机场扩展的隐含马尔可夫模型考虑上下文
利用边缘分布来训练模型
浅层句法分析

二十六维特比算法

动态规划算法
最短路径问题
海蒂拉玛尔 cdma
高通创始人

二十七文本自动分类问题期望最大化算法

应用聚类算法
em算法期望值计算最大化过程
局部最优解

二十八逻辑回归和搜索广告

推送最有可能点击的广告，而非出价最高
逻辑回归模型
一层神经网络
预估点击率

二十九 GOOGEL云计算

MapReduce

posted @ 2013-10-30 21:27 公爵阅读(290) 评论(0) 收藏举报

刷新页面返回顶部