摘要: 4-3 LL(1)文法 总结:FOLLOW集的定义为 产生式推出空时,后面可以接的终结符的集合[依赖于后一个非终结符的FIRST集](或为最右符号时,加上$)。FIRST集为产生式能推出的串首终结符的集合(或加上空)。两者都表示可以选择该产生式的输入字符集。故产生式的SELECT集可由FIRST集和 阅读全文
posted @ 2019-03-20 20:37 cellphone7 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 众包极大程度使用了人本计算,但是众包不等于人本计算 众包的运行过程: 众包中存在的问题: 质量控制: 资格测试的优缺点: 处理坏工人: 任务分配: 任务推荐: 基于簇的HIT的生成: 用双层法划分HIT: 1.LCC分区: 具体步骤: 1,有限选择簇内连接较高的点 2,簇内连接相同,选择簇外连接较低 阅读全文
posted @ 2018-12-31 13:34 cellphone7 阅读(2684) 评论(1) 推荐(0) 编辑
摘要: 9.1:基于迭代处理平台的并行算法 不动点: 核心观点: 迭代例析: 1.PageRank(网络连接分析) mapreduce中的实现: 存在的问题: 2.传递闭包 存在的问题: 3.K-means算法 存在的问题: 解决方法:缓存迭代 Reducer输入缓存: Reducer的输出缓存: Mapp 阅读全文
posted @ 2018-12-17 22:53 cellphone7 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 8.1 连接(join)算法 笛卡尔积的运算: 笛卡尔积运算+约束->连接操作: θ连接: 自然连接(一种特殊的θ连接): Map-Reduce-Merge关系连接算法的实现: Hash Join: 方式一: 方式二: MapReduce上的二路join: MapReduce上的多路join: 实现 阅读全文
posted @ 2018-12-17 20:23 cellphone7 阅读(614) 评论(0) 推荐(0) 编辑
摘要: 7.1 mapreduce mapreduce编程: 同步工具: 实现时需要注意的地方: 本地聚合的重要性: 字数统计: map进化1:引入数组H(仍然需要combiner) map进化2:把数组H变为全局变量,map结束后再将H输出 (in-mapper的实现)本地聚合的设计模式: 将combin 阅读全文
posted @ 2018-12-13 17:56 cellphone7 阅读(507) 评论(0) 推荐(0) 编辑
摘要: 4.1外存存储结构与外存算法: 分层存储: 做法: 可扩展性问题:若程序分散地访问磁盘上的数据,即使是好的操作系统也无法利用数据块存取优势 基本界限: 、 队列和堆栈: 4.2外存算法示例:外存排序算法 算法的分析1:(多路归并) M/B路 以块为单位进行调度 1.首先从磁盘里把磁盘块放进内存,在内 阅读全文
posted @ 2018-12-10 22:48 cellphone7 阅读(1932) 评论(0) 推荐(0) 编辑
摘要: 大数据的特点: 数据量(Volume) 多样性、复杂性(Variety) 速度(Velocity) 基于高度分析的新价值(Value) 大数据的应用: 预测 推荐 商业情报分析 科学研究 大数据上问题求解计算问题的过程: 大数据算法: 大数据算法的难题: 大数据的算法设计技术: 大数据的算法分析: 阅读全文
posted @ 2018-12-10 21:43 cellphone7 阅读(1457) 评论(0) 推荐(0) 编辑
摘要: 动态模型: 离散:HMM(转移概率必须是离散的,发射概率不一定是离散的) 连续: 线性:kalman Filter 非线性:Particle Filter HMM的两个假设: ①齐次马尔可夫假设 当前的隐变量只与前一个隐变量有关 ②观测独立假设 观察变量只与它的隐变量有关 三个问题: 1.evalu 阅读全文
posted @ 2018-12-08 14:19 cellphone7 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 6.1网络安全基础 网络安全的基本属性: 网络安全的基本特征: 网络安全的研究领域: 6.2网络安全威胁: 应对DOS攻击: 6.3密码学基础: 对称密钥加密:加密和解密密钥相同 公开密钥加密(非对称密钥加密):加密和解密密钥不同 破解加密的方法: 唯密文攻击(COA):cipher-text on 阅读全文
posted @ 2018-12-07 13:53 cellphone7 阅读(402) 评论(0) 推荐(0) 编辑
摘要: 10:Spark Spark:基于内存的实时数据分析框架 Spark的特点: Spark和Hadoop的对比: Hadoop的缺点: 1.表达能力有限 2.磁盘IO开销大 3.延迟高,任务之间的衔接涉及IO开销 4.在前一个任务执行完成之前,其他任务无法开始,难以胜任复杂、多阶段的计算任务 Spar 阅读全文
posted @ 2018-12-05 17:27 cellphone7 阅读(322) 评论(0) 推荐(0) 编辑