上一页 1 2 3 4 5 6 7 8 9 ··· 20 下一页
摘要: 大数据核心3个概念: 能伸缩到一千台以上的分布式数据处理集群技术 这上千个节点是使用廉价PC搭建 将数据中心当做一台计算机 大数据的起源:“三架马车” 这三篇论文还依赖了两个基础设施:Chubby锁服务,Thrift序列化 MapReduce 演进路线: 编程方式:最初的MapReduce需要工程师 阅读全文
posted @ 2023-04-03 17:14 某某人8265 阅读(188) 评论(0) 推荐(0)
摘要: Thrift 格式解析 https://www.cnblogs.com/Forever-Kenlen-Ja/p/9649724.html 常用数据格式包括 CSV JSON XML,这些格式有缺点: CSV没有指定数据类型,如可能将数字开头的字符串无认为数字 使用文本存储会浪费空间 JSON XML 阅读全文
posted @ 2023-04-03 09:44 某某人8265 阅读(297) 评论(0) 推荐(1)
摘要: BigTable 定位是分布式表格系统。步入21世纪后,单机关系db无法支撑海量数据,GFS等分布式文件系统可低成本支持存储但效率低。分布式事务模型、共识算法和Percolator、Spanner等NewSQL到2010年前后才成熟。所以当时取各项目共性,在GFS上封装一层KV结构。技术对标HBas 阅读全文
posted @ 2023-03-31 16:40 某某人8265 阅读(347) 评论(0) 推荐(0)
摘要: MapReduce 使用MapReduce框架只要实现一个Map函数和一个Reduce函数,Map函数实现映射,接受一个key-value并转换为多个键值对;Reduce是一个化简函数,接收一个key和对应的vallue,然后组成一组新的value输出出去。 map(k1, v1) -> list( 阅读全文
posted @ 2023-03-30 18:56 某某人8265 阅读(146) 评论(0) 推荐(0)
摘要: GFS 重点是:高可用、可扩展性、透明 几个设计理念: 故障很常见,而非意外 存储内容为大文件,通常在几个GB 文件的修改方式是追加而非随机写,读多写少 增加系统灵活性,如放松对GFS的一致性要求 架构 GFS包括单节点Master、备用的shadow master、多个chunkserver、多个 阅读全文
posted @ 2023-03-30 16:14 某某人8265 阅读(508) 评论(0) 推荐(0)
摘要: 分布式存储 分布式数据复制技术 常用于数据备份 同步复制技术注重一致性,用户请求更新数据库时,主数据库要同步到备数据库后才结束阻塞返回给用户 异步复制技术注重可用性,用户更新数据时立即给用户响应,备数据库的更新会在之后异步执行。一般用于对用户请求响应时延要求很高的场景 半同步复制技术介于前二者之间, 阅读全文
posted @ 2023-03-29 14:32 某某人8265 阅读(105) 评论(0) 推荐(0)
摘要: 分布式计算模式之MR MapReduce就是将复杂的、难以直接解决的大问题,分割为规模较小的、可直接解决的小问题。这些子问题相互独立且和原问题形式相同,可递归地求解,然后将子问题的答案合并。核心步骤为 1.分解原问题 2.求解子问题 3.合并解 工作原理 Map对应分,Reduce对应合。主要包括3 阅读全文
posted @ 2023-03-26 21:24 某某人8265 阅读(275) 评论(0) 推荐(0)
摘要: 分布式体系结构之集中式结构 集中式结构就是由一台或多台机器组成中央服务器,所有数据存储于此,所有业务也先由其处理。多节点与中央服务器连接,并将自己信息汇报给中央服务器,由中央服务器同一进行资源和任务调度。特点是部署结构简单,中央节点无需考虑对任务的多节点部署,节点服务器间无需通信和协作,只要与中央服 阅读全文
posted @ 2023-03-26 11:23 某某人8265 阅读(380) 评论(0) 推荐(0)
摘要: 关于 电商系统:最看重吞吐量,为了更多的处理用户访问和订单业务 IoT:最看重资源占用率,在某些设备上资源都是KB级的 电信业务:最看重响应时间、完成时间、可用性,保证通话质量 HPC:最看重加速比,这种计算特带是耗时长 大数据:最看重加速比,处理时间较HPC短,但也到达小时级 云计算:最看重操作耗 阅读全文
posted @ 2023-03-26 08:26 某某人8265 阅读(232) 评论(0) 推荐(1)
摘要: GPT 继 BERT 之后,研究者们注意到了大规模预训练模型的潜力,不同的预训练任务、模型架构、训练策略等被提出。但 BERT 类模型通常存在两大缺点:一是过分依赖有标签数据;二是存在过拟合现象。 GPT1 传统NLP模型面临的两大缺点: 需要大量标注数据,高质量的标注数据往往很难获得 根据一个任务 阅读全文
posted @ 2023-03-21 19:47 某某人8265 阅读(292) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 ··· 20 下一页