2018 年 9月 11 日随笔档案 - 王凤霞

2018年9月11日

摘要：云栖君导读：人工智能研究这个领域是有一定门槛的。对于初学者来说，一般通常的做法是直接购买一些热门的书籍，比如“西瓜书”、“花书”、“xx天从入门到精通”、“xx天从入门到放弃”等等，但大多数书籍都是讲的基础知识，稍显乏味和枯燥，此外内容太深奥，初学者可能看一段时间就想放弃了。本文作者以过来人的身份将阅读全文

posted @ 2018-09-11 14:03 王凤霞阅读(553) 评论(0) 推荐(0)

不可不知的spark shuffle

摘要： shuffle概览一个spark的RDD有一组固定的分区组成，每个分区有一系列的记录组成。对于由窄依赖变换（例如map和filter）返回的RDD，会延续父RDD的分区信息，以pipeline的形式计算。每个对象仅依赖于父RDD中的单个对象。诸如coalesce之类的操作可能导致任务处理多个输入分阅读全文

posted @ 2018-09-11 14:02 王凤霞阅读(707) 评论(0) 推荐(0)

一个人是否靠谱，闭环很重要（有深度）

摘要：来源：培训每日谈（peixunmeiritan）作者：张立志，专注学习设计和课程开发看了一篇文章，说《一个人靠不靠谱，就看这三件小事》，文中提到：我所理解的靠谱就是你把这事交给他之后完全不用操心后续，因为你知道他肯定能落实，就算没办好，也能及时给你一个回馈，这就叫靠谱。而文章认为，一个人阅读全文

posted @ 2018-09-11 14:01 王凤霞阅读(361) 评论(0) 推荐(0)

一文详解scala泛型及类型限定

摘要：今天知识星球球友，微信问浪尖了一个spark源码阅读中的类型限定问题。这个在spark源码很多处出现，所以今天浪尖就整理一下scala类型限定的内容。希望对大家有帮助。 scala类型参数要点 1. 非变 trait Queue[T] {}?这是非变情况。这种情况下，当类型S是类型A的子类型，则Qu 阅读全文

posted @ 2018-09-11 14:01 王凤霞阅读(1692) 评论(0) 推荐(0)

spark源码单步跟踪阅读-从毛片说起

摘要：想当年读大学时，那时毛片还叫毛片，现在有文明的叫法了，叫小电影或者爱情动作片。那时宿舍有位大神，喜欢看各种毛片，当我们纠结于毛片上的马赛克时，大神大手一挥说道：这算啥，阅尽天下毛片，心中自然无码！突然想到我们在学习spark时，也可以有这种精神，当我们能读懂spark源码时，spark的技术世界也就阅读全文

posted @ 2018-09-11 14:00 王凤霞阅读(588) 评论(0) 推荐(0)

Spark技术学院-进去能学到啥？

摘要： Spark技术学院是什么？主要是浪尖，前腾讯现阿里的大神一起搞的知识分享基地，旨在帮助大家由入门到精通spark，hbase，kafka大数据重要的框架，还有给入门小白指点入门方法，分享入门资料，对这种有经验的主要是解决问题，分享深层次的只是，比如最近浪尖在逐步分享源码视频教程。当然，目前团队成阅读全文

posted @ 2018-09-11 13:59 王凤霞阅读(193) 评论(0) 推荐(0)

Spark学习入门(让人看了想吐的话题)

摘要：这是个老生常谈的话题，大家是不是看到这个文章标题就快吐了，本来想着手写一些有技术深度的东西，但是看到太多童鞋卡在入门的门槛上，所以还是打算总结一下入门经验。这种标题真的真的在哪里都可以看得到，度娘一搜就是几火车皮，打开一看都是千篇一律的“workcount”、“quickstart”，但是这些对于初阅读全文

posted @ 2018-09-11 13:58 王凤霞阅读(181) 评论(0) 推荐(0)

Spark 下操作 HBase（1.0.0 新 API）

摘要： hbase1.0.0版本提供了一些让人激动的功能，并且，在不牺牲稳定性的前提下，引入了新的API。虽然 1.0.0 兼容旧版本的 API，不过还是应该尽早地来熟悉下新版API。并且了解下如何与当下正红的 Spark 结合，进行数据的写入与读取。鉴于国内外有关 HBase 1.0.0 新 API 的资阅读全文

posted @ 2018-09-11 13:56 王凤霞阅读(345) 评论(0) 推荐(0)

Spark on Yarn ｜ Spark，从入门到精通

摘要： ?/ 为什么需要 Yarn？ /? Yarn?的全称是?Yet Anther Resource Negotiator（另一种资源协商者）。它作为 Hadoop?的一个组件，官方对它的定义是一个工作调度和集群资源管理的框架。 Yarn?最早出现于?Hadoop 0.23?分支中，0.23?分支是一个实阅读全文

posted @ 2018-09-11 13:55 王凤霞阅读(381) 评论(0) 推荐(0)

Redis混合存储-冷热数据识别与交换

摘要： Redis混合存储产品是阿里云自主研发的完全兼容Redis协议和特性的混合存储产品。通过将部分冷数据存储到磁盘，在保证绝大部分访问性能不下降的基础上，大大降低了用户成本并突破了内存对Redis单实例数据量的限制。其中，对冷热数据的识别和交换是混合存储产品性能的关键因素。在Redis混合存储中，阅读全文

posted @ 2018-09-11 13:54 王凤霞阅读(2195) 评论(0) 推荐(0)

RDD转为Dataset如何指定schema？

摘要：与RDD进行互操作 Spark SQL支持两种不同方法将现有RDD转换为Datasets。第一种方法使用反射来推断包含特定类型对象的RDD的schema。这种基于反射的方法会导致更简洁的代码，并且在编写Spark应用程序时已经知道schema的情况下工作良好。第二种创建Datasets的方法是通过阅读全文

posted @ 2018-09-11 13:53 王凤霞阅读(621) 评论(0) 推荐(0)

MySQL索引优化分析

摘要：为什么你写的sql查询慢？为什么你建的索引常失效？通过本章内容，你将学会MySQL性能下降的原因，索引的简介，索引创建的原则，explain命令的使用，以及explain输出字段的意义。助你了解索引，分析索引，使用索引，从而写出更高性能的sql语句。还在等啥子？卷起袖子就是干！我们先简单了解一下非阅读全文

posted @ 2018-09-11 13:52 王凤霞阅读(2311) 评论(0) 推荐(0)

kafka的编程模型

摘要： 1.kafka消费者编程模型分区消费模型组(group)消费模型 1.1.1.分区消费架构图，每个分区对应一个消费者。 1.1.2.分区消费模型伪代码描述指定偏移量，用于从上次消费的地方开始消费. 提交offset ，java客户端会自动提交的集群，所以这一步可选。 1.2.1.组消费模型架构阅读全文

posted @ 2018-09-11 13:50 王凤霞阅读(344) 评论(0) 推荐(0)

kafka管理神器-kafkamanager

摘要：好久没发过kafka的文章了，今天整理一下kafka-manager神器。 java环境要求 jdk8 kafkamanager源码下载 https://github.com/yahoo/kafka-manager/releases 编译先修改sbt源，否则会报错，而且非常慢在～/.sbt目录下阅读全文

posted @ 2018-09-11 13:50 王凤霞阅读(22521) 评论(0) 推荐(0)

kafka源码系列之mysql数据增量同步到kafka

摘要：一，架构介绍生产中由于历史原因web后端，mysql集群，kafka集群(或者其它消息队列)会存在一下三种结构。 1，数据先入mysql集群，再入kafka 数据入mysql集群是不可更改的，如何再高效的将数据写入kafka呢？ A),在表中存在自增ID的字段，然后根据ID，定期扫描表，然后将数据阅读全文

posted @ 2018-09-11 13:49 王凤霞阅读(5121) 评论(0) 推荐(0)

Kafka源码系列之源码分析zookeeper在kafka的作用

摘要：浪尖的kafka源码系列以kafka0.8.2.2源码为例给大家进行讲解的。纯属个人爱好，希望大家对不足之处批评指正。一，zookeeper在分布式集群的作用 1，数据发布与订阅（配置中心）发布与订阅模型，即所谓的配置中心，顾名思义就是讲发布者将数据发布到zk节点上，共订阅者动态获取数据，实现配阅读全文

posted @ 2018-09-11 13:49 王凤霞阅读(957) 评论(0) 推荐(0)

kafka入门介绍

摘要：背景：当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息，在大数据时代，我们面临如下几个挑战：以上几个挑战形成了一个业务需求模型，即生产者生产（produce）各种信息，消费者消费（consume）（处理分析）这些信息，而在生产者与消费者之间，需要一个沟通两者的桥阅读全文

posted @ 2018-09-11 13:47 王凤霞阅读(179) 评论(0) 推荐(0)

Java高级特性——注解，这也许是最简单易懂的文章了

摘要：最近，浪尖在做flink的项目时source和sink的绑定那块用到了注解，当然新版本1.6以后就变为server load的方式加载。但是浪尖也是觉得很有毕业讲一下注解，毕竟高级免试也会问答的吧。抗倒这篇文章不错，转发一下。博主在初学注解的时候看到网上的介绍大部分都是直接介绍用法或者功能，没有阅读全文

posted @ 2018-09-11 13:47 王凤霞阅读(612) 评论(0) 推荐(0)

JAVA中序列化和反序列化中的静态成员问题

摘要：关于这个标题的内容是面试笔试中比较常见的考题，大家跟随我的博客一起来学习下这个过程。 ? ? JAVA中的序列化和反序列化主要用于：（1）将对象或者异常等写入文件，通过文件交互传输信息；（2）将对象或者异常等通过网络进行传输。 ? ? 那么为什么需要序列化和反序列化呢？简单来说，如果你只是自己同阅读全文

posted @ 2018-09-11 13:46 王凤霞阅读(289) 评论(0) 推荐(0)

Java中定义常量(Constant) 的几种方法

摘要：为了方便大家交流Spark大数据，浪尖建了微信群，目前人数过多，只能通过浪尖或者在群里的朋友拉入群。纯技术交流，偶有吹水，但是打广告，不提醒，直接踢出。有兴趣加浪尖微信。常量使用目的 1，为什么要将常亮提取出来？ 2，提取出来怎么定义，定义在interface中，还是class中？有什么区别？ 1 阅读全文

posted @ 2018-09-11 12:31 王凤霞阅读(8042) 评论(0) 推荐(0)

idea以yarn-client 提交任务到yarn

摘要：鉴于很多小白经常问我如何用idea提交任务到yarn，这样测试的时候不用频繁打包。昨天，晚上健身回来录了一个小视频，说是小视频但是耗时也比较长，将近40min。可能是健身脱水太多，忘了补充盐分，无力感十足。构建工程的命令：这样做的目的是，为我接下来分享spark streaming视频做铺垫，阅读全文

posted @ 2018-09-11 12:29 王凤霞阅读(1500) 评论(0) 推荐(0)

hive的join优化

摘要： “国际大学生节”又称“世界大学生节”、“世界学生日”、“国际学生日”。1946年，世界各国学生代表于布拉格召开全世界学生大会，宣布把每年的11月17日定为“世界大学生节”，以加强全世界大学生的团结和友谊。注意，本文讨论的hive join优化器是从hive 0.11.0版本起添加的，本文描述了H 阅读全文

posted @ 2018-09-11 12:27 王凤霞阅读(3529) 评论(0) 推荐(0)

Hive鲜为人知的宝石-Hooks

摘要：本来想祝大家节日快乐，哎，无奈浪尖还在写文章。谴责一下，那些今天不学习的人。对于今天入星球的人，今天调低了一点价格。减少了20大洋。机不可失失不再来。点击阅读原文或者扫底部二维码。 hive概述 Hive为Hadoop提供了一个SQL接口。 Hive可以被认为是一种编译器，它将SQL（严格来说，Hi 阅读全文

posted @ 2018-09-11 12:27 王凤霞阅读(2705) 评论(0) 推荐(0)

Hive性能优化（全面）

摘要： 1.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？面对这些问题，我们能有哪些有效的优化手段呢？下面列出一些在工作有效可行的优化手段：而接下来，我们心中应该会有一些疑问，影响性能的根源是什么？ 2.性能低下的根源 hive性能优化时，把HiveQL当做M/R程序来读，阅读全文

posted @ 2018-09-11 12:26 王凤霞阅读(347) 评论(0) 推荐(0)

Flink并行度

摘要：并行执行本节介绍如何在Flink中配置程序的并行执行。FLink程序由多个任务（转换/操作符、数据源和sinks）组成。任务被分成多个并行实例来执行，每个并行实例处理任务的输入数据的子集。任务的并行实例的数量称之为并行性。如果要使用保存点，还应该考虑设置最大并行性（或最大并行性）。当从保存点还原阅读全文

posted @ 2018-09-11 12:25 王凤霞阅读(4875) 评论(0) 推荐(0)

Flink：动态表上的连续查询

摘要：用SQL分析数据流越来越多的公司在采用流处理技术，并将现有的批处理应用程序迁移到流处理或者为新的应用设计流处理方案。其中许多应用程序专注于分析流数据。分析的数据流来源广泛，如数据库交易，点击，传感器测量或物联网设备。 Apache Flink非常适合流式分析，因为它提供了事件时间语义支持，恰一次的阅读全文

posted @ 2018-09-11 12:25 王凤霞阅读(1839) 评论(0) 推荐(0)

HBase从入门到精通系列：误删数据如何抢救？

摘要：云栖君导读：有时候我们操作数据库的时候不小心误删数据，这时候如何找回？mysql里有binlog可以帮助我们恢复数据，但是没有开binlog也没有备份就尴尬了。如果是HBase，你没有做备份误删了又如何恢复呢？数据保护当误删数据发生时候，不管三七二十一，第一要务是进入hbase shell，执行阅读全文

posted @ 2018-09-11 12:25 王凤霞阅读(527) 评论(0) 推荐(0)

flink和spark Streaming中的Back Pressure

摘要： Spark Streaming的back pressure 在讲flink的back pressure之前，我们先讲讲Spark Streaming的back pressure。Spark Streaming的back pressure出现的原因呢，我想大家应该都知道，是为了应对短期数据尖峰。Spa 阅读全文

posted @ 2018-09-11 12:24 王凤霞阅读(578) 评论(0) 推荐(0)

【转载】Emdedding向量技术在蘑菇街推荐场景的应用

摘要：花名：越祈部门：算法中心搜索策略组入职时间：2017/06/01 主要从事蘑菇街推荐算法相关研发工作蘑菇街是一家社会化导购电商平台，推荐一直是其非常重要的流量入口。在电商平台中，推荐的场景覆盖到用户浏览行为和交易的各个环节，如搜相似、商品详情页、购物车、订单和支付等。传统的itemCF、关联规阅读全文

posted @ 2018-09-11 12:22 王凤霞阅读(455) 评论(0) 推荐(0)

Flink与Spark Streaming在与kafka结合的区别！

摘要：本文主要是想聊聊flink与kafka结合。当然，单纯的介绍flink与kafka的结合呢，比较单调，也没有可对比性，所以的准备顺便帮大家简单回顾一下Spark Streaming与kafka的结合。看懂本文的前提是首先要熟悉kafka，然后了解spark Streaming的运行原理及与kafk 阅读全文

posted @ 2018-09-11 12:22 王凤霞阅读(5590) 评论(1) 推荐(0)

Apache Spark：来自Facebook的60 TB +生产用例

摘要：本文主要讲Facebook扩展spark替换hive的过程中积累的经验和教训。浪尖整理翻译https://databricks.com/blog/2016/08/31/apache-spark-scale-a-60-tb-production-use-case.html。实时实体排名在Faceb 阅读全文

posted @ 2018-09-11 12:21 王凤霞阅读(306) 评论(0) 推荐(0)

@程序员，技术债你还清了吗？

摘要： “我很想改进这种设计，但是我没有时间。” “我真的很想整理这些，但是这不属于这个任务的范围。” “我们现在没有时间重新思考这个模块的架构。” 这些话把每个开发人员的耳朵，都磨出茧自来了。更不像话的是，每个开发人员也整日把这些话挂在嘴边。更让人心有不甘的得失，很多时候这些都是应该做的事情。曾经我也阅读全文

posted @ 2018-09-11 12:20 王凤霞阅读(203) 评论(0) 推荐(0)

2，StructuredStreaming的事件时间和窗口操作

摘要：推荐阅读：1，StructuredStreaming简介使用Structured Streaming基于事件时间的滑动窗口的聚合操作是很简单的，很像分组聚合。在一个分组聚合操作中，聚合值被唯一保存在用户指定的列中。在基于窗口的聚合的情况下，对于行的事件时间的每个窗口，维护聚合值。如前面的例子，我阅读全文

posted @ 2018-09-11 12:19 王凤霞阅读(1124) 评论(0) 推荐(0)

3，Structured Streaming使用checkpoint进行故障恢复

摘要：使用checkpoint进行故障恢复如果发生故障或关机，可以恢复之前的查询的进度和状态，并从停止的地方继续执行。这是使用Checkpoint和预写日志完成的。您可以使用检查点位置配置查询，那么查询将将所有进度信息（即，每个触发器中处理的偏移范围）和运行聚合（例如，示例中的wordcount）保存到阅读全文

posted @ 2018-09-11 12:19 王凤霞阅读(687) 评论(0) 推荐(0)

27个机器学习的小抄你值得收藏

摘要：机器学习(Machine Learning)有很多方面，当我开始研究学习它时，我发现了各种各样的“小抄”，它们简明地列出了给定主题的关键知识点。最终，我汇集了超过 20 篇的机器学习相关的小抄，其中一些我经常会翻阅，而另一些我也获益匪浅。这篇文章里面包含了我在网上找到的 27 个小抄，如果你发现我有阅读全文

posted @ 2018-09-11 12:18 王凤霞阅读(188) 评论(0) 推荐(0)

数据结构与算法从零开始系列：冒泡排序、选择排序、插入排序、希尔排序、堆排序、快速排序、归并排序、基数排序

摘要：欢迎Star，本文的所有示例源码都在Github:https://github.com/AndroidHensen/Arithmetic 本篇内容包含排序的介绍排序的C的实现排序的Java的实现排序的时间复杂度的计算 1、基本思想：两个数比较大小，较大的数下沉，较小的数冒起来 2、实现步骤阅读全文

posted @ 2018-09-11 11:48 王凤霞阅读(229) 评论(0) 推荐(0)

使用H5搭建webapp主页面

摘要：使用H5搭建webapp主页面前言：在一个h5和微信小程序火热的时代，作为安卓程序员也得涉略一下h5了，不然就要落后了，据说在简历上可以加分哦，如果没有html和css和js基础的朋友，可以自行先学习一下，很简单的。推荐0基础能力一般的，我建议可以看传智播客的韩顺平老师的视频或者毕向东老师的视频阅读全文

posted @ 2018-09-11 11:47 王凤霞阅读(6028) 评论(0) 推荐(0)

SublimeText3和插件的安装

摘要： SublimeText3和插件的安装步骤一：进入官网下载SublimeText3（http://www.sublimetext.com/3），安装并打开SublimeText3 步骤二：进入SublimeText3包管理者的官网（https://packagecontrol.io/installa 阅读全文

posted @ 2018-09-11 11:46 王凤霞阅读(129) 评论(0) 推荐(0)

Mac下使用Hexo搭建个人博客

摘要： Hexo介绍利用原作者的一句话：A fast，simple&powerful blog framework，powered by Node.js Hexo是基于Node.js的博客平台，Hexo是生成静态的Html文件，部署到各个托管平台完成发布，其官网地址：https://hexo.io/zh- 阅读全文

posted @ 2018-09-11 11:46 王凤霞阅读(1358) 评论(0) 推荐(0)

Java基础——HashTable源码分析

摘要： HashTable跟HashMap一样，同样是链表散列的数据结构，从源码中我们可以看出，Hashtable 继承于Dictionary类，实现了Map, Cloneable,Serializable接口 Hashtable 一共提供了 4 个构造方法存储的流程如下：如果table[index]元阅读全文

posted @ 2018-09-11 11:44 王凤霞阅读(190) 评论(0) 推荐(0)

iOS基础——通过案例学知识之xib、plist、mvc

摘要：透过案例学习xib的使用、plist的使用、mvc在iOS的使用，今天要做的案例效果图 1、xib和nib xib文件可以被XCode编译成nib文件，xib文件本质上是一个xml文件，而nib文件就是编译后的二进制文件 2、xib和main.storyboard xib是轻量级的UI布局，main 阅读全文

posted @ 2018-09-11 11:34 王凤霞阅读(259) 评论(0) 推荐(0)

王凤霞

公告