总结 - 一笑之奈何

总结

工具
nexus
jira jenkins mirror

统计和特征提取和建模
关系分析画像分析轨迹分析
时空关系计算
数据挖掘算法
数据可视化Echarts等（数据可视化案例palantir）
预统计

其他意见：
1.流程
入职流程、新人培养计划
培训
工作计划

开发/代码规范
版本维护/版本管理/发布管理
## NEW FEATURES ### BUG FIXS ### OPTIMIZATIONS 升级

不同产品接口人
产品发布管理
机器管理

功能和需求：
大数据服务异常断电恢复
大数据集群UPS
HBase启动check和recover
大数据日志集中管理，滚动，定期清理
大数据安全（认证、基于角色授权、加密;Kerberos）
大数据运维（安装部署、配置、监控、异常恢复、健康检查、日志管理、可视化操作、数据备份、告警）
大数据接口（REST/WS/JDBC）
数据迁移（ETL）
数据统计/预统计
大数据统一资源管理（资源弹性调度和隔离，动态回收，任务挂起）
任务队列/任务优先级/资源抢占

内部刊物（知识产权、竞争）

技术
适当的减少ES和Executor的内存也可以达到不错的效果，但是在核数降低时，对索引建立的速度影响较大
在索引的建立过程中，也要注意索引的总shard数量，不能够分配太多的shard数从而影响到建立索引的速度。这里给出的建议是每个索引的shard最少不少于3个，
最多不要超过20个。每个shard的大小最好控制在1-10G的范围内为最佳，根据shard数的大小来决定数据到底分配多少个索引。

计算慢
Spark增量加载占核太多
HBase Region太大
Spark长的计算链做checkpoint
数据循环覆盖
ES/Solr深度分页优化

采集水平扩张，增加并发

集群大时，硬盘损坏问题；磁盘写满问题；集群网络问题
HBase坏块检查和修复

Kafka NotLeaderForPartition
原因：可能是Producer连接了follower而不是Leader尝试写数据，follower拒绝了请求。
解决：restarting the brokers?
Kafka hostname大小写问题

基于表达式引擎实现可配置的Rowkey生成
Groovy
maven-assembly-plugin打包

单元测试
powermock-module-junit4 powermock-api-mockito powermock-module-junit4-rule-agent
HBase单元测试
本地启动一个HBase的mini集群
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-testing-util</artifactId>
<version>1.2.0-cdh5.7.0</version>

Keepalived启停
启动命令/usr/local/keepalived/sbin/keepalived -D -d -S 0

查看进程ps -ef|grep keepalived

停止Pkill -9 keepalived

验证同网段是否有相同virtual_router_id的集群
tcpdump -nn -i any net 224.0.0.0/8

修改日志输出路径：
Keepalived默认所有的日志都是写入到/var/log/message下，由于message的日志太多了，而Keepalived的日志又很难分离出来，需要调整Keepalived日志输出路径。
修改/etc/sysconfig/keepalived：

vim /etc/sysconfig/keepalived
把KEEPALIVED_OPTIONS="-D" 修改为KEEPALIVED_OPTIONS="-D -d -S 0"
KEEPALIVED_OPTIONS="-D -d -S 0"

设置rsyslog，修改/etc/rsyslog.conf:
在vim /etc/rsyslog.conf里添加:

# keepalived -S 0
local0.* /var/log/keepalived.log

重新启动keepalived和rsyslog服务：
service rsyslog restart
service keepalived restart

查看keepalived日志
在/var/log/keepalived.log里查看log

Spark
spark.cleaner.referenceTracking.cleanCheckpoints=true

h属性应用

1.结构化信息描述
2.以图搜图
3.广告投放
4.个人视频智能应用

h属性提取用了深度学习的卷积神经网络（CNN）

算法考虑
性能、耗时、内存、训练时间

主流网络结构
LeNet AlexNet/CaffeNet GoogleNet VGG/VGGMX DeepResudialNet

属性太多时，不可能一个属性一个网络，大量耗时的工作放在共享卷积层，一个网络处理多个属性。人体属性采用多标签能获得较好性能

大数据
Kafka性能：1k每条数据，从进Kafka到可以消费，平均耗时5ms,最大不超过10ms

公司
新员工 -- 新员工培养计划
综合知识竞赛 --（提升管理要求认知）

Shell:
结束进程
val proInfo: Array[String] = Array("/bin/sh", "-c", "/usr/sbin/lsof -i:" + 8080 + "|grep -v COMMAND | awk '{print $2}' | xargs kill -9")
Runtime.getRuntime.exec(proInfo)

学习URL:
http://www.runoob.com/scala/scala-break-statement.html
阿里云栖社区
https://yq.aliyun.com/articles/

posted on 2017-06-16 11:10 一笑之奈何阅读(193) 评论(0) 收藏举报

刷新页面返回顶部

一笑之奈何

总结

导航

公告