随笔分类 -  hadoop

hadoop大数据
摘要:mysql数据库表上百万记录优化思路杂谈 我的mysql数据库表上百万记录,插入数据的时候超慢,插入一笔都差不多将近1秒钟了 有没有做索引?数据量大了一般要做分区分表处理的,实时性要求高的一般要做缓存或者数据总线分层处理的 你用的是不是ssd硬盘?ssd硬盘比机械硬盘快很多倍。 数据库光靠调参数,以经提升到最快0.007秒多一笔插入的速度了 看来还是大数据技术比较重要 调整了那些参数提升这么多? 调了很多参数,mysql、springboot、shardingsphere、druid 可能需要评估一下如何加入Hadoop来进行存储及处理区块链的数据 阅读全文
posted @ 2020-03-29 01:00 大自然的流风 阅读(1599) 评论(0) 推荐(0) 编辑
摘要:中国爬虫违法违规案例汇总github项目介绍 GitHub - 本项目用来整理所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规。致力于帮助在中国大陆工作的爬虫行业从业者了解我国相关法律,避免触碰数据合规红线。 阅读全文
posted @ 2019-12-18 16:25 大自然的流风 阅读(1303) 评论(0) 推荐(0) 编辑
摘要:B轮公司技术问题列表 1、异构系统的接口对接 2、服务接口的监控,状态的追踪 3、外网数据安全 4、分布式事务的处理 5、数据库优化策略 。。。。。。 阅读全文
posted @ 2017-07-11 14:52 大自然的流风 阅读(428) 评论(0) 推荐(0) 编辑
摘要:大数据在彩票预测和解决社会问题的用处,所谓的:维度的诅咒(the Curse of Dimensions)这也体现了“大”数据的必要性。如果你的数据量不够大,千万不要贸然声称自己发现了什么隐藏的规律。大数据,不是万能的。但是人很容易为数据痴迷。 目前流行的深度学习算法也是通过输入大量数据进行训练才使得算法得出的结果越来越准确。 所以说彩票预测算法是核心,大数据是保证,通过大数据分析可以发现一些反直觉的结论,让投注的时候能够更加理性,更加不会盲目相信小部分历史数据得出的概率。 阅读全文
posted @ 2017-06-18 16:14 大自然的流风 阅读(7970) 评论(0) 推荐(0) 编辑
摘要:数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch 1.lucene (solr, elasticsearch 都是基于它) 2.sphinx 3.elasticsearch 简单易用。天生分布式。 4.HBasene(注意HBase后面加了ne就是 HBase+lucene)。 solr的请求基本都封装为了http,如果是http服务效率不好呢绕过它,直接透过lucene的API进行查询。 但是solr云的方式部署进行了负载均衡,效率不会太差。 应用查询条件最多20个左右,10个solr节点,每个节点的数据1亿左右。 但是索引不是写在本地磁盘,是写在hdfs上的。 阅读全文
posted @ 2017-01-16 16:28 大自然的流风 阅读(7915) 评论(0) 推荐(0) 编辑
摘要:大数据原始数据从那些途径获取?200个国内外经济金融行研咨询数据网站大全 大数据资料搜集是个相当繁琐与累的工作,也是投资入门的基本,良好的信息资料搜集能力有利于我们快速了解投资主体的基本情况,为后续的调研及一手资料的获得打下较好的基础。 (一)搜索引擎(重点掌握) 搜索引擎是我们信息资料搜集的最重要的渠道之一,用搜索引擎查找信息资料需要使用恰当的关键词和一些搜索技巧。目前国内主要的搜集引擎有如下10个,近期还有较多行业型搜索冒出来,需找专业型行业资料可以使用行业型搜索引擎。 阅读全文
posted @ 2016-12-08 16:59 大自然的流风 阅读(7548) 评论(0) 推荐(0) 编辑
摘要:VMware中安装CentOS7网络配置静态IP地址,常用配置和工具安装 安装完用ifconfig查看本机的ip地址(局域网已经有DHCP),提示ifconfig命令没找到。 原因是:centos7 已经用ip命令代替ifconfig命令了。 配置好网络可以访问外网时用yum install net-tools安装net-tools组件,将ifconfig命令找回来。 关闭防火墙:chkconfig iptables off 关闭selinux服务:vi /etc/selinux/config 安装rz和sz(上传下载)命令: yum install lrzsz 阅读全文
posted @ 2016-10-21 03:31 大自然的流风 阅读(7352) 评论(0) 推荐(0) 编辑
摘要:hadoop之Spark强有力竞争者Flink,Spark与Flink:对比与分析 Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行操作。而Flink是可扩展的批处理和流式数据处理的数据处理平台。spark是伪实时的分片技术,只能按每秒分片技术,不能每条数据都实时技术,flink和storm可以,Spark社区活跃度比Flink高很多。 阅读全文
posted @ 2016-10-17 11:10 大自然的流风 阅读(31998) 评论(0) 推荐(1) 编辑
摘要:hadoop概述测试题和基础模版代码 阅读全文
posted @ 2016-10-16 18:52 大自然的流风 阅读(1531) 评论(0) 推荐(0) 编辑
摘要:Hadoop3.0新特性介绍,比Spark快10倍的Hadoop3.0新特性 Apache hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+磁盘,共同处理数据。 其实最大改变的是hdfs,hdfs 通过最近black块计算,根据最近计算原则,本地black块,加入到内存,先计算,通过IO,共享内存计算区域,最后快速形成计算结果。 阅读全文
posted @ 2016-10-16 00:44 大自然的流风 阅读(29392) 评论(0) 推荐(0) 编辑
摘要:Hadoop三种安装模式:单机模式,伪分布式,真正分布式 一 单机模式standalone 单 机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有 3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何 Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。 阅读全文
posted @ 2016-10-16 00:36 大自然的流风 阅读(1693) 评论(0) 推荐(0) 编辑