随笔分类 - 数据治理
摘要:问题描述: 运行 python \xxx\datax.py \xxx\job.json控制台汉字显示乱码。 原因分析: window操作系统默认编码格式是gbk(963)编码,而在程序开发中我们统一的编码是 UTF-8。这样导致编码不一致,中文乱码! 解决方案: 临时更改: 命令:chcp (更改该
阅读全文
摘要:一.问题背景 采用OGG进行数据实时同步时,发现同步的文件通过外部表不可读,cat一下某天的HDFS文件内容的时候报Cannot obtain block length for LocatedBlock异常 二.解决过程 1.既然是hdfs文件出问题,用fsck检查一下吧 hdfs fsck / 当
阅读全文
摘要:https://www.cnblogs.com/benchen/p/5852963.html 从数据使用者的角度定义,高质量的数据应该是能充分满足用户使用要求的数据。 1:及时性:数据获取是否及时,主要指数据提取、传送、转换、加载、展现的及时性。在数据处理的各个环节,都会涉及到及时性。我们一般考虑两
阅读全文
摘要:利用XMLHTTP检测URL及探测服务器信息 检测
阅读全文