ZhangZhihui's Blog  
上一页 1 2 3 4 5 6 7 8 ··· 102 下一页

2025年9月2日

摘要: $ git push -u origin main remote: Invalid username or token. Password authentication is not supported for Git operations. GitHub no longer supports us 阅读全文
posted @ 2025-09-02 20:50 ZhangZhihuiAAA 阅读(198) 评论(0) 推荐(0)
 
摘要: Let’s compare applymap(), apply(), and map() side by side with code and output, so you see clearly when to use each. Setup import pandas as pd df = pd 阅读全文
posted @ 2025-09-02 17:27 ZhangZhihuiAAA 阅读(15) 评论(0) 推荐(0)
 
摘要: 所谓的 数据质量检核,主要是对数据在同步或计算过程中进行 校验与监控,保证结果数据的 完整性、准确性和一致性。它的作用大致可以分成以下几个方面: 1. 字段级别检查 检查字段是否符合预期的数据类型(例如,日期字段是否都是合法日期)。 校验字段的取值范围、格式(如手机号长度、邮件正则)。 确认主键、唯 阅读全文
posted @ 2025-09-02 15:50 ZhangZhihuiAAA 阅读(15) 评论(0) 推荐(0)

2025年8月31日

摘要: The Faker package in Python is a third-party library for generating fake (but realistic-looking) test data. It’s very useful when you need to populate 阅读全文
posted @ 2025-08-31 14:56 ZhangZhihuiAAA 阅读(10) 评论(0) 推荐(0)
 
摘要: import os import datetime import globimport xlwings as xw class ExcelMerger: def __init__(self, input_dir, output_file): self.input_dir = input_dir se 阅读全文
posted @ 2025-08-31 13:21 ZhangZhihuiAAA 阅读(8) 评论(0) 推荐(0)

2025年8月29日

摘要: 金山云数据湖里提供了 DataX数据同步 和 Spark数据同步 两种方式,它们主要差别在以下几个方面: 1. 执行引擎 DataX数据同步 基于阿里开源的 DataX 工具。 本质上是单机/多进程方式执行,数据同步过程主要由 DataX 的 Reader(读插件)和 Writer(写插件)驱动。 阅读全文
posted @ 2025-08-29 10:45 ZhangZhihuiAAA 阅读(7) 评论(0) 推荐(0)

2025年8月28日

摘要: 在 DataX 中,针对数据库类的数据源,常见有两种同步模式: JDBC 模式 和 LOAD 模式。两者的区别主要体现在 实现方式、性能和适用场景 上: 1. JDBC 模式 原理:通过标准的 JDBC 驱动,使用 SQL 查询 (SELECT ...) 读取源库数据,再用 INSERT ... / 阅读全文
posted @ 2025-08-28 17:21 ZhangZhihuiAAA 阅读(11) 评论(0) 推荐(0)

2025年8月27日

摘要: In Hive SQL, to convert a string into a DATE type, you use the TO_DATE or CAST/DATE functions depending on the exact format of the string. ✅ Common Me 阅读全文
posted @ 2025-08-27 09:32 ZhangZhihuiAAA 阅读(7) 评论(0) 推荐(0)

2025年8月26日

摘要: regexp_replace(zczb,'([^\\u4E00-\\u9FA5]+)','')*10000 1️⃣ regexp_replace function Syntax: regexp_replace(string, pattern, replacement) string: The inp 阅读全文
posted @ 2025-08-26 18:11 ZhangZhihuiAAA 阅读(4) 评论(0) 推荐(0)
 
摘要: In Notepad++, the NBSP stands for Non-Breaking Space, which is a special whitespace character. Unicode code point: U+00A0 HTML entity:   Unlike a 阅读全文
posted @ 2025-08-26 08:25 ZhangZhihuiAAA 阅读(13) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 102 下一页