家有花猪 - 博客园

2025年2月13日

摘要：在 Linux 中卸载磁盘（通常指卸载文件系统）是一个常见的操作，尤其是在需要安全移除外部存储设备（如 USB 驱动器、硬盘等）时。以下是卸载磁盘的详细步骤和注意事项： 1. 查看已挂载的磁盘在卸载磁盘之前，首先需要确认磁盘的挂载点。可以使用以下命令查看已挂载的文件系统： df -h 或 lsbl 阅读全文

posted @ 2025-02-13 15:12 家有花猪阅读(1660) 评论(0) 推荐(0)

2024年4月30日

记录springboot项目多module(java/scala)打包代码

摘要： java项目不太熟，之前一直使用的idea中的打包方式：Build Artifacts...，现在使用maven打包，一直报下面的common等依赖包找不到，花了很多时间，在此记录下解决过程。解决办法是先将依赖包deploy到远程仓库，然后在打包的时候先install，再package，就可以打包阅读全文

posted @ 2024-04-30 13:35 家有花猪阅读(201) 评论(0) 推荐(0)

java项目日志配置文件

摘要： logback  <property name="log.path" value="logs"/>  <!-- 2. 阅读全文

posted @ 2024-04-30 10:40 家有花猪阅读(216) 评论(0) 推荐(0)

2023年12月13日

[spark] coalesce() 和 repartition()的区别

摘要： coalesce(1) 的主要作用是将数据合并到尽可能少的分区中，而 repartition(1) 则是将数据随机重分区为一个分区。这使得 coalesce(1) 相对而言更加高效，因为它减少了数据移动的次数，只需要在当前 Executor 上将所有分区的数据都收集到当前应用程序的单个 Execut 阅读全文

posted @ 2023-12-13 10:03 家有花猪阅读(411) 评论(0) 推荐(0)

2023年8月23日

[hbase] scan命令查看前几行

摘要： ``` scan '数据库名:表名', {'LIMIT' => 10，REVERSED=>true} ``` 阅读全文

posted @ 2023-08-23 10:52 家有花猪阅读(37) 评论(0) 推荐(0)

2023年6月15日

[pandas] 判断某一列是否单调递增

摘要：主要逻辑：在需要判断递增的列通过计算下一行减上一行，如果>0则递增，如果<0则非递增例子： ``` python import pandas as pd pd.set_option('display.max_columns', None) # 列全部显示 pd.set_option('displa 阅读全文

posted @ 2023-06-15 16:13 家有花猪阅读(317) 评论(0) 推荐(0)

2023年6月13日

[pandas] 两个相同列的df求差集

摘要： ###求在df1不在df2的数据使用Pandas中的drop_duplicates()和merge()方法来计算两个相同列的DataFrame的差异。例子： ``` python import pandas as pd # 创建两个相同列的DataFrame df1 = pd.DataFrame 阅读全文

posted @ 2023-06-13 16:29 家有花猪阅读(578) 评论(0) 推荐(0)

2023年6月1日

[spark] 常用参数和默认配置

摘要： ##常用的Spark任务参数及其作用： 1. `spark.driver.memory`：设置driver进程使用的内存大小，默认为1g。 2. `spark.executor.memory`：设置每个executor进程使用的内存大小，默认为1g。 3. `spark.executor.cores 阅读全文

posted @ 2023-06-01 13:26 家有花猪阅读(799) 评论(0) 推荐(0)

2023年5月19日

distcp任务超时(Time out after 300 secs)的原因及优化方案

摘要： distcp使用MapReduce执行数据复制操作时也可能会出现超时的情况，其可能的原因与普通MapReduce任务相似，包括以下几点：数据量过大：如果您的复制任务的数据量非常大，MapReduce任务可能需要更多时间来处理，从而导致超时。硬件不足：如果您的硬件资源不足以支持MapReduce任阅读全文

posted @ 2023-05-19 10:24 家有花猪阅读(489) 评论(0) 推荐(0)

2023年5月17日

hadoop中distcp的mapreduce任务中的task0详解及优化

摘要：一、task0详解 distcp 是 Hadoop 中一个用于数据复制的工具，可用于大规模数据复制场景。在 distcp 执行过程中，会运行多个 MapReduce 任务，其中第一个任务通常被称为 "task0" 或 "main task"。 task0 主要负责以下操作： 1. 解析命令行参数并生阅读全文

posted @ 2023-05-17 10:16 家有花猪阅读(378) 评论(0) 推荐(0)

afra17

公告