摘要: 在 Linux 中卸载磁盘(通常指卸载文件系统)是一个常见的操作,尤其是在需要安全移除外部存储设备(如 USB 驱动器、硬盘等)时。以下是卸载磁盘的详细步骤和注意事项: 1. 查看已挂载的磁盘 在卸载磁盘之前,首先需要确认磁盘的挂载点。可以使用以下命令查看已挂载的文件系统: df -h 或 lsbl 阅读全文
posted @ 2025-02-13 15:12 家有花猪 阅读(1356) 评论(0) 推荐(0)
摘要: java项目不太熟,之前一直使用的idea中的打包方式:Build Artifacts...,现在使用maven打包,一直报下面的common等依赖包找不到,花了很多时间,在此记录下解决过程。 解决办法是先将依赖包deploy到远程仓库,然后在打包的时候先install,再package,就可以打包 阅读全文
posted @ 2024-04-30 13:35 家有花猪 阅读(187) 评论(0) 推荐(0)
摘要: logback <!-- name的值是变量的名称,value的值时变量定义的值。通过定义的值会被插入到logger上下文中。定义后,可以使“${}”来使用变量。 --> <property name="log.path" value="logs"/> <!--2. 输出到文档--> <!-- 2. 阅读全文
posted @ 2024-04-30 10:40 家有花猪 阅读(197) 评论(0) 推荐(0)
摘要: coalesce(1) 的主要作用是将数据合并到尽可能少的分区中,而 repartition(1) 则是将数据随机重分区为一个分区。这使得 coalesce(1) 相对而言更加高效,因为它减少了数据移动的次数,只需要在当前 Executor 上将所有分区的数据都收集到当前应用程序的单个 Execut 阅读全文
posted @ 2023-12-13 10:03 家有花猪 阅读(389) 评论(0) 推荐(0)
摘要: ​``` scan '数据库名:表名', {'LIMIT' => 10,REVERSED=>true} ​``` 阅读全文
posted @ 2023-08-23 10:52 家有花猪 阅读(34) 评论(0) 推荐(0)
摘要: 主要逻辑:在需要判断递增的列通过计算下一行减上一行,如果>0则递增,如果<0则非递增 例子: ``` python import pandas as pd pd.set_option('display.max_columns', None) # 列全部显示 pd.set_option('displa 阅读全文
posted @ 2023-06-15 16:13 家有花猪 阅读(296) 评论(0) 推荐(0)
摘要: ###求在df1不在df2的数据 使用Pandas中的drop_duplicates()和merge()方法来计算两个相同列的DataFrame的差异。 例子: ``` python import pandas as pd # 创建两个相同列的DataFrame df1 = pd.DataFrame 阅读全文
posted @ 2023-06-13 16:29 家有花猪 阅读(550) 评论(0) 推荐(0)
摘要: ##常用的Spark任务参数及其作用: 1. `spark.driver.memory`:设置driver进程使用的内存大小,默认为1g。 2. `spark.executor.memory`:设置每个executor进程使用的内存大小,默认为1g。 3. `spark.executor.cores 阅读全文
posted @ 2023-06-01 13:26 家有花猪 阅读(755) 评论(0) 推荐(0)
摘要: distcp使用MapReduce执行数据复制操作时也可能会出现超时的情况,其可能的原因与普通MapReduce任务相似,包括以下几点: 数据量过大:如果您的复制任务的数据量非常大,MapReduce任务可能需要更多时间来处理,从而导致超时。 硬件不足:如果您的硬件资源不足以支持MapReduce任 阅读全文
posted @ 2023-05-19 10:24 家有花猪 阅读(449) 评论(0) 推荐(0)
摘要: 一、task0详解 distcp 是 Hadoop 中一个用于数据复制的工具,可用于大规模数据复制场景。在 distcp 执行过程中,会运行多个 MapReduce 任务,其中第一个任务通常被称为 "task0" 或 "main task"。 task0 主要负责以下操作: 1. 解析命令行参数并生 阅读全文
posted @ 2023-05-17 10:16 家有花猪 阅读(361) 评论(0) 推荐(0)