上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 43 下一页
摘要: 今天学习了如何将Spark与Hadoop集成,使用HDFS作为数据存储。通过Hadoop的HDFS API,Spark可以直接读取和写入HDFS上的文件。 代码示例: python复制from pyspark import SparkContext sc = SparkContext("local" 阅读全文
posted @ 2025-02-06 23:57 混沌武士丞 阅读(18) 评论(0) 推荐(0)
摘要: 今天学习了Spark性能优化的方法,包括数据分区、缓存策略和广播变量。合理使用这些技术可以显著提升Spark作业的执行效率。 代码示例: python复制from pyspark import SparkContext sc = SparkContext("local", "Performance 阅读全文
posted @ 2025-02-05 22:28 混沌武士丞 阅读(9) 评论(0) 推荐(0)
摘要: 天学习了Spark GraphX,它是Spark中用于图计算的库。GraphX提供了图数据的抽象和操作,适用于社交网络、推荐系统等场景。 代码示例: python复制from pyspark import SparkContextfrom pyspark.sql import SparkSessio 阅读全文
posted @ 2025-02-04 23:56 混沌武士丞 阅读(13) 评论(0) 推荐(0)
摘要: 学习了Spark MLlib,它是Spark的机器学习库。今天尝试了简单的线性回归示例。 代码示例: python复制from pyspark.ml.regression import LinearRegressionfrom pyspark.sql import SparkSession spar 阅读全文
posted @ 2025-02-01 22:57 混沌武士丞 阅读(10) 评论(0) 推荐(0)
摘要: 学习了Spark Streaming,它是Spark中用于实时数据处理的模块。通过DStream(离散流)处理实时数据流。 代码示例: python复制from pyspark import SparkContextfrom pyspark.streaming import StreamingCon 阅读全文
posted @ 2025-01-28 23:34 混沌武士丞 阅读(9) 评论(0) 推荐(0)
摘要: 学习了DataFrame的常见操作,如选择列、过滤数据和分组聚合。 代码示例: python复制from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameOps").getOrCreate( 阅读全文
posted @ 2025-01-27 22:59 混沌武士丞 阅读(18) 评论(0) 推荐(0)
摘要: 今天学习了Spark SQL,它是Spark中用于结构化数据处理的模块。通过DataFrame API,可以更方便地处理结构化数据。 代码示例: python复制from pyspark.sql import SparkSession # 创建SparkSessionspark = SparkSes 阅读全文
posted @ 2025-01-20 23:19 混沌武士丞 阅读(3) 评论(0) 推荐(0)
摘要: 学习了键值对RDD的操作,如groupByKey、reduceByKey和sortByKey。键值对RDD是Spark中处理分组和聚合的常用数据结构。 代码示例: python复制from pyspark import SparkContext sc = SparkContext("local", 阅读全文
posted @ 2025-01-19 23:20 混沌武士丞 阅读(8) 评论(0) 推荐(0)
摘要: 学习了RDD的持久化机制。通过persist()或cache()方法,可以将RDD缓存到内存或磁盘中,避免重复计算。 代码示例: python复制from pyspark import SparkContext sc = SparkContext("local", "RDD Persistence" 阅读全文
posted @ 2025-01-18 23:55 混沌武士丞 阅读(5) 评论(0) 推荐(0)
摘要: 今天学习了RDD的创建方式和基本操作。RDD可以通过并行化集合或读取外部文件创建。常见的操作包括map、filter和reduce。 代码示例: python复制from pyspark import SparkContext sc = SparkContext("local", "RDD Oper 阅读全文
posted @ 2025-01-16 21:47 混沌武士丞 阅读(12) 评论(0) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 43 下一页