1.28

学习了Spark Streaming,它是Spark中用于实时数据处理的模块。通过DStream(离散流)处理实时数据流。

代码示例:

python
复制
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc = SparkContext("local[2]", "StreamingApp")
ssc = StreamingContext(sc, 1) # 1秒的批处理间隔

# 创建DStream
lines = ssc.socketTextStream("localhost", 9999)

# 处理数据
words = lines.flatMap(lambda line: line.split(" "))
word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)

# 打印结果
word_counts.pprint()

ssc.start()
ssc.awaitTermination()
运行方式:

启动Netcat服务器:nc -lk 9999

运行Spark Streaming程序,输入数据到Netcat。

posted @ 2025-01-28 23:34  混沌武士丞  阅读(9)  评论(0)    收藏  举报