1.28
学习了Spark Streaming,它是Spark中用于实时数据处理的模块。通过DStream(离散流)处理实时数据流。
代码示例:
python
复制
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
sc = SparkContext("local[2]", "StreamingApp")
ssc = StreamingContext(sc, 1) # 1秒的批处理间隔
# 创建DStream
lines = ssc.socketTextStream("localhost", 9999)
# 处理数据
words = lines.flatMap(lambda line: line.split(" "))
word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)
# 打印结果
word_counts.pprint()
ssc.start()
ssc.awaitTermination()
运行方式:
启动Netcat服务器:nc -lk 9999
运行Spark Streaming程序,输入数据到Netcat。