• news_banner

serviziu

Meccanisimu di pulizia di dati Spark Streaming
(I) DStream è RDD
Comu sapemu, u calculu Spark Streaming hè basatu annantu à Spark Core, è u core di Spark Core hè RDD, cusì Spark Streaming deve esse ligatu ancu à RDD.Tuttavia, Spark Streaming ùn permette micca à l'utilizatori di utilizà RDD direttamente, ma astratti un inseme di cuncetti DStream, DStream è RDD sò relazioni inclusive, pudete capiscenu cum'è u mudellu di decorazione in Java, vale à dì, DStream hè un rinfurzà di RDD, ma u cumpurtamentu hè simile à RDD.
DStream è RDD anu parechje cundizioni.
(1) avè azzioni di trasfurmazioni simili, cum'è map, reduceByKey, etc., ma ancu qualchì unicu, cum'è Window, mapWithStated, etc.
(2) tutti hannu azzione Action, comu foreachRDD, count, etc.
U mudellu di prugrammazione hè coherente.
(B) Introduzione di DStream in Spark Streaming
DStream cuntene parechje classi.
(1) Classi di fonti di dati, cum'è InputDStream, specifichi cum'è DirectKafkaInputStream, etc.
(2) Classi di cunversione, tipicamente MappedDStream, ShuffledDStream
(3) classi di output, tipicamente cum'è ForEachDStream
Da quì sopra, i dati da u principiu (input) à a fine (output) sò fatti da u sistema DStream, chì significa chì l'utilizatore normalment ùn pò micca generà direttamente è manipule RDD, chì significa chì u DStream hà l'uppurtunità è l'obbligazione di esse. rispunsevuli di u ciclu di vita di RDD.
In altre parolle, Spark Streaming hà unpulizia automaticafunzione.
(iii) U prucessu di generazione RDD in Spark Streaming
U flussu di vita di RDD in Spark Streaming hè aspra cum'è seguita.
(1) In InputDStream, i dati ricevuti sò trasfurmati in RDD, cum'è DirectKafkaInputStream, chì genera KafkaRDD.
(2) dopu attraversu MappedDStream è altre cunversione di dati, sta volta hè direttamente chjamatu RDD chì currisponde à u metudu di mappa per a cunversione
(3) In l'operazione di classa di output, solu quandu u RDD hè espostu, pudete lascià l'utilizatori à fà l'almacenamiento currispondente, altri calculi è altre operazioni.