• banner_di_nutizie

Serviziu

Meccanismu di pulizia di dati Spark Streaming
(I) DStream è RDD
Cum'è sapemu, u calculu di Spark Streaming hè basatu annantu à Spark Core, è u core di Spark Core hè RDD, dunque Spark Streaming deve esse ancu ligatu à RDD. Tuttavia, Spark Streaming ùn permette micca à l'utilizatori di utilizà RDD direttamente, ma astrae un inseme di cuncetti DStream, DStream è RDD sò relazioni inclusive, pudete capisce cum'è u mudellu di decorazione in Java, vale à dì, DStream hè un miglioramentu di RDD, ma u cumpurtamentu hè simile à RDD.
DStream è RDD anu tramindui parechje cundizioni.
(1) anu azzioni di trasfurmazione simili, cum'è map, reduceByKey, ecc., ma ancu alcune uniche, cum'è Window, mapWithStated, ecc.
(2) tutti anu azzioni d'azione, cum'è foreachRDD, count, ecc.
U mudellu di prugrammazione hè coerente.
(B) Introduzione di DStream in Spark Streaming
DStream cuntene parechje classi.
(1) Classi di fonte di dati, cum'è InputDStream, specifiche cum'è DirectKafkaInputStream, ecc.
(2) Classi di cunversione, tipicamente MappedDStream, ShuffledDStream
(3) classi di output, tipicamente cum'è ForEachDStream
Da ciò chì hè statu dettu sopra, i dati da u principiu (input) à a fine (output) sò fatti da u sistema DStream, ciò chì significa chì l'utilizatore nurmalmente ùn pò micca generà è manipulà direttamente i RDD, ciò chì significa chì u DStream hà l'uppurtunità è l'obbligazione di esse rispunsevule di u ciclu di vita di i RDD.
In altre parolle, Spark Streaming hà unpulizia automaticafunzione.
(iii) U prucessu di generazione RDD in Spark Streaming
U flussu di vita di i RDD in Spark Streaming hè apprussimativu cum'è seguita.
(1) In InputDStream, i dati ricevuti sò trasformati in RDD, cum'è DirectKafkaInputStream, chì genera KafkaRDD.
(2) tandu per via di MappedDStream è altre cunversioni di dati, sta volta hè chjamata direttamente RDD currispondente à u metudu di mappa per a cunversione
(3) In l'operazione di a classa di output, solu quandu l'RDD hè espostu, pudete permette à l'utente di fà u almacenamentu currispundente, altri calculi è altre operazioni.