የስፓርክ ዥረት ውሂብ ማጽጃ ዘዴ
(I) DStream እና RDD
እንደምናውቀው የስፓርክ ዥረት ስሌት በስፓርክ ኮር ላይ የተመሰረተ ነው፣ እና የስፓርክ ኮር ዋና አርዲዲ ነው፣ ስለዚህ ስፓርክ ዥረት ከ RDD ጋር መያያዝ አለበት።ሆኖም ስፓርክ ዥረት ተጠቃሚዎች RDDን በቀጥታ እንዲጠቀሙ አይፈቅድም ፣ ግን የDStream ጽንሰ-ሀሳቦችን ስብስብ ያብራራል ፣ DStream እና RDD ሁሉን አቀፍ ግንኙነቶች ናቸው ፣ በጃቫ ውስጥ እንደ ማስጌጥ ንድፍ ሊረዱት ይችላሉ ፣ ማለትም ፣ DStream የ RDD ማሻሻያ ነው ፣ ግን ባህሪው ከ RDD ጋር ተመሳሳይ ነው.
DStream እና RDD ሁለቱም በርካታ ሁኔታዎች አሏቸው።
(1) እንደ ካርታ፣ reduceByKey፣ ወዘተ ያሉ ተመሳሳይ የትራንስፎርሜሽን ድርጊቶች አሏቸው፣ ነገር ግን እንደ መስኮት፣ ካርታ ዊዝ ስቴትድ፣ ወዘተ የመሳሰሉ ልዩ የሆኑ።
(2) ሁሉም እንደ foreachRDD፣ ቆጠራ፣ ወዘተ ያሉ የድርጊት እርምጃዎች አሏቸው።
የፕሮግራም አወጣጥ ሞዴል ወጥነት ያለው ነው.
(ለ) በስፓርክ ዥረት ውስጥ የDStream መግቢያ
DStream በርካታ ክፍሎችን ይዟል።
(1) የውሂብ ምንጭ ክፍሎች፣ እንደ InputDStream፣ የተወሰኑ እንደ DirectKafkaInputStream፣ ወዘተ።
(2) የልወጣ ክፍሎች፣ በተለይም MappedDStream፣ ShuffledDStream
(3) የውጤት ክፍሎች፣ በተለይም እንደ ForEachDStream
ከላይ ከተጠቀሰው ጀምሮ ከመጀመሪያው (ግቤት) እስከ መጨረሻው (ውጤት) ያለው መረጃ የሚከናወነው በ DStream ስርዓት ነው, ይህም ማለት ተጠቃሚው በመደበኛነት RDDs በቀጥታ ማመንጨት እና ማቀናበር አይችልም, ይህም ማለት DStream የመሆን እድል እና ግዴታ አለው ማለት ነው. ለ RDDs የሕይወት ዑደት ተጠያቂ።
በሌላ አነጋገር፣ ስፓርክ ዥረት አለው።አውቶማቲክ ማጽዳትተግባር.
(iii) በስፓርክ ዥረት ውስጥ የ RDD ማመንጨት ሂደት
በስፓርክ ዥረት ውስጥ ያለው የRDDs የሕይወት ፍሰት እንደሚከተለው ሻካራ ነው።
(1) InputDStream ውስጥ፣ የተቀበለው ውሂብ እንደ DirectKafkaInputStream KafkaRDD የሚያመነጨው ወደ RDD ይቀየራል።
(2) ከዚያም በ MappedDStream እና በሌሎች የውሂብ ልወጣ በኩል ይህ ጊዜ በቀጥታ ከካርታው ዘዴ ጋር የሚዛመድ RDD ይባላል።
(3) በውጤት ክፍል ውስጥ, RDD ሲጋለጥ ብቻ, ተጠቃሚው ተጓዳኝ ማከማቻውን, ሌሎች ስሌቶችን እና ሌሎች ስራዎችን እንዲያከናውን መፍቀድ ይችላሉ.