స్పార్క్ స్ట్రీమింగ్ డేటా క్లీనింగ్ మెకానిజం
(I) DStream మరియు RDD
మనకు తెలిసినట్లుగా, స్పార్క్ స్ట్రీమింగ్ గణన స్పార్క్ కోర్పై ఆధారపడి ఉంటుంది మరియు స్పార్క్ కోర్ యొక్క కోర్ RDD, కాబట్టి స్పార్క్ స్ట్రీమింగ్ తప్పనిసరిగా RDDకి సంబంధించి ఉండాలి.అయినప్పటికీ, స్పార్క్ స్ట్రీమింగ్ వినియోగదారులను నేరుగా RDDని ఉపయోగించడానికి అనుమతించదు, కానీ DStream భావనల సమితి, DStream మరియు RDD లు కలుపుకొని ఉన్న సంబంధాలు, మీరు దానిని జావాలో అలంకరణ నమూనాగా అర్థం చేసుకోవచ్చు, అంటే, DStream అనేది RDD యొక్క మెరుగుదల, కానీ ప్రవర్తన RDDని పోలి ఉంటుంది.
DStream మరియు RDD రెండూ అనేక షరతులను కలిగి ఉన్నాయి.
(1) మ్యాప్, రిడ్యూడ్బైకే మొదలైన వాటి వంటి సారూప్య పరివర్తన చర్యలను కలిగి ఉంటాయి, కానీ విండో, మ్యాప్విత్స్టేట్ మొదలైన కొన్ని ప్రత్యేకమైనవి కూడా ఉన్నాయి.
(2) అన్నింటికీ foreachRDD, కౌంట్ మొదలైన యాక్షన్ చర్యలు ఉంటాయి.
ప్రోగ్రామింగ్ మోడల్ స్థిరంగా ఉంటుంది.
(B) స్పార్క్ స్ట్రీమింగ్లో DStream పరిచయం
DStream అనేక తరగతులను కలిగి ఉంది.
(1) ఇన్పుట్డిస్ట్రీమ్ వంటి డేటా సోర్స్ తరగతులు, నిర్దిష్ట డైరెక్ట్కాఫ్కాఇన్పుట్ స్ట్రీమ్ మొదలైనవి.
(2) మార్పిడి తరగతులు, సాధారణంగా MappedDStream, ShuffledDSstream
(3) అవుట్పుట్ తరగతులు, సాధారణంగా ForEachDStream వంటివి
పై నుండి, ప్రారంభం (ఇన్పుట్) నుండి చివరి వరకు (అవుట్పుట్) డేటా DStream సిస్టమ్ ద్వారా చేయబడుతుంది, అంటే వినియోగదారు సాధారణంగా RDDలను నేరుగా రూపొందించలేరు మరియు మార్చలేరు, అంటే DStreamకి అవకాశం మరియు బాధ్యత ఉంటుంది. RDDల జీవిత చక్రానికి బాధ్యత వహిస్తుంది.
మరో మాటలో చెప్పాలంటే, స్పార్క్ స్ట్రీమింగ్ ఉందిఆటోమేటిక్ క్లీనప్ఫంక్షన్.
(iii) స్పార్క్ స్ట్రీమింగ్లో RDD ఉత్పత్తి ప్రక్రియ
స్పార్క్ స్ట్రీమింగ్లో RDDల జీవిత ప్రవాహం క్రింది విధంగా ఉంటుంది.
(1) ఇన్పుట్డిస్ట్రీమ్లో, అందుకున్న డేటా కాఫ్కాఆర్డిడిని ఉత్పత్తి చేసే డైరెక్ట్కాఫ్కాఇన్పుట్ స్ట్రీమ్ వంటి RDDగా మార్చబడుతుంది.
(2) తర్వాత MappedDStream మరియు ఇతర డేటా మార్పిడి ద్వారా, ఈ సమయాన్ని నేరుగా మార్పిడి కోసం మ్యాప్ పద్ధతికి అనుగుణంగా RDD అంటారు
(3) అవుట్పుట్ క్లాస్ ఆపరేషన్లో, RDD బహిర్గతం అయినప్పుడు మాత్రమే, మీరు సంబంధిత నిల్వ, ఇతర లెక్కలు మరియు ఇతర కార్యకలాపాలను నిర్వహించడానికి వినియోగదారుని అనుమతించగలరు.