• న్యూస్_బ్యానర్

సేవ

స్పార్క్ స్ట్రీమింగ్ డేటా క్లీనింగ్ మెకానిజం
(I) DStream మరియు RDD
మనకు తెలిసినట్లుగా, స్పార్క్ స్ట్రీమింగ్ గణన స్పార్క్ కోర్ ఆధారంగా ఉంటుంది మరియు స్పార్క్ కోర్ యొక్క ప్రధాన భాగం RDD, కాబట్టి స్పార్క్ స్ట్రీమింగ్ కూడా RDDకి సంబంధించినది. అయితే, స్పార్క్ స్ట్రీమింగ్ వినియోగదారులు RDDని నేరుగా ఉపయోగించడానికి అనుమతించదు, కానీ DStream భావనల సమితిని సంగ్రహిస్తుంది, DStream మరియు RDD అనేవి కలుపుకొని ఉన్న సంబంధాలు, మీరు దీనిని జావాలోని అలంకరణ నమూనాగా అర్థం చేసుకోవచ్చు, అంటే, DStream అనేది RDD యొక్క మెరుగుదల, కానీ ప్రవర్తన RDDకి సమానంగా ఉంటుంది.
DStream మరియు RDD రెండూ అనేక షరతులను కలిగి ఉన్నాయి.
(1) మ్యాప్, రెడ్యూస్ బై కీ మొదలైన వాటి వంటి సారూప్య పరివర్తన చర్యలను కలిగి ఉంటాయి, అలాగే విండో, మ్యాప్ విత్ స్టేట్డ్ మొదలైన కొన్ని ప్రత్యేకమైన వాటిని కూడా కలిగి ఉంటాయి.
(2) అన్నీ foreachRDD, count మొదలైన యాక్షన్ చర్యలను కలిగి ఉంటాయి.
ప్రోగ్రామింగ్ మోడల్ స్థిరంగా ఉంటుంది.
(బి) స్పార్క్ స్ట్రీమింగ్‌లో DStream పరిచయం
DStream లో అనేక తరగతులు ఉన్నాయి.
(1) ఇన్‌పుట్‌డిస్ట్రీమ్ వంటి డేటా సోర్స్ తరగతులు, డైరెక్ట్‌కాఫ్కాఇన్‌పుట్‌స్ట్రీమ్ వంటి ప్రత్యేకతలు మొదలైనవి.
(2) కన్వర్షన్ తరగతులు, సాధారణంగా MappedDStream, ShuffledDStream
(3) అవుట్‌పుట్ తరగతులు, సాధారణంగా ForEachDStream వంటివి
పైన పేర్కొన్నదాని నుండి, ప్రారంభం (ఇన్‌పుట్) నుండి ముగింపు (అవుట్‌పుట్) వరకు డేటా DStream సిస్టమ్ ద్వారా చేయబడుతుంది, అంటే వినియోగదారు సాధారణంగా RDDలను నేరుగా ఉత్పత్తి చేయలేరు మరియు మార్చలేరు, అంటే DStream RDDల జీవిత చక్రానికి బాధ్యత వహించే అవకాశం మరియు బాధ్యతను కలిగి ఉంటుంది.
మరో మాటలో చెప్పాలంటే, స్పార్క్ స్ట్రీమింగ్‌లోఆటోమేటిక్ క్లీనప్ఫంక్షన్.
(iii) స్పార్క్ స్ట్రీమింగ్‌లో RDD ఉత్పత్తి ప్రక్రియ
స్పార్క్ స్ట్రీమింగ్‌లో RDDల జీవిత ప్రవాహం ఈ క్రింది విధంగా కఠినంగా ఉంటుంది.
(1) InputDStreamలో, అందుకున్న డేటా RDDగా రూపాంతరం చెందుతుంది, ఉదాహరణకు DirectKafkaInputStream, ఇది KafkaRDDని ఉత్పత్తి చేస్తుంది.
(2) తర్వాత MappedDStream మరియు ఇతర డేటా మార్పిడి ద్వారా, ఈ సమయాన్ని నేరుగా మార్పిడి కోసం మ్యాప్ పద్ధతికి అనుగుణంగా RDD అని పిలుస్తారు.
(3) అవుట్‌పుట్ క్లాస్ ఆపరేషన్‌లో, RDD బహిర్గతం అయినప్పుడు మాత్రమే, మీరు వినియోగదారుని సంబంధిత నిల్వ, ఇతర గణనలు మరియు ఇతర కార్యకలాపాలను నిర్వహించడానికి అనుమతించగలరు.