Veebirakendused

45 populaarseimat Apache Sparki intervjuuküsimust

2. jaanuar 2022

Me mõistame, et intervjuu andmine võib teid mõnikord närviliseks ajada, eriti kui peate andma suurte andmetega tööintervjuu. Iga kandidaat tunneb vajadust valmistuda enne suurandmete töökohale või arendaja tööintervjuule minekut.

Raske on ennustada, millist tüüpi küsimusi teile intervjuul esitatakse. Seetõttu oleme teie abistamiseks koostanud nimekirja Apache Sparki intervjuu kõige populaarsematest küsimustest ja vastustest, mille saate enne sädearendaja või suure andmetöötluse tööintervjuule minekut ette valmistada. Vaadake seda artiklit intervjuu üldiste küsimuste jaoks.

Sisukord

Mis on Apache Spark?

Enne edasiminekut mõistkem kõigepealt, mis on apache-säde. Apache säde on paindlik andmetöötlusraamistik, mida on üsna lihtne kasutada ja mis võimaldab suurandmete professionaalide kasutajatel voogesitust tõhusalt teostada. Apache spark on kiire ja üldisem andmetöötlusplatvormi mootor. See platvorm töötati välja kiireks arvutamiseks ja töötati välja UC Berkeleys 2009. aastal. Apache-sparki abil saate failisüsteemis olevaid andmeid üle klastri jagada ja neid paralleelselt töödelda. Lisaks saate hõlpsalt kirjutada rakendusi Java, Python või Scala keeles. See platvorm töötati välja selleks, et ületada klastri arvutamise paradigma Map-Reduce piirangud, kuna säde suudab andmeid mälus hoida. MapReduce segab aga andmed mälukettale ja sealt välja. Lisaks toetab spark SQL-päringuid, andmete voogesitust ja graafikute töötlemist. Ja mis kõige tähtsam, apache-spark ei tööta Hadoopis, kuna see töötab iseseisvalt, kasutades salvestusruumi, näiteks Cassandra, S3 salvestatud andmeid, millest spark-platvorm saab kirjutada ja lugeda. Apache spark töötab 100 korda kiiremini kui Hadoop MapReduce.

Populaarseimad Apache Sparki intervjuu küsimused ja vastused

Loetleme Apache Sparki intervjuu peamised küsimused ja vastused, mida saate enne suurandmete tööintervjuule minekut ette valmistada.

üks. Millised on apache sädeme peamised omadused?

Apache sparki põhifunktsioonid on järgmised:

  • Laisk hindamine – Apache spark kasutab laiska hindamise kontseptsiooni hindamise viivitamiseks, kuni see muutub kohustuslikuks.
  • Programmeerimiskeelte tugi – saate kirjutada sädekoodi neljas programmeerimiskeeles, nagu Java, Python, R ja Scala. Lisaks pakub platvorm nendes programmeerimiskeeltes ka kõrgetasemelisi API-sid. Spark pakub kestasid Pythonis ja Scalas. Pythoni ja scala kestadele pääsete hõlpsalt juurde vastavalt kataloogide ./bin/pyspark ja .bin/spark-shell kataloogide kaudu.
  • Masinõpe – Apache sparki masinõppefunktsioon on kasulik suurandmete töötlemiseks, kuna see eemaldab vajaduse kasutada masinõppeks ja töötlemiseks eraldi mootoreid.
  • Mitme vormingu tugi – säde toetab kõiki teie mitut andmeallikat, nagu JSON, Hive ja Parkett. Lisaks saate säde-SQL-i kaudu struktureeritud andmetele juurdepääsuks ühendatavad mehhanismid, mida pakuvad andmeallikate API.
  • Kiirus – Apache spark töötab 100 korda kiiremini kui Hadoop MapReduce. Apache spark suudab selle kiiruse saavutada kontrollitud portsjonite jagamise kaudu. See tähendab, et apache-spark haldab andmeid partitsioonide jaotamise abil, mis aitab täiendavalt paralleelselt hajutatud andmetöötlust minimaalse liiklusega võrgus.
  • Hadoopi integreerimine – Apache spark pakub tõhusat ühenduvust Hadoopiga. Lisaks on Hadoop MapReduce'i puhul parem kasutada sädet.
  • Reaalajas töötlemine – tänu apache-sparki mälu arvutamisele toimub arvutamine ja töötlemine reaalajas ning madala latentsusajaga.
Vaata ka Kas iPhone'id saavad viiruseid: kuidas viiruseid kontrollida ja eemaldada

kaks. Millised on apache sädeme eelised Hadoop MapReduce'i ees?

See on üks apache spark intervjuu küsimusi, mida saab intervjuus esitada. Järgmised on apache-sädeme eelised Hadoopi kaardivähendamise ees.

  • Multitegumtöötlus – Hadoop toetab paketttöötlust ainult sisseehitatud teekide kaudu. Teisest küljest on apache-sparkil mitme ülesande täitmiseks sisseehitatud teegid, mida saate kasutada paketttöötluseks, interaktiivsete SQL-päringute jaoks, masinõppeks ja voogesituseks.
  • Täiustatud kiirus – apache-sparki kasutamisel olete kindlasti märganud, et sparki mälutöötluskiirus on 100 korda kiirem kui Hadoop map-reduce.
  • Kettast ei sõltu – Hadoop MapReduce sõltub ketastest ja apache spark kasutab sisseehitatud mälu andmesalvestust ja vahemällu.

3. Mis on sädemootori funktsioon?

Andmerakenduse levitamiseks, ajastamiseks ja jälgimiseks kogu klastris saab kasutada sädemootorit.

Neli. Mida sa vaheseinte all mõtled?

Partitsioon tähendab väiksemat ja loogilist teabe või andmete jaotust. Sektsioon sarnaneb MapReduce'i poolitamisega. Jaotamist saab määratleda kui protsessi andmete töötlemise kiirendamiseks andmete loogiliste ühikute tuletamise teel. Kõik sädeandmed on jaotatud RDD.

5. Mis on elastsete hajutatud andmekogumite mõiste? Märkige ka apache spardis uue RDD loomise meetod.

RDD (resilient hajusa andmestiku) nimetatakse tõrketaluvuse kogumit või tööelementide rühma, mis on võimeline paralleelselt töötama. Seega, kui RDD-s on jaotatud andmeid, on need hajutatud ja muutumatud.

Võime öelda, et RDD-d on väikesed osad andmetest, mida võib salvestada mällu, mis on jaotatud paljude sõlmede vahel. Lisaks kasutab säde laisalt hindamist ja seeläbi hinnatakse RDD-sid laisalt, mis aitab sädel saavutada tohutut kiirust. RDD-sid on kahte tüüpi.

  1. Hadoopi andmestikud – seda tüüpi RDD-d hõlmavad funktsioonide täitmist kõigil faili rekord salvestatud Hadoopi hajutatud failisüsteemi (HDFS) või muudesse salvestussüsteemidesse.
  2. Paralleelsed kogud – need on RDD-d, mis töötavad üksteisega paralleelselt.

Kui nüüd rääkida uue RDD loomisest apache-sparkis, siis on kaks võimalust.

  • RDD saate luua, paralleelses draiveriprogrammis kollektsiooni. See meetod kasutab sädekontekstide paralleelsuse meetodit.
  • Välise salvestusruumi kaudu, laadides välise andmestiku, mis sisaldab HBase'i, HDFS-i ja jagatud failisüsteemi.

6. Milliseid toiminguid RDD toetab?

RDD toetatud funktsioonid on teisendused ja toimingud.

7. Mis on teisendused sädemes?

Teisendused sädemes tähendavad RDD-dele rakendatavaid funktsioone, mille tulemuseks on uus RDD. Funktsioone ei täideta siiski enne, kui toimub tegevus. Mõned teisenduste näited on funktsioonid map() ja filter (), kus funktsioon map() kordub RDD igal real ja jaguneb uueks RDD-ks. Teisest küljest aitab filter() funktsioon luua uut RDD-d, valides elemendid praegusest säde-RDD-st.

8. Mida sa mõtled sädemega tegude all?

Sädeme toimingud tähendavad andmete toomist RDD-st kohalikku masinasse. Sädeme toimingud on põhimõtteliselt RDD-toimingud, mis annavad mitte-RDD-väärtusi. Mõned näited toimingutest on funktsioon vähendamise () funktsioon, mida saate korduvalt rakendada, kuni jääb alles üks väärtus. Seejärel toimub toiming take(), mis võtab RDD-lt kõik väärtused ja viib selle kohalikku failisüsteemi.

9. Millised on sädesüdamiku funktsioonid?

Mõned sädeme südamiku funktsioonid on järgmised:

  • Töökohtade jälgimine
  • Pakub tõrketaluvust
  • Tööde ajakava koostamine
  • Koostoime salvestussüsteemidega
  • Mälu haldamine

10. Mida sa mõtled RDD põlvnemise all?

Spark RDD liini kasutatakse kadunud andmete taastamiseks, kuna spark ei toeta andmete replikatsiooni mälus. Seetõttu aitab säde RDD sugupuu taastada kaotatud andmepartitsioonid.

11. Mida sa mõtled sädemejuhi all?

Programmi, mis töötab masina põhisõlmes ja deklareerib andme-RDD-del toiminguid ja teisendusi, tuntakse sädedraiveri programmina. Teisisõnu aitab sädedraiver luua sädekonteksti ja edastada RDD-graafikud ülemseadmesse, kus töötab iseseisev klastrihaldur.

12. Defineerige mõiste sädevoog.

Üks enim küsitud apache spark-intervjuu küsimusi on sädevoogesituse mõiste määratlemine. Sparki voogesitus on Spark API laiendus, mis võimaldab kasutajatel voogesitada reaalajas andmevooge. Andmeid töödeldakse erinevatest andmeallikatest, nagu flume, Kinesis ja Kafka . Need töödeldud andmed salvestatakse seejärel failisüsteemidesse, reaalajas armatuurlauale ja andmebaasidesse. Andmete töötlemine on sisendandmete osas sarnane paketttöötlusega.

13. Millised on MLlibi funktsioonid Apache Sparkis?

MLlib on masinõppeteek, mille pakub säde. MLlibi eesmärk on muuta masinõpe lihtsaks ja skaleeritavaks, kuna see hõlmab tavalisi õppealgoritme ning kasutab klastrite moodustamiseks, regressioonifiltrimiseks ja mõõtmete vähendamiseks selliseid juhtumeid nagu klastrihaldur.

14. Mida sa Spark SQL-i all mõtled?

Spark SQL on tuntud ka kui hai ja see on uudne moodul, mis aitab teostada struktureeritud andmetöötlust. Spark saab selle mooduli kaudu andmetele SQL-päringuid teha. Pealegi, säde SQL toetab erinevat RDD-d nimega SchemaRDD, mis koosneb reaobjektidest ja skeemiobjektidest, mis määravad iga rea ​​erinevates veergudes olevate andmete tüübi.

15. Millised on Spark SQL-i funktsioonid?

Spark SQL-i funktsioonid on järgmised:

  • Spark SQL saab laadida andmeid mitmest struktureeritud allikast.
  • Spark SQL saab sooritada andmepäringuid SQL-lausete abil nii sädeprogrammides kui ka väliste tööriistade kaudu, mis on Spark SQL-iga ühendatud standardsete andmebaasikonnektorite abil, kasutades näiteks paljusid suurandmete tööriistu, näiteks tabelit.
  • See pakub integratsiooni tavalise Pythoni/Java/Scala koodi ja SQL-i vahel.

16. Mida sa mõtled LÕNGA all Apache Sparkis?

Veel üks levinud apache spark intervjuu küsimus, mida intervjuus esitada saab, on LÕNGA defineerimine. Sparki üks põhifunktsioone on YARN, see sarnaneb Hadoopiga ja pakub ressursihaldusplatvormi, mis pakub skaleeritavaid toiminguid kogu klastris. Veelgi enam, kui kasutate YARNil apache sparki, vajate säde binaarset jaotust, mis põhineb YARN-i toel.

Vaata ka Kuidas lisada MP3-le albumi kujundust

17. Mida sa Spark Executori all mõtled?

Kui ühendate sädekonteksti klastrihalduriga, hangib see klastri sõlmedel täituri. Spark-täiturid aitavad arvutusi käivitada ja andmeid töötaja sõlmedesse salvestada. Viimased funktsioonid sädekonteksti järgi teisaldatakse nende täitmiseks täitjatele.

18. Mainige erinevaid klastrijuhtide tüüpe?

Sparki raamistik toetab kolme tüüpi klastrihaldureid.

  1. Eraldiseisev – see on põhiline klastrihaldur, mis aitab klastrit luua.
  2. Apache Mesos – see on Hadoop MapReduce'i ja säderakenduses kõige sagedamini kasutatav klastrihaldur.
  3. YARN – see on klastrihaldur, mis vastutab Hadoopi ressursside haldamise eest.

19. Mida sa mõtled Parketi viili all?

Veergvormingus faili tuntakse parketifailina, mida toetavad mitmed teised andmetöötlussüsteemid. Parketifaili abil teostab Spark SQL lugemis- ja kirjutamisoperatsioonid ning peab parketifaili seni parimaks andmeanalüütika vorminguks.

20. Kas YARNi klastri apache sparki käivitamise ajal on vaja sädet paigaldada kõikidesse YARN-i klastri sõlmedesse?

Kõikidele YARN-i klastri sõlmedele ei ole vaja sädet paigaldada, kuna apache-spark jookseb YARN-i peal.

21. Öelge sädeökosüsteemi komponendid?

Järgnevalt on toodud sädeökosüsteemi komponendid.

  1. MLib- see on masinõppe raamatukogu.
  2. GraphX- See on graafikute ja graafiku paralleelarvutuste rakendamiseks.
  3. Spark core - see on baasmootor, mida kasutatakse laiaulatuslikuks paralleelseks ja hajutatud andmetöötluseks.
  4. Spark-voogesitus – Spark-voogesitus aitab voogesituse andmeid reaalajas töödelda.
  5. Spark SQL – see aitab integreerida sädeme funktsionaalse programmeerimise API koos ratsionaalse töötlemisega.

22. Kas saate kasutada apache sparki Cassandra andmebaasi salvestatud andmete analüüsimiseks ja neile juurdepääsuks?

Säde kasutamine Cassandra andmebaasi salvestatud andmete analüüsimiseks ja neile juurde pääsemiseks on võimalik säde Cassandra pistiku abil. Peate Cassandra sädeprojektiga ühendama. Seega, kui ühendate Cassandra apache-sparkiga, saate teha päringuid palju kiiremini, vähendades võrgu kasutamist andmete saatmiseks Cassandra sõlmede ja sädetäitjate vahel.

23. Defineerige töötaja sõlm?

Töölissõlm on sõlm, mis suudab koodi klastris käitada. Seetõttu peab draiveriprogramm kuulama ja vastu võtma sama sissetulevate ühenduste täitjatelt. Lisaks peab draiveriprogramm olema töötaja sõlmedest võrguaadresseeritav.

24. Kuidas apache säde ühendatakse apache mesodega?

Apache-sädeme ühendamine apache Mesosega on järgmine:

  1. Esimene samm on sädedraiveri programmi mesos konfigureerimine selle ühendamiseks apache mesostega.
  2. Peate sädebinaarpaketi paigutama kohta, kuhu pääseb juurde apache mesos.
  3. Nüüd installige apache-spark samasse kohta, kus apache mesos.
  4. Asukohale osutamiseks, kuhu apache spark on installitud, peate konfigureerima säde Mesose täideviija koduvara.

25. Millised on võimalused andmeedastuse minimeerimiseks sädemega töötamise ajal?

Kiiresti töötavate ja töökindlate sädeprogrammide kirjutamiseks on oluline andmeedastusi minimeerida. Need on viisid andmeedastuse minimeerimiseks, kui töötate apache sädemega.

  • Kasutage akumulaatoreid – andmeedastuse minimeerimiseks võite kasutada akumulaatoreid, kuna need võimaldavad muutuja väärtusi värskendada, samal ajal kui te sama paralleelselt käivitate.
  • Vältimine – saate minimeerida andmeedastust, vältides ümberjaotamist, Bykey toiminguid ja muid toiminguid, mis vastutavad segamise käivitamise eest.
  • Kasutage leviedastusmuutujaid – saate edastusmuutujate abil suurendada väikese ja suure RDD ühenduste tõhusust.

26. Selgitage apache-sparki leviedastuse muutujaid ja milleks neid kasutatakse?

Üks enim küsitud apache spark-intervjuu küsimusi on edastusmuutujate kohta. Apache sparki leviedastusmuutujad on üsna kasulikud, kuna selle asemel, et saata muutuja koopia koos ülesannetega; leviedastusmuutuja aitab hoida muutuja kirjutuskaitstud vahemällu salvestatud versiooni.

Lisaks saab iga sõlm suure sisendandmestiku koopia, kuna seda pakuvad leviedastuse muutujad. Sidekulude vähendamiseks kasutab apache-spark edastusmuutujate levitamiseks tõhusaid levialgoritme.

Teine leviedastusmuutujate kasutusala on vähendada vajadust iga ülesande muutuja koopiate saatmiseks. Otsimise tõhususe suurendamiseks aitavad leviedastusmuutujad salvestada mällu ka otsingutabelit võrreldes funktsiooniga RDD lookup ().

27. Kas Apache Spark pakub kontrollpunkte?

Kontrollpunkte pakub apache spark. Kontrollpunktid võimaldavad programmil töötada 24/7 ja muudavad need rikete suhtes vastupidavaks. RDD-de taastamiseks rikkest kasutatakse liinigraafikuid.

Lisaks on apache-spark kontrollpunktide lisamiseks ja haldamiseks varustatud API-ga. Kasutaja saab seeläbi otsustada, milliseid andmeid kontrollpunkti lisada. Lisaks eelistatakse kontrollpunkte rohkem kui põlvnemisgraafikuid, kuna põlvnemisgraafikutel on laiemad sõltuvused.

28. Mainige Apache Sparki püsivuse taset?

RDD-de salvestamiseks kettale, mällu või ketta ja mälu kombinatsiooni erineva replikatsioonitasemega Apache Sparkis on erinevad püsivuse tasemed. Järgmised on sädeme püsivuse tasemed:

  • Mälu ja ketas – mälu ja ketas salvestavad RDD-d JVM-is deserialiseeritud JAVA-objektidena. Kui RDD mällu ei mahu, salvestatakse mõned RDD osad kettale.
  • Ainult ketas – nagu nimigi ütleb, salvestab ainult ketta püsivuse tase RDD partitsioonid ainult kettale.
  • Ainult mäluserver – ainult mäluserver, mis salvestab RDD-d koos ühebaidise massiiviga partitsiooni kohta ja serialiseeritud JAVA-objektidena.
  • Mälu- ja kettaserver- See püsivuse tase on üsna sarnane ainult mäluserveriga, kuid mõningate erinevustega kettale salvestatud partitsioonid kui nad ei mahu mällu.
  • Ainult mälu – see salvestab RDD JVM-is deserialiseeritud JAVA-objektidena. Kui RDD mällu ei mahu, siis mõnda RDD osi vahemällu ei salvestata ja need tuleb käigu pealt ümber arvutada.
  • Väljas hunnik – see püsivuse tase sarnaneb ainult mäluserveriga, kuid salvestab andmed hunnikuvälisesse mällu.
Vaata ka 11 parandust selle kohta, et Recaptcha ei tööta Chrome'is, Firefoxis ega mis tahes brauseris

29. Millised on apache sparki kasutamise piirangud?

Mõned apache sparki kasutamise piirangud on järgmised:

  • Apache sparkil pole sisseehitatud failihaldussüsteemi. Seetõttu peate failihaldussüsteemi jaoks integreerima säde teiste platvormidega, näiteks Hadoopiga.
  • Reaalajas andmete voogesituse protsessi ei toetata. Apache-sparkis jaotatakse reaalajas andmevoog partiideks ja teisendatakse isegi pärast töötlemist partiideks. Seetõttu võime öelda, et sädevoogedastus on mikropartiitöötlus ega toeta reaalajas andmetöötlust.
  • Säde jaoks saadaolevate algoritmide arv on väiksem.
  • Kirjepõhise akna kriteeriumid ei toeta sädevoogesitust.
  • Te ei saa kõike ühes sõlmes käivitada ja töö tuleb jaotada mitme klastri vahel.
  • Kui kasutate sädet kulutõhusaks suurandmete töötlemiseks, muutub sisseehitatud mälu võimalus väljakutseks.

30. Märkige viis, kuidas käivitada automaatne puhastus Apache-sädemes, välja arvatud „spark.cleaner.ttl”?

Teine võimalus automaatsete puhastuste käivitamiseks sädemega on jaotada kaua kestnud tööd erinevatesse partiidesse ja kirjutada vahetulemused kettale.

31. Maini Akka rolli sädemes?

Akka teeb sõiduplaani protsessi säde. Ajastamise protsessi abil saavad töötajad ja ülemused saata või vastu võtta sõnumeid ülesannete kohta.

32. Selgitage skeem apache spark RDD-s?

RDD-d, mis kannavad mitut reaobjekti, näiteks ümbriseid tavalise stringi või täisarvu massiivide ümber koos iga veeru andmetüübi skeemiteabega, nimetatakse ShemaRDD-ks. Nüüd on see aga ümber nimetatud DataFrame API-ks.

33. Mis on skeemiRDD kavandamise põhjus?

SchemaRDD kavandamise põhjus on aidata arendajaid sparkSQL-i põhimooduli koodi silumisel ja üksuste testimisel.

34. Milline on elementide eemaldamise protseduur, kui võti on mõnes teises RDD-s?

Kui võti on mõnes teises RDD-s, saate elemente hõlpsasti eemaldada, kasutades lahutamisklahvi () funktsiooni.

35. Määrake erinevus persist() ja cache() vahel

Kasutajad saavad mälumahu taset määrata persist () abil ja teisest küljest kasutab vahemälu () vaikesalvestustaset.

36. Mida sa mõtled säderakenduses Executori mälu all?

Sädetäituri jaoks on igal säderakendusel fikseeritud arv südamiku ja kuhja suurust. Sädetäituri mälu, mida juhib lipu -executor-memory atribuut spark.executor.memory, nimetatakse kuhja suuruseks.

Igal töötaja sõlmel on säderakenduses üks täitur. Rakendus kasutab mõnda töötaja sõlme mälu ja täitjamälu aitab mõõta rakenduse kasutatava mälu mahtu.

37. Millised on viisid, kuidas identifitseerida antud tehte teisendus või tegevus sädeprogrammis?

Kasutajad saavad tagastamistüübi alusel hõlpsasti tuvastada, et tehing on teisendus või toiming.

  • Toiming on teisendus, kui tagastamise tüüp on sama, mis RDD.
  • Toiming on toiming, mille tagastamise tüüp ei ole sama, mis RDD.

38. Mis on teie arvates levinumad vead, mida sädearendajad teevad?

Mõned levinumad vead, mida sädearendajad teevad, on järgmised:

  • Sädearendajad võivad suunatud atsükliliste graafikute (DAG) haldamisel teha vigu.
  • Sädearendajad võivad samuti teha vigu, säilitades samal ajal segamisplokkide nõutava suuruse.

39. Mainige mõnda ettevõtet, kes kasutavad sädevoogedastust?

Mõned sädevoogesitust kasutavad ettevõtted on järgmised:

  • Uber
  • Netflix
  • Pinterest
  • Alibaba
  • Amazon

40. Kas me saame kasutada apache sparki tugevdamise õppimiseks?

Apache sparki ei eelistata armeerimisõppe jaoks, kuna see sobib ainult lihtsate masinõppe algoritmide jaoks, nagu rühmitamine, regressioon ja klassifitseerimine.

41. Kuidas Spark käsitleb eraldiseisvas režiimis jälgimist ja logimist?

Apache spark kasutab klastri jälgimiseks eraldiseisvas režiimis veebipõhist kasutajaliidest, mis kuvab klastri ja tööde statistika. Lisaks kirjutatakse iga töö logitulemus alamsõlmede töökataloogi.

42. Määrake sädeprogrammi ühine töövoog.

Sädeprogrammi tavaline töövoog on järgmine:

  1. Sädeprogrammi esimene samm on sisend-RDD-de loomine välisandmetest.
  2. Uute teisendatud RDD-de loomine äriloogika alusel, kasutades mitmeid RDD-teisendusi, näiteks Filter().
  3. Persist() kõik vahepealsed RDD-d, mida võib olla vaja tulevikus uuesti kasutada.
  4. Paralleelarvutuse alustamiseks kasutage erinevaid RDD toiminguid, nagu first(), count(). Spark optimeerib ja viib läbi need toimingud.

43. Mis vahe on spark SQL-il ja Hive'il?

Järgmised on erinevused Spark SQL ja Hive vahel.

  • Kui kasutate säde-SQL-i, võite teada, et see on kiirem kui Hive.
  • Saate teostada a Taru päring säde SQL-is. Siiski ei saa te HIve'is SQL-päringut täita.
  • Hive on raamistik, Spark SQL aga raamatukogu.
  • SQL-is metapoe loomiseks pole see vajalik. Siiski on Tarus metapoe loomine kohustuslik.
  • Spark SQL saab skeemi automaatselt järeldada, kuid Hive'is peate seda tegema käsitsi, kuna skeem tuleb selgelt deklareerida.

44. Mida sa mõtled sädevoogedastuses vastuvõtjate all?

Sädevoogesituse eriüksuseid tuntakse vastuvõtjatena, kuna nad tarbivad andmeid mitmest andmeallikast ja määravad need asukoha apache sädeme abil. Voogedastuskontekstid loovad vastuvõtjad, kuna pikaajalisi ülesandeid on kavandatud töötama ring-robin viisil, kusjuures iga vastuvõtja saab ühe tuuma.

45. Mida sa mõtled sädemes oleva lükandakna all? Selgitage näitega.

Sädemega libisevat akent kasutatakse iga sädemevoogesituse partii määramiseks, mis peab läbima töötlemise. Näiteks saab libiseva akna abil määrata partiitöötluse intervallid ja konkreetsed partiid töödeldakse nende intervallidega.

Järeldus

Loodame, et teile meeldisid ülalmainitud apache spark intervjuu küsimused ja vastused. Nüüd saate hõlpsalt lahti murda kõik oma suurte andmetega tööintervjuu küsimused. Vaadake läbi kõik apache spark intervjuu küsimused ja vastused, et saada aimu intervjuuküsimuste tüübist, mida suurandmetega tööintervjuul küsitakse.