Intervjuu Küsimused

100 parimat andmeteaduse intervjuu küsimust ja vastust

2. jaanuar 2022

Lihtsamalt öeldes võib andmeteadust määratleda kui interdistsiplinaarset valdkonda, mis kasutab protsesse, süsteeme, teaduslikke meetodeid ja algoritme, et saada struktureeritud ja struktureerimata andmetest teadmisi.

Andmeteadust rakendatakse erinevates sektorites, nagu tervishoiualased soovitused, haiguste ennustamine, digireklaamide automatiseerimine, saatmise reaalajas optimeerimine, logistikamarsruudid ja pettuste avastamine jne.

Andmeteaduse töökohad on üks kõrgemalt tasustatud töökohti selles valdkonnas ja teenivad keskmiselt 116 100 dollarit aastas. Võite leida palju töövõimalusi, kuna selles valdkonnas napib kvalifitseeritud ressursse.

Oleme loetlenud kõige sagedamini küsitavad andmeteaduse intervjuu küsimused ja vastused. Lugege kindlasti läbi meie täielik artikkel, et ükski andmeteaduse intervjuu küsimus ja vastus ei jääks kahe silma vahele.

Sisukord

Andmeteaduse intervjuu küsimused ja vastused

1. Kas saate selgitada pika- ja laiformaadiliste andmete erinevust?

Lai formaat : Siin määratletakse subjekti korduvad vastused ühes reas ja iga vastus määratakse eraldi veerus.

Pikk formaat : Siin on iga rida määratletud kui ühekordne punkt õppeaine kohta.

2. Selgitage Boltzmanni masinat?

Boltzmann Machine rakendab lihtsat õppimisalgoritmi, mis võimaldab kasutajal avastada huvitavaid funktsioone, mis esindavad treeningandmete keerulisi seaduspärasusi. Me kasutame Boltzmanni masinat, et optimeerida antud probleemi jaoks koguseid ja kaalusid. Need on abiks kahe erineva arvutusülesande lahendamisel.

3. Selgitage gradiendi laskumist?

Andke meile kõigepealt teada, mis on gradient:

Gradient : Seda kasutatakse kõigi kaalude muutuste mõõtmiseks, mis on seotud vea muutusega. Gradienti võib ette kujutada ka funktsiooni kaldena.

Gradient Descent võib defineerida kui oru põhja ronimist, mitte mäest üles ronimist. See on minimeerimisalgoritm, mis minimeerib antud funktsiooni.

4. Mis on automaatkooder?

Auto-Encoder eesmärk on muuta sisendid väljunditeks minimaalsete vigadega. See tähendab, et kasutaja soovib, et väljund oleks sisendile võimalikult lähedal. Siin peame sisendi ja väljundi vahele lisama paar kihti ning veenduma, et kihtide suurused on sisendkihtidest väiksemad. See võtab vastu märgistamata sisendi, mis hiljem sisendi rekonstrueerimiseks kodeeritakse.

5. Selgitage CNN-i erinevaid kihte?

Meil on CNN-is neli kihti, nimelt

  1. Konvolutsioonikiht: see teostab konvolutsioonioperatsioone, loob andmete ületamiseks mitu väikest pildiakent.
  2. ReLu kiht: see kiht aitab tuua võrku mittelineaarsust ja teisendab negatiivsed pikslid (kõik) nulliks. Saadud väljund on parandatud tunnuskaart.
  3. Ühenduskiht: see vähendab objektikaardi mõõtmeid.
  4. Täielikult ühendatud kiht: see tuvastab ja klassifitseerib antud pildil olevad objektid.

6. Kas saate nimetada mõne masinõppe teeki erinevatel eesmärkidel?

Allpool on loetletud mõned masinõppeteegid erinevatel eesmärkidel.

  1. TensorFlow
  2. NumPy
  3. SciPy
  4. pandad
  5. Matplotlib
  6. Raske
  7. SciKit-Learn
  8. PyTorch
  9. Scrapy
  10. Ilus supp

7. Selgitage tehisnärvivõrke?

Tehisnärvivõrke saab määratleda kui spetsiifilist algoritmide komplekti, millel on revolutsiooniline masinõpe. Need võrgud on inspireeritud bioloogilistest närvivõrkudest. Neuraalvõrgud on kohandatud muutuvate sisenditega, nii et võrk loob parima tulemuse ilma väljundkriteeriume ümber kujundamata.

8. Nimetage erinevad süvaõppe raamistikud?

  1. Chainer
  2. Raske
  3. Kohv
  4. Pytorch
  5. TensorFlow
  6. Microsofti kognitiivsete tööriistade komplekt

9. Selgitage Multi-layer Perceptron (MLP)?

MLP (Multi-layer perceptron) on ANN-i (Artificial Neuron Network) klass. See hõlmab peamiselt sisendkihti, peidetud kihti ja väljundkihti. Iga sõlm, välja arvatud sisendsõlm, kasutab mittelineaarset aktiveerimisfunktsiooni.

MLP kasutab koolituse jaoks juhendatud õppimistehnikat, mida nimetatakse backpropageerimiseks. See eristub lineaarsest tajumisest mitmekihilise ja mittelineaarse aktiveerimisfunktsiooni tõttu. Seda kasutatakse andmete eristamiseks, mis ei ole lineaarselt eraldatavad.

10. Selgitage süvaõppe epohhi, partii ja iteratsiooni erinevusi?

Epochi kasutatakse ühe iteratsiooni esitamiseks kogu andmekogumis.

Partii : Siin jagatakse andmekogum mitmeks partiiks alati, kui me ei saa tervet andmekogumit korraga närvivõrku edastada.

Iteratsioonid : seda saab defineerida kui andmete partiide arvu, mida algoritm on näinud.

Andmeteaduse intervjuu küsimused ja vastused

11. Selgitage tugevdusõpet?

Tugevdusõpe on määratletud kui valdkond Masinõpe . See seisneb peamiselt vajalike meetmete võtmises, et maksimeerida tasu konkreetses olukorras. Seda kasutavad erinevad tarkvarad ja masinad, et määrata kindlaks parim võimalik käitumine või tee või viis, kuidas see antud olukorras peaks kulgema.

Mõned tugevdamisõppe põhipunktid on loetletud allpool:

  1. Sisend: Sisend tuleks määratleda algolekuna, millest mudel käivitub
  2. Väljund: võimalikke väljundeid on palju, kuna konkreetsele probleemile on erinevaid lahendusi
  3. Koolitus: koolitus põhineb peamiselt sisendil. Mudel tagastab oleku ja kasutaja peab otsustama, kas mudelit premeerida või karistada väljundi põhjal.
  4. Mudel jätkab õppimist.
  5. Parim lahendus otsustatakse seejärel maksimaalsete hüvede põhjal.

12. Mis on kaduvad gradiendid?

Kaduvad gradiendid tekivad tavaliselt sügavate närvivõrkude treenimisel gradiendipõhise optimeerimismeetodi abil. See ilmneb peamiselt närvivõrgu treenimiseks kasutatava tagasilevitamise algoritmi olemuse tõttu.

13. Selgitage korduvaid närvivõrke (RNN)?

Korduv närvivõrk on defineeritud kui närvivõrk, mis on spetsialiseerunud andmejada x(t)= x(1), . . . , x(τ) ajasammuindeksiga t, mis jääb vahemikku 1 kuni τ. Antud ülesannete jaoks, mis hõlmavad järjestikuseid sisendeid, nagu kõne ja keel, on parem kasutada RNN-e.

RNN-e nimetatakse ka korduvateks, kuna need täidavad jada iga elemendi jaoks sama määratud ülesande, väljundiga, mis sõltub eelmistest arvutustest.

14. Selgitage tagasi levimise variante?

  1. Stohhastilise gradiendi laskumine: siin kasutame gradiendi arvutamiseks ja parameetrite värskendamiseks ühte koolitusnäidet.
  2. Partii gradiendi laskumine: siin arvutame gradiendi kogu andmestiku jaoks ja värskendame iga iteratsiooni ajal.
  3. Mini-partii gradiendi laskumine: see on üks tuntumaid optimeerimisalgoritme. See on Stochastic Gradient Descenti variant ja siin kasutatakse ühe treeningnäite asemel proovide minipartii.

15. Selgitage lineaarset regressiooni?

Lineaarne regressioon kasutab vähimruutude meetodit. Idee on siin tõmmata joon läbi kõigi joonistatud andmepunktide. Joon on paigutatud nii, et see minimeerib kaugust kõigi andmepunktide vahel. Vahemaad on tuntud kui jäägid või vead.

16. Selgitage kärpimist otsustuspuus?

Kärpimine on defineeritud kui masinõppe- ja otsingualgoritmide andmete tihendamise tehnika, mis võib vähendada antud otsustuspuude suurust, eemaldades puust need osad või lõigud, mis ei ole eksemplaride klassifitseerimiseks kriitilised ja üleliigsed.

Lõikamine aitab vähendada finaali keerukust klassifikaator ja parandab seeläbi prognoosimise täpsust, vähendades ülepaigutamine .

17. Nimetage SVM-i erinevad tuumad?

Meil on SVM-is nelja tüüpi kerneleid, nimelt

  1. Lineaarne kernel
  2. Polünoomtuum
  3. Radiaalne baastuum
  4. Sigmoidne tuum

18. Kas saate meile öelda lineaarse mudeli puudused?

Lineaarse mudeli mõned puudused on järgmised:

  1. Sõltumatute ja sõltuvate muutujate lineaarsuse prognoosid
  2. Seda ei saa kasutada loendustulemuste või binaarsete tulemuste jaoks
  3. On palju ülepaigutamisprobleeme, mida see lahendada ei suuda.
Vaata ka 100 parimat JavaScripti intervjuu küsimust ja vastust

19. Kas saate otsustuspuu algoritmi üksikasjalikult selgitada?

Otsustuspuu algoritm on algoritm, mis kuulub juhendatud õppealgoritmide perekonda. Erinevalt teistest juhendatud õppealgoritmidest kasutatakse otsustuspuu algoritmi klassifitseerimis- ja regressiooniprobleemide lahendamiseks.

Otsustuspuudes peame kirjele määratud klassisildi ennustamiseks alustama puu juurest. Peame võrdlema juuratribuudi väärtusi kirje atribuudiga. Võrdluste põhjal peame järgima selle väärtusega seotud haru ja hüppama järgmisele sõlmele.

Otsustuspuu kasutamise põhieesmärk on luua koolitusmudel, mida saab kasutada sihtmuutuja väärtuse või klassi ennustamiseks, õppides selgeks lihtsad otsustusreeglid, mis on tuletatud koolitusandmetest (varasematest andmetest).

20. Mis on entroopia ja informatsiooni võimendus otsustuspuu algoritmis?

Entroopia: otsustuspuu ehitatakse juursõlmest ülalt alla ja see hõlmab antud andmete jaotamist alamhulkadeks, mis koosnevad sarnaste väärtustega eksemplaridest. ID3 algoritm kasutab antud proovi homogeensuse arvutamiseks entroopiat. Kui kogutud proov on täiesti homogeenne, on entroopia null ja kui valim on võrdselt jagatud, on selle entroopia üks.

Teabe juurdekasv: teabe suurenemine põhineb peamiselt entroopia vähenemisel pärast andmestiku atribuudi jagamist. Otsustuspuu koostamine seisneb atribuudi leidmises, mis tagastab suurima teabekasu.

Kasum (T, X) = entroopia (T) – entroopia (T, X)

Andmeteaduse intervjuu küsimused ja vastused

21. Mis on koostööfiltreerimine?

Koostööfiltreerimist võib määratleda kui teabe või mustrite filtreerimise protsessi, kasutades tehnikaid, mis hõlmavad koostööd mitme agendi, andmeallika, vaatepunkti jne vahel.

Koostööfiltreerimise rakendused hõlmavad põhimõtteliselt väga suuri andmekogumeid.

Koostöös põhinevaid filtreerimismeetodeid on rakendatud erinevat tüüpi andmetele, sealhulgas tuvastus- ja seireandmetele, nagu maavarade uurimine, keskkonnaseire suurtel aladel või mitu andurit.

22. Mis on Recommender Systems? Seletama?

Soovitussüsteem on tuntud ka kui soovitussüsteem, see on teabe filtreerimissüsteemi alamklass, mis ennustab hinnangu või eelistuse, mille kasutaja üksusele annaks.

Soovitussüsteeme kasutatakse kõige laialdasemalt filmides, teadusartiklites, sotsiaalsetes siltides, uudistes, muusikas, toodetes jne.

Soovitussüsteemid on populaarsed ka konkreetsete teemade jaoks, nagu restoranid ja veebipõhine tutvumine.

23. Mis on valiku kallutatus?

Valiku kallutatus on erapoolik, mis tekib indiviidide, rühmade või andmete valimisel analüüsimiseks viisil, kus õiget randomiseerimist ei saavutata, tagades sellega, et saadud valim ei esinda analüüsitavat populatsiooni. Seda nimetatakse ka valikuefektiks. See on statistilise analüüsi moonutamine, mis tuleneb proovide kogumise meetodist. Kui me ei võta valiku kallutatust arvesse, ei pruugi mõned uuringu järeldused olla täpsed.

Valiku kallutatuse tüübid on järgmised:

  1. Valimi kallutatus: see on defineeritud kui süstemaatiline viga, mis on tekkinud populatsiooni mittejuhusliku valimi tõttu, mille tõttu on väheste populatsiooni liikmete kaasamine väiksem kui teistel, mille tulemuseks on kallutatud valim.
  2. Ajavahemik: katse võib äärmusliku väärtusega varakult lõpetada, kuid peamise väärtuse saavutab suurima dispersiooniga muutuja, isegi kui kõigil muutujatel on seotud keskmine.
  3. Andmed: kui konkreetsed andmete alamhulgad valitakse halbade andmete järelduse või tagasilükkamise toetamiseks meelevaldsetel põhjustel, mitte varem sätestatud või üldiselt kokkulepitud kriteeriumide alusel.
  4. Hõõrdumine: Hõõrdumine on defineeritud kui teatud tüüpi valiku kallutatus, mis on põhjustatud osalejate kaotusest.

24. Kas saate kirjutada funktsiooni, mis võtab sisse kaks sorteeritud loendit ja väljastab sorteeritud loendi, mis on nende liit?

|_+_| |_+_|

25. Mis on mõõtmete vähendamine?

Andmestiku antud sisendmuutujate või funktsioonide arvu nimetatakse dimensiooniks. Mõõtmete vähendamine on tehnika või protsess, mis vähendab sisendmuutujate arvu konkreetses andmekogumis.

26. Mis on segadusmaatriks?

Seda määratletakse kui masinõppe klassifikatsiooniprobleemi jõudluse mõõtmist, mille väljundiks võib olla kaks või enam klassi. Põhimõtteliselt on see tabel nelja erineva prognoositava ja tegeliku väärtuse kombinatsiooniga.

Andmeteaduse intervjuu – segaduse maatriks

See on peamiselt kasulik tagasikutsumise, täpsuse, täpsuse, spetsiifilisuse ja, mis kõige tähtsam, AUC-ROC kõvera mõõtmiseks.

Tõene positiivne: siin tähistab see kõiki neid kirjeid, kus antud tegelikud väärtused on tõesed ja isegi prognoositud väärtused on tõesed. Seega tähistab see kõiki tõelisi positiivseid külgi.

Valenegatiivne: see tähistab kõiki neid kirjeid, kus antud tegelikud väärtused on tõesed, kuid antud prognoositud väärtused on valed.

Valepositiivne: siin on antud tegelikud väärtused valed, kuid antud prognoositud väärtused on tõesed.

Tõene negatiivne: siin on antud tegelikud väärtused valed ja antud prognoositud väärtused on samuti valed.

27. Kas saate selgitada TF/IDF vektoriseerimist?

TF-IDF on lühendatud kui Term Frequency/ Inverse Document Frequency, mis on väga populaarne algoritm antud teksti teisendamiseks arvude tähendusrikkaks esituseks, mida seejärel kasutatakse ennustamise masinalgoritmiga sobitamiseks.

28. Kas saate kirjutada funktsiooni, mis binaarse klassifikatsioonimudeli segamaatriksiga kutsumisel tagastab sõnastiku oma täpsuse ja meeldetuletusega?

|_+_|

29. Kas saate kirjutada koodi binaarse klassifitseerimisalgoritmi täpsuse arvutamiseks selle segadusmaatriksi abil?

|_+_|

30. Kas saate andmeteaduses virnastada?

Mudeli virnastamine on defineeritud kui tõhus ansamblimeetod, kus erinevate masinõppealgoritmide abil genereeritud ennustusi saab kasutada teise kihi õppealgoritmi sisenditena. Seejärel õpetatakse seda teise kihi algoritmi mudeli ennustusi optimaalselt kombineerima, et moodustada uus ennustuste komplekt.

Andmeteaduse intervjuu küsimused ja vastused

31. Kas saate selgitada sisupõhist filtreerimist soovitussüsteemides?

Sisupõhine filtreerimine kasutab üksuse funktsioone, et soovitada muid sarnaseid üksusi, mis kasutajale meeldivad, tuginedes nende varasematele tegevustele või selgesõnalisele tagasisidele.

32. Selgitage, kuidas käsitleda puuduvaid andmeid andmeteaduses?

Puuduvate andmetega tegelemisel andmeteadlased kasutage vea lahendamiseks kahte peamist meetodit.

Imputeerimismeetod loob puuduvate andmete kohta mõistliku oletuse. Seda kasutatakse enamasti siis, kui puuduvate andmete protsent on väike. Kui puuduvate andmete osa on väga suur, puudub tulemustes loomulik variatsioon, mille tulemuseks on tõhus mudel.

Järgmine võimalus on andmete eemaldamine. Kui tegeleme juhuslikult puuduvate andmetega, saab vastavad andmed eelarvamuste vähendamiseks kustutada. Andmete eemaldamine ei ole parim valik, kui usaldusväärse analüüsi tulemuseks pole piisavalt vaatlusi. Teatud olukordades võib olla vajalik konkreetsete sündmuste või tegurite jälgimine.

33. Selgitage vea ja jääkvea erinevusi?

Viga määratletakse kui erinevused vaadeldud väärtuste ja tegelike väärtuste vahel.

Jääk on defineeritud kui erinevused vaadeldud väärtuste ja prognoositud väärtuste vahel (mudeli järgi).

Viga on teoreetiline kontseptsioon, mida kunagi ei täheldata, samas kui jääk on reaalne väärtus, mis arvutatakse iga kord, kui tehakse regressioon.

34. Kas saate SVM-algoritmi üksikasjalikult selgitada?

Support Vector Machine, st (SVM), on määratletud kui juhendatud masinõppe algoritm, mida saab kasutada klassifitseerimise või regressiooniprobleemide jaoks. Seda kasutatakse tavaliselt klassifikatsiooniprobleemide lahendamisel. SVM-algoritmis peame joonistama iga andmeüksuse punktina n-mõõtmelises ruumis (kus n tähistab teie käsutuses olevate tunnuste arvu) iga tunnuse väärtusega, mis on konkreetse koordinaadi väärtus. Järgmiseks peame tegema klassifikatsiooni, leides hüpertasandi, mis eristab kahte klassi väga hästi.

35. Mis on täpsus?

Andmeteaduse täpsust saab defineerida kui tõeliste positiivsete arvu, mis jagatakse tõeliste positiivsete arvu (n) pluss valepositiivsete arvuga.

36. Mis on süvaõpe?

Süvaõpet määratletakse kui masinõppe alamhulka, milles andmed läbivad erinevaid mittelineaarseid teisendusi, et saada kindlaksmääratud väljund. Deep siin viitab antud juhul mitmele etapile. Ühes etapis saadud väljund on teise sammu sisendiks ja seda tehakse pidevalt, et saada määratud lõppväljund.

Süvaõpet nimetatakse ka sügavateks närvivõrkudeks (DNN), kuna see kasutab süvaõppe rakendamiseks mitmekihilisi tehisnärvivõrke.

37. Mis kasu on mõõtmete vähendamisest?

Mõõtmete vähendamise eelised on loetletud allpool:

  1. Seda kasutatakse vajaliku aja ja salvestusruumi vähendamiseks.
  2. Multikollineaarsuse eemaldamine mõõtmete vähendamise teel parandab masinõppemudeli parameetrite tõlgendamist.
  3. See on muutnud andmete visualiseerimise lihtsaks, kui need on vähendatud väga madalale mõõtmele (nt 2D või 3D).
  4. See eemaldab müra ja annab seega lihtsama seletuse.
  5. See leevendab mõõtmete needust.

38. Mis on ROC kõver?

Vastuvõtja tööomaduste kõver, mida tuntakse ROC kõverana, määratletakse graafilise graafikuna, mis näitab binaarse klassifikaatori süsteemi diagnostilist võimet, kuna selle eristamislävi on erinev. See meetod töötati välja sõjaväe radarivastuvõtjate operaatoritele, mistõttu seda nimetatakse ROC curveks.

39. Mis on normaaljaotus?

Normaaljaotust võib defineerida kui statistika põhimõistet. See on andmeteaduse selgroog. Uurimusliku andmeanalüüsi tegemise ajal uurime kõigepealt andmeid ja seejärel püüame leida nende tõenäosusjaotust, eks? Kõige sagedamini ja populaarseim tõenäosusjaotus on normaaljaotus.

Normaaljaotus on kellakujulise kõvera kujul, kus jaotuse keskmine on võrdne mediaaniga.

Andmeteaduse intervjuu küsimused ja vastused

40. Selgitage k-kordset ristvalideerimist?

K-kordne ristvalideerimine on viis hoidmismeetodi täiustamiseks. Seda meetodit kasutatakse meie mudeli tulemuse tagamiseks, mis ei sõltu rongi ja katsekomplekti valimise viisist. Siin olev andmekogum on jagatud k arvuks alamhulkadeks ja hoidmismeetodit tuleb korrata k arv kordi. Seda kasutatakse masinõppe mudelite hindamiseks piiratud andmevalimi alusel

K-kordne ristvalideerimine

41. Kas saate selgitada, miks me peame kasutama kokkuvõttefunktsiooni?

Kokkuvõtefunktsioone kasutatakse kõigi andmekogumis leiduvate kirjete või eri rühmade kirjete alamkokkuvõtte väärtuste kokkuvõtte tegemiseks. Valemid võivad sisaldada mitut kokkuvõtvat funktsiooni. Võrreldes teiste funktsioonidega, arvutavad kokkuvõttefunktsioonid aeglasemalt, kuna need loovad väärtusi kirjevahemiku jaoks.

42. Miks me kasutame p-väärtust?

P-väärtus on defineeritud kui tõenäosuse mõõt, et täheldatud erinevus võis tekkida juhuslikult. P-väärtust kasutatakse hüpoteeside testimisel eelvalitud usaldustasemete alternatiivina või neile lisaks.

43. Kas saate selgitada kerneli funktsiooni SVM-is?

SVM-algoritmid kasutavad matemaatilisi funktsioone, mida tuntakse tuumana. Kerneli ülesanne on võtta andmed sisendiks ja teisendada andmed nõutavasse vormi – näiteks lineaarne, mittelineaarne, radiaalne baasfunktsioon (RBF), polünoom ja sigmoid.

44. Selgitage oskusi, mis on sertifitseeritud andmeteadlaseks saamiseks olulised?

Oskused, mis sertifitseeritud andmeteadlasel peaksid olema, on loetletud allpool:

  1. Andmeteaduse alused
  2. Hea statistika valdamine. Statistikat määratletakse kui andmeteaduse grammatikat.
  3. Heli programmeerimisalased teadmised: see annab võimaluse masinakeelega suhelda.
  4. Andmete manipuleerimine ja analüüs
  5. Andmete visualiseerimine: peab olema tuttav graafikutega nagu histogramm, sektordiagrammid, tulpdiagrammid ja seejärel liikuda edasi arenenud diagrammide juurde, nagu juga diagrammid, termomeetri diagrammid jne
  6. Masinõpe: seda kasutatakse ennustavate mudelite koostamiseks ja see on üks põhioskusi, mis andmeteadlasel peaks olema.
  7. Sügav õppimine
  8. Suurandmed: Interneti juhitava suure andmehulga tõttu püüame neid andmeid käsitleda suurandmete tehnoloogia kasutuselevõtuga, et neid andmeid salvestataks õigesti ja tõhusalt ning neid kasutataks alati, kui vaja.
  9. Tarkvaraarendus
  10. Mudeli juurutamine: see on masinõppe elutsükli üks enim alahinnatud etappe
  11. Suhtlemisoskused
  12. Jutuvestmisoskused: see on andmeteadlase ülimalt oluline omandatud oskus.
  13. Struktureeritud mõtlemine: andmeteadlane peaks alati vaatama probleeme erinevatest vaatenurkadest.
  14. Uudishimu: inimesel peaks olema uudishimu rohkem õppida ja uusi asju avastada.
Vaata ka 100 parimat võimalikku intervjuuküsimust ja vastust

45. Mis on LSTM-i täisvorm? Selgitage selle funktsiooni?

LSTM-i täisvorm on pikk lühiajaline mälu. LSTM on määratletud kui kunstlik korduv närvivõrk (RNN) arhitektuur, mida kasutatakse süvaõppe valdkonnas. LSTM-il on tagasisideühendused, mis ei ole nagu standardsed edasisuunalised närvivõrgud.

LSTM ei saa töödelda mitte ainult üksikuid andmepunkte (nt pilte), vaid ka kõiki andmejadasid, nagu kõne või video.

Näiteks on LSTM rakendatav selliste ülesannete puhul nagu segmenteerimata, ühendatud ja anomaaliate tuvastamine võrguliiklus või IDS, st sissetungimise tuvastamise süsteemid või käekirjatuvastus.

46. ​​Mis on mõiste dispersioon andmeteaduses?

Andmeteaduse dispersiooni saab defineerida kui arvväärtust, mis näitab, kui suurelt jaotuvad andmehulga või andmerühma üksikud arvud keskmise kohta ja seega täpsustab andmestiku iga väärtuse erinevusi keskmisest väärtusest.

47. Mis on andmeteaduse kulufunktsioon?

Andmeteaduse kulufunktsioon on funktsioon, mida kasutatakse masinõppe mudeli toimivuse mõõtmiseks mis tahes antud andmete puhul. Kulufunktsioon kvantifitseerib prognoositud väärtuste ja eeldatavate väärtuste vahelise vea ning esitab selle lõpuks ühe reaalarvuna.

48. Kas saate selgitada terminit logistiline regressioon?

Logistiline regressioon andmeteaduses on klassifitseerimisalgoritm, mida kasutatakse vaatluste määramiseks diskreetsele klassirühmale. Mõned liigitusprobleemide näited on veebitehingud, pettus või pettus, pahaloomuline või healoomuline kasvaja, Saada rämpspost või mitte rämpspost. Logistiline regressioon teisendab oma väljundit, kasutades tõenäosusväärtuse tagastamiseks logistilist sigmoidfunktsiooni.

49. Selgitage mõistet Juhuslik metsamudel?

Juhuslik mets on määratletud kui juhendatud õppealgoritm. Mets, mida ta ehitab, on määratletud kui otsustuspuude kogum, mida tavaliselt koolitatakse kottimise meetodil. Kottimismeetodi üldidee on õppimismudelite kombinatsioon, mis suurendab üldist tulemust

50. Selgitage andmeteaduse nihke-variatsiooni kompromissi?

  1. Nihe on määratletud kui lihtsustavad eeldused, mille mudel teeb sihtfunktsiooni hõlpsaks ligikaudseks muutmiseks.
  2. Dispersioon on defineeritud kui summa, mida sihtfunktsiooni hinnang erinevate treeningandmete korral muutub.
  3. Kompromiss on defineeritud kui pinge nihkest põhjustatud vea ja dispersiooni vahel.

Andmeteaduse intervjuu küsimused ja vastused

51. Kas saate selgitada ühemõõtmelist analüüsi?

Ühemõõtmelist analüüsi võib defineerida kui statistilise andmeanalüüsi tehnika kõige põhilisemat vormi. Kui andmed või teave sisaldavad ainult ühte muutujat ja ei käsitle seose põhjust või tagajärge, siis kasutame ühemõõtmelist analüüsi tehnikat.

Näiteks võib uurija küsitluses otsida täiskasvanute ja laste arvu. Selles näites kajastavad andmed arvu (üks muutuja) ja selle kogust, nagu on näidatud allolevas tabelis.

Ühemõõtmelise analüüsi eesmärk on lihtsalt andmeid kirjeldada, et leida andmetes mustrid. Siin tehakse seda, uurides keskmist, mediaani, moodust, dispersiooni, dispersiooni, vahemikku, standardhälvet jne.

Ühemõõtmeline analüüs

Ühemõõtmelist analüüsi viiakse läbi mitmel viisil, mis on enamasti kirjeldava iseloomuga.

  1. Sagedusjaotuse tabelid
  2. Histogrammid
  3. Sageduspolügoonid
  4. Sektordiagrammid
  5. Tulpdiagrammid

52. Kas saate selgitada kahemõõtmelist analüüsi?

Kahe muutujaga analüüs on natuke analüütilisem kui ühemõõtmeline analüüs. Kui andmekogum koosneb kahest muutujast ja teadlaste eesmärk on võrrelda kahte andmekogumit, saame kasutada kahemõõtmelist analüüsi.

Näiteks võib uurija küsitluses analüüsida nende õpilaste suhet, kes saavutasid üle 95% soolise tulemuse. Sel juhul on meil kaks muutujat, nimelt sugu = X (sõltumatu muutuja) ja tulemus = Y (sõltuv muutuja). Kahe muutujaga analüüs mõõdab seejärel korrelatsioone kahe muutuja vahel, nagu on näidatud allolevas tabelis.

kahemõõtmeline analüüs

53. Kas saate selgitada mitmemõõtmelist analüüsi?

Mitme muutujaga analüüsi võib määratleda kui statistilise analüüsi tehnika keerukamat vormi ja seda kasutatakse enamasti siis, kui andmekogumis on mitu muutujat.

54. Kas oskate nimetada Levinud mitme muutujaga analüüsi tehnikat?

Allpool on loetletud kõige sagedamini kasutatavad mitme muutujaga analüüsi tehnikad.

  1. Faktoranalüüs
  2. Klastri analüüs
  3. Dispersioonanalüüs
  4. Diskriminantanalüüs
  5. Mitmemõõtmeline skaleerimine
  6. Põhikomponentide analüüs
  7. koondamise analüüs

55. Selgitage regressioonianalüüsi?

Regressioonanalüüsi kasutatakse peamiselt kahe erineva muutuja vaheliste seoste hindamiseks. See hõlmab mitme muutuja modelleerimise ja analüüsimise meetodeid, kui keskendutakse sõltuva muutuja ja ühe või mitme (mitu) sõltumatu muutuja vahelisele suhtele.

See aitab meil mõista, kuidas sõltuva muutuja väärtus muutub, kui mõnda sõltumatut muutujat muudetakse.

Seda kasutatakse peamiselt täpsemate andmete modelleerimise eesmärkidel, nagu ennustamine ja prognoosimine.

Mõned kasutatud regressioonitehnikad on loetletud allpool:

  1. Lineaarne regressioon
  2. Lihtne regressioon
  3. Polünoomi regressioon
  4. Üldine lineaarne mudel
  5. Diskreetne valik
  6. Binoomne regressioon
  7. Binaarne regressioon
  8. Logistiline regressioon

56. Mille poolest erineb andmete modelleerimine andmebaasi kujundamisest? Seletama?

Andmemudel on määratletud kui abstraktsioonimehhanismide kogum, mida kasutatakse reaalsuse osa esindamiseks andmebaasi koostamiseks. Näiteks Entity-Relationship Data Modelis saame kujutada tegelikkust olemite ja nendevaheliste suhetega; objektorienteeritud andmemudelis saame reaalsust kujutada objektide ja nendega seotud liitmisklassi ja pärilikkuse mehhanismide kaudu; Relatsiooniandmemudelis kujutatakse reaalsust tabelite kaudu võtmete, võõrvõtmete ja muud tüüpi piirangute jms abil.

Andmebaasimudel on konkreetse andmemudeliga koostatud reaalsuse mudeli nimi, mis tähendab, et see on seotud teatud andmebaasihaldussüsteemi konkreetse skeemiga, mis esindab konkreetset reaalsust. Näiteks kooli andmebaasimudelis on teil üksused Õpilased, õppejõud koos mitme muu seosega ja igaüks neist sisaldab teatud atribuutide komplekti.

57. Kas saate selgitada, kuidas andmeteadus ja masinõpe on üksteisega seotud?

Andmeteadus on valdkond, mille eesmärk on kasutada teaduslikku lähenemist, et eraldada antud andmetest tähendus ja arusaam. Lihtsamalt öeldes on andmeteadus määratletud kui infotehnoloogia, ärijuhtimise ja modelleerimise kombinatsioon.

Masinõpe viitab andmeteadlaste kasutatavatele tehnikate rühmale, mis võimaldab arvutitel andmetest õppida. Need tehnikad on loodud tulemuste saamiseks nii, et need toimiksid hästi ilma selgesõnaliste programmeerimisreegliteta.

58. Kas saate meile öelda GAN-i täieliku vormi? Selgitage GAN-i?

GAN-i täisvorm on järgmine: Generative Adversarial Network. See on uus põnev innovatsioon masinõppes. GAN-id on määratletud generatiivsete mudelitena, mis loovad uusi andmeeksemplare, mis on sarnased koolitusandmetega.

Näiteks loovad GAN-id pilte, mis näevad välja nagu fotod inimnägudest, kuigi need näod ei kuulu tegelikkuses ühelegi inimesele.

59. Mis on masinõppes mõiste ansambliõpe?

Ansambli meetodeid saab määratleda kui masinõppetehnikaid, mida kasutatakse mitme baasmudeli kombineerimiseks ühe optimaalse ennustava mudeli saamiseks.

60. Selgitage mõistet Aktiveerimisfunktsioon?

Närvivõrkudes kasutatakse aktiveerimisfunktsiooni antud sõlme summeeritud kaalutud sisendi teisendamiseks selle sisendi sõlme või väljundi aktiveerimiseks. Siin aitab alaldatud lineaarne aktiveerimisfunktsioon ületada kaduva gradiendi probleemi, võimaldades seega mudelitel paremini töötada.

Aktiveerimisfunktsioonide tüübid on loetletud allpool:

Astmefunktsioon: see on kõige lihtsam aktiveerimisfunktsioon.

Siin peaksime arvestama läviväärtusega ja kui netosisendi väärtus, näiteks y, on suurem kui läviväärtus, siis aktiveerime neuroni.

Matemaatiliselt on see esitatud järgmiselt:

f(x) = 1, kui x>=0

f(x) = 0, kui x<0

Sigmoidne funktsioon: see on määratletud kui Aktiveerimisfunktsioon

ReLu: see on määratletud kui f(x)= max(0,x)

Lekkiv ReLU: see on määratletud kui

f(x) = ax, x<0

f(x) = x, muidu

Andmeteaduse intervjuu küsimused ja vastused

61. Selgitage terminit Batch normalisation in Data Science?

Siin on idee selles, et selle asemel, et lihtsalt võrgu sisendeid normaliseerida, normaliseerime tavaliselt võrgus või võrgu sees olevate kihtide sisendid, mida nimetatakse partii normaliseerimiseks, kuna koolituse käigus normaliseerime tavaliselt iga kihi sisendid, kasutades selleks väärtuste keskmine ja dispersioon käesolevas minipartiis.

62. Selgitage automaatkodeerijaid?

Autoencoder on määratletud kui järelevalveta tehisnärvivõrk, mis õpib andmeid täpselt tihendama ja kodeerima ning seejärel õpib, kuidas rekonstrueerida andmed miniatuursest kodeeritud esitusest tagasi esitusviisini, mis on võimalikult lähedal algsele sisendile.

Neid kasutatakse kas dimensioonide vähendamiseks või generatiivse mudelina, mis tähendab, et nad saavad antud sisendandmetest genereerida uusi andmeid.

63. Nimeta erinevaid ansambliõppe liike?

Allpool on toodud erinevad ansambliõppe tüübid:

  1. Bayesi optimaalne klassifikaator
  2. Bootstrap koondamine
  3. Tugevdamine. Põhiartikkel: Boosting
  4. Bayesi mudeli keskmistamine
  5. Bayesi mudeli kombinatsioon
  6. Kopp mudeleid
  7. Virnastamine
  8. Kaugseire

64. Kas saate selgitada andmete puhastamise rolli andmeanalüüsis?

Andmete puhastamist võib määratleda kui andmete analüüsiks ettevalmistamise protsessi, muutes või eemaldades andmeid, mis on ebaõiged, ebaolulised, mittetäielikud, dubleeritud või valesti vormindatud. Tavaliselt ei ole need andmed andmete analüüsimisel abiks, kuna need takistavad protsessi ja annavad ebatäpsed või valed tulemused.

65. Selgitage terminit hüperparameetrid?

Masinõppes saab hüperparameetrit määratleda parameetrina, mille väärtus juhib õppeprotsessi. Seevastu teiste parameetrite väärtused tuletatakse koolituse kaudu.

66. Selgitage LSTM-i erinevaid samme?

LSTM-i erinevad sammud on loetletud allpool:

  1. Võrgu määratlemine: Kerases määratletud närvivõrgud on kihtide jadas. Nende kihtide konteiner on klassis Sequential. Esimene samm siin on järjestikuse klassi eksemplari loomine. Seejärel peame looma kihid ja lisama need järjekorras, et need oleksid ühendatud.
  2. Võrgu kompileerimine: siinne kompileerimine on tõhus samm. Seda kasutatakse lihtsa kihtide jada teisendamiseks, mis on määratletud ülitõhusaks maatriksiseeriaks, mis muundatakse vormingusse, mis käivitatakse teie GPU-s või CPU-s, olenevalt Kerase konfiguratsioonist.
  3. Võrgu sobitamine: kui oleme võrgu koostanud, võib see sobida, mis tähendab treeningandmete kogumi raskuste kohandamist.
  4. Võrgustiku hindamine: kui võrgustik on koolitatud, tuleb seda hinnata. Võrku hinnatakse koolitusandmete põhjal, kui see ei anna kasulikku teavet võrgu toimivuse kohta ennustava mudelina.
  5. Tehke ennustusi: kui oleme sobivusmudeli toimivusega rahul, saame seda kasutada uute andmete põhjal prognooside tegemiseks. Seda saab hõlpsasti teha, kutsudes esile ennustamisfunktsiooni ().

67. Kas saate võrrelda valideerimiskomplekti ja testikomplekti?

Valideerimiskomplekti kasutatakse süsteemi õigete parameetrite valimiseks. See on osa koolituskomplektist.

Testikomplekti kasutatakse süsteemi täpsuse testimiseks ja ütlemiseks.

68. Kas saaksite tuua võrdluse üle- ja alasobitamise vahel?

Ülesobitamine on seotud mudeliga, mis modelleerib treeningandmeid liiga hästi. Ülesobitamine toimub tavaliselt siis, kui mudel õpib teatud määral koolitusandmete detaile ja müra, mis mõjutab negatiivselt mudeli jõudlust uute andmete puhul.

See tähendab, et treeningandmetes esinev müra või juhuslikud kõikumised võetakse üles ja mudel õpib need mõistetena selgeks.

Probleem on selles, et need mõisted ei kehti uute andmete puhul ja neil on negatiivne mõju mudeli üldistusvõimele.

Vaata ka 100 parimat JavaScripti intervjuu küsimust ja vastust

Alasobitamist võib nimetada mudeliks, mis ei modelleeri treeningandmeid ega saa üldistada uuteks andmeteks. Vähesobivat masinõppe mudelit ei peeta sobivaks mudeliks ja sellel on treeningandmete osas halb jõudlus.

69. Kas saate palun selgitada analüüsiprojekti erinevaid etappe?

Andmeanalüüsi projekti lõpuleviimiseks on seitse põhietappi ja need on loetletud allpool.

  1. Mõistke äri
  2. Hankige oma andmed
  3. Uurige ja puhastage oma andmeid
  4. Rikastage oma andmekogu.
  5. Looge kasulikke visualiseerimisi
  6. Olge ennustav
  7. Korda, korda, korda.

70. Kas saate selgitada omavektoreid ja omaväärtusi?

Omaväärtused ja omavektorid on arvutamise ja matemaatika alused. Teadlased kasutavad neid sageli.

Omavektorid on defineeritud kui ühikvektorid, mis määravad, et nende pikkus või suurus on võrdne 1-ga.

Omaväärtused on defineeritud kui koefitsiendid, mida rakendatakse omavektoritele, mis annavad vektoritele nende vajaliku pikkuse või suuruse.

Andmeteaduse intervjuu küsimused ja vastused

71. Selgitage A/B testimise eesmärki?

A/B testimine on defineeritud kui statistiline hüpoteeside testimine, mis on mõeldud randomiseeritud katse jaoks, millel on kaks muutujat, A ja B. A/B testimise põhieesmärk on maksimeerida huvipakkuva tulemuse võimalust, tuvastades, kas on olemas mis tahes muudatused veebilehel. A/B testimist kasutatakse kõige testimiseks, alates müügimeilidest kuni veebisaidi koopiani ja otsingureklaamideni.

72. Selgitage mõisteid klastrivalim ja süstemaatiline valim?

Süstemaatiline valim valib antud populatsioonist juhusliku lähtepunkti ning seejärel võetakse valim antud üldkogumi regulaarsetest fikseeritud intervallidest sõltuvalt selle suurusest.

Klastrite valim jagab üldkogumi tavaliselt klastriteks ja seejärel võetakse igast klastrist lihtne juhuslik valim.

Meil on kahte tüüpi klastriproove:

  1. üheastmeline kobarvalim
  2. kaheastmeline kobarvalim.

73. Mis on tensorid?

Tensorid on defineeritud kui andmestruktuuri tüüp, mida kasutatakse lineaaralgebras, ja nagu vektorid ja maatriksid, saab aritmeetilisi tehteid arvutada tensorite abil.

Need on maatriksite üldistused ja need on esitatud n-mõõtmeliste massiivide abil.

74. Selgitage kõrvalekaldeid ja kuidas te neid käsitlete?

Outlier väärtused on defineeritud kui statistika andmepunktid, mis ei kuulu ühegi kindla populatsiooni hulka. Kõrvalväärtust defineeritakse kui ebanormaalset vaatlust, mis erineb teistest komplekti kuuluvatest väärtustest.

Kõrvalväärtuste käsitlemiseks peate järgima järgmisi samme:

  1. Peate oma testimistööriistas seadistama filtri
  2. Testijärgse analüüsi käigus eemaldage või muutke kõrvalekaldeid
  3. Muutke kõrvalekallete väärtust
  4. Mõelge aluseks olevale jaotusele
  5. Võtke arvesse kergete kõrvalekallete väärtust

75. Nimeta GANi elutähtsad komponendid?

GAN-i olulised komponendid on loetletud allpool:

  1. Generaator
  2. Diskrimineerija

76. Kas saate selgitada partii ja stohhastilise gradiendi laskumise erinevust?

Partii gradiendi laskumineStohhastilise gradiendi laskumine
Maht on analüüsi eesmärgil suur.Analüüsi jaoks on see maht väiksem kui partii.
See värskendab kaalu aeglaselt.See värskendab kaalu sagedamini.
See aitab gradienti arvutada, kasutades kogu saadaolevat andmekogumit.See aitab gradiendi arvutamisel kasutada ainult ühte proovi.

77. Python või R Millist neist eelistaksite tekstianalüütika jaoks?

Python Pandase raamatukogu tõttu, mis pakub hõlpsasti kasutatavaid andmestruktuure ja suure jõudlusega andmeanalüüsi tööriistu.

78. Mis on arvutusgraafik?

Arvutusgraafik on viis, mis kujutab matemaatilist funktsiooni graafiteooria keeles. Sõlmed siin on sisendväärtused või funktsioonid nende kombineerimiseks; kui andmed liiguvad läbi graafiku, saavad servad vastava kaalu.

79. Selgitage mõisteid interpoleerimine ja ekstrapoleerimine?

Ekstrapoleerimist defineeritakse kui väärtuse hindamist, mis põhineb teadaoleva väärtusjada või faktide laiendamisel kindlasti teadaolevast piirkonnast kaugemale.

Interpolatsioon on väärtuse hinnang väärtuste jada kahe teadaoleva väärtuse piires.

80. Kas saate selgitada, mida P-väärtus statistiliste andmete juures tähistab?

  1. Kui P-väärtus > 0,05, tähistab see nõrka tõendusmaterjali nullhüpoteesi vastu, mis tähendab, et te ei saa nullhüpoteesi tagasi lükata.
  2. Kui P-väärtus<= 0.05, then it denotes a piece of strong evidence against the null hypothesis, which you can reject the NULL hypothesis.
  3. Kui P-väärtus = 0,05, siis on see piirväärtus, mis näitab, et on võimalik minna mõlemale poole.

Andmeteaduse intervjuu küsimused ja vastused

81. Kas saate seletada kast-Coxi teisendust regressioonimudelites?

Box-Coxi teisenduste põhieesmärk regressioonis ei ole mitte muuta regressiooni muutujad normaaljaotust järgima, vaid muuta muutujate mõju aditiivseks.

Box-Coxi teisendust võib defineerida kui statistilist tehnikat, mis teisendab morulast mittesõltuvad muutujad normaalkujuks. Kui esitatud andmed ei ole normaalsed, eeldab enamik statistilisi võtteid seda normaalsena. Kasti cox teisenduse rakendamine näitab, et saate käitada suurema arvu teste.

82. Kas oskate meile öelda regulaarsusmeetodite (nt Ridge Regression) kasutamise eelised ja puudused?

Ridge Regressioni kasutamise eelised on järgmised:

  1. Saate vältida mudeli ülepaigutamist.
  2. Need ei nõua erapooletuid hinnanguid.
  3. Need lisavad piisavalt eelarvamusi, et teha hinnangud suhteliselt usaldusväärseks lähendamiseks tegelikele populatsiooni väärtustele.
  4. Need toimivad endiselt hästi suurte mitme muutujaga andmete korral, mille ennustajate arv on suurem kui vaatluste arv.

Ridge'i regressiooni puudused on järgmised:

  1. IT sisaldab kõiki ennustajaid, mis lõplikus mudelis tehakse.
  2. Nad ei saa funktsioone valida.
  3. Nad kahandavad koefitsiente nulli suunas.
  4. Nad vahetavad dispersiooni eelarvamusega.

83. Kuidas hinnata head logistilist mudelit?

  1. Tõeliste negatiivsete ja valepositiivsete tulemuste vaatamiseks võite kasutada klassifikatsioonimaatriksit.
  2. Kooskõla aitab tuvastada logistilise mudeli võimet eristada toimuvat sündmust mittejuhtuvast sündmusest.
  3. Lift aitab meil hinnata logistilist mudelit, võrreldes seda mõne juhusliku valikuga.

84. Selgitage multikollineaarsust ja kuidas saate sellest üle saada?

Multikollineaarsus ilmneb siis, kui regressioonimudeli sõltumatud muutujad on korrelatsioonis. Siin muutub korrelatsioon probleemiks, kuna sõltumatud muutujad peaksid olema sõltumatud.

Allpool mainitud on multikollineaarsuse parandused:

  1. Probleemide tõsidus suureneb koos multikollineaarsuse astmega. Seetõttu veenduge, et teil oleks ainult mõõdukas multikollineaarsus, et te ei pruugi seda lahendada.
  2. Multikollineaarsus mõjutab ainult konkreetseid sõltumatuid muutujaid, mis on omavahel seotud. Seega, kui multikollineaarsus puudub sõltumatute muutujate puhul, mis teid eriti huvitavad, ei ole vaja seda lahendada.
  3. Multikollineaarsus mõjutab koefitsiente ja p-väärtusi, kuid see ei mõjuta ennustusi, ennustuste täpsust. Kui teie peamine eesmärk on ennustada ja te ei pea mõistma iga sõltumatu muutuja rolli, ei pea te vähendama tõsist multikollineaarsust.

85. Kas suudad eristada funktsiooni func()-st?

funktsioonifunktsioon ()
Funktsiooni saab määratleda kui koodiplokki konkreetse ülesande täitmiseks.See on seotud objektide/klassidega.
def functionName( arg1, arg2,….): ……. # Function_body ……..klassi klassinimi: def meetodi_nimi(): ………….. # Method_body ………………

86. Mida mõistate Pythonis termini marineerimine all?

Pikistamine on defineeritud kui protsess, mille käigus Pythoni objektihierarhia teisendatakse baitivooks, ja eemaldamine on defineeritud kui pöördoperatsioon, mille käigus baidivoog teisendatakse tagasi objektihierarhiaks.

87. Nimetage erinevad järjestamisalgoritmid?

Reitingu õppimine (LTR) on defineeritud kui tehnikate klass, mis tavaliselt rakendab järjestamisprobleemide lahendamiseks juhendatud masinõpet (ML).

Erinevad järjestusalgoritmid on loetletud allpool.

RankNet: RankNeti kulufunktsioonide eesmärk on minimeerida pingereas inversioonide arvu. Inversioon tähendab siin vale järjekorda tulemuste paari vahel, st kui me järjestame järjestatud loendis madalama reitinguga tulemuse kõrgemale. See optimeerib kulufunktsiooni, kasutades stohhastilise gradiendi laskumist.

LambdaRank: Siin ei vaja te kulusid. Teil on vaja ainult kulu gradiente (λ) mudeli skoori suhtes. Me arvame, et need kalded on väikesed nooled, mis on lisatud igale järjestatud loendis olevale dokumendile, näidates seega suunda, kuhu me soovime, et need dokumendid liiguksid.

LambdaMart: see on kombinatsioon LambdaRankist ja MART-ist, st mitmest lisandist regressioonipuud. Kui MART kasutab ennustusülesannete jaoks gradiendi võimendatud otsustuspuid, siis LambdaMART kasutab järjestamise ülesande lahendamiseks LambdaRankist tuletatud kulufunktsiooni. Eksperimentaalsete andmekogumite põhjal on LambdaMART näidanud paremat jõudlust kui LambdaRank ja algne RankNet.

88. Kas suudate eristada kastdiagrammi ja histogrammi?

Histogrammid ja kastdiagrammid on arvandmete väärtuste sageduse graafilised esitused.

Nende peamine eesmärk on kirjeldada andmeid või teavet ning uurida keskseid tendentse ja varieeruvust enne täiustatud statistilise analüüsi tehnikate kasutamist.

Histogrammid on tavaliselt tulpdiagrammid, mis näitavad meile numbrilise muutuja väärtuste sagedust, ja neid kasutatakse muutuja tõenäosusjaotuse ligikaudseks määramiseks. See võimaldab meil kiiresti mõista jaotuse kuju, võimalikke kõrvalekaldeid ja variatsioone.

Boxplote kasutatakse andmete levitamise erinevate aspektide edastamiseks.

89. Mis on ristvalideerimine?

Ristvalideerimist defineeritakse kui tehnikat, mida kasutatakse selleks, et hinnata, kuidas statistiline analüüs üldistatakse sõltumatule andmekogumile. See on tehnika, mida kasutatakse masinõppe mudelite hindamiseks, koolitades mitut mudelit olemasoleva sisendteabe antud alamhulkade põhjal ja hinnates neid täiendava andmete alamhulga alusel.

90. Kuidas defineerida või valida mõõdikuid?

Mõõdikud sõltuvad erinevatest teguritest, näiteks:

  1. Kas see on regressiooni- või klassifitseerimisülesanne?
  2. Mis on teie ärieesmärk?
  3. Milline oleks sihtmuutuja jaotus?

Andmeteaduse intervjuu küsimused ja vastused

90. Selgitage mõistet NLP?

NLP tähendab loomuliku keele töötlemist. See on lingvistika, tehisintellekti ja arvutiteaduse alamvaldkond, mis tegeleb arvutite ja inimkeele vastastikmõjuga, eelkõige sellega, kuidas programmeerida arvuteid töötlema ja analüüsima tohutul hulgal loomuliku keele teavet.

91. Selgitage mõõtmete vähendamise eeliseid?

Mõõtmete vähendamise eelised on loetletud allpool:

  1. See vähendab arvutusaega.
  2. See hoolitseb multikollineaarsuse eest, mis parandab mudeli jõudlust
  3. Samuti aitab see eemaldada üleliigseid funktsioone,
  4. See lühendab sarnaste arvutuste tegemiseks kuluvat aega.

92. Mis on tuum?

Kernelit nimetatakse tavaliselt kerneli trikiks – meetodiks, mis kasutab mittelineaarse probleemi lahendamiseks lineaarset klassifikaatorit. See aitab muuta lineaarselt lahutamatud andmed lineaarselt eraldatavateks andmeteks.

93. Selgitage mõistet hoogustamine?

Masinõppes on võimendamine kontseptsioon, mis on metaalgoritm, mis vähendab peamiselt kallutatust ja ka erinevusi juhendatud õppes. See kuulub masinõppealgoritmide perekonda, mis teisendab nõrgad õppijad tugevamateks.

94. Kas saate kirjeldada Markovi kette?

Markovi kett on defineeritud kui stohhastiline mudel, mis kirjeldab võimalike sündmuste jada, kus iga sündmuse tõenäosus sõltub peamiselt eelmise sündmusega saavutatud olekust.

95. Defineerida keskpiiri teoreem?

Keskpiirteoreem defineerib, et kui meil on populatsioon keskmise μ ja standardhälbega σ, mis suudab antud populatsioonist asendusega võtta piisavalt suuri juhuslikke proove, siis valimi keskmiste dispensatsioon jaotub ligikaudu normaalselt.

96. Selgitage mõistet statistiline võimsus?

Statistiline võimsus viitab hüpoteesi testi võimsusele, mis on defineeritud kui tõenäosus, et test lükkab nullhüpoteesi õigesti tagasi. Siin on see tõelise positiivse tulemuse tõenäosus. See on kasulik ainult siis, kui nullhüpotees lükatakse tagasi.

97. Kas oskate nimetada kolme tüüpi kõrvalekaldeid, mis võivad valimi võtmisel tekkida?

  1. Valiku eelarvamus
  2. Katvuse all
  3. Ellujäämise eelarvamus

98. Mis on eelarvamus?

Andmeteaduses defineeritakse kallutatust kui kõrvalekallet antud andmete ootusest. Lihtsamalt öeldes viitab kallutatus andmetes esinevale veale. Kuid viga jääb sageli märkamatuks.

99. Kas saate seletada 'naiivset' naiivse Bayesi algoritmis?

Naiivse Bayesi algoritmi mudel põhineb enamasti Bayesi teoreemil. See määrab sündmuse tõenäosuse. See põhineb eelnevatel teadmistel tingimuste kohta, mis võivad olla seotud selle konkreetse sündmusega.

100. Mis on tagasipaljundamine?

Tagasi-levi on iga närvivõrgu treeningu olemus. See on meetod, mis häälestab närvivõrgu kaalud, mis sõltub eelmises epohhis saadud veamäärast. Õige häälestamine aitab meil vähendada veamäärasid ja muuta need usaldusväärsemaks mudeliks, suurendades selle üldistust.

Korduma kippuvad küsimused

Nimetage sagedamini kasutatavad juhendatud õppealgoritmid?

otsustuspuud, logistiline regressioon, tugivektori masin

Järeldus

Edu teile andmeteaduse intervjuu puhul ja loodame, et meie andmeteaduse intervjuu küsimused ja vastused olid teile abiks. Võite vaadata ka meie Kõnekeskuse intervjuu küsimused ja vastused , mis võib sind aidata.