Koji je mehanizam za obradu podataka iza Amazon Elastic MapReduce?
Koji je mehanizam za obradu podataka iza Amazon Elastic MapReduce?
Anonim

Amazon EMR koristi Apache Hadoop kao svoju distribuciju mašina za obradu podataka . Hadoop je Java softverski okvir otvorenog koda koji podržava podaci -intenzivne distribuirane aplikacije koje rade na velikim klasterima of robni hardver.

Štaviše, šta je Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) je Amazon Web Services ( AWS ) alat za obradu i analizu velikih podataka. Amazon EMR obrađuje velike podatke preko Hadoop klastera virtuelnih servera Amazon Elastic Računalni oblak ( EC2 ) i Amazon Jednostavna usluga skladištenja ( S3 ).

Nadalje, da li se Amazon EMR u potpunosti upravlja? To je u potpunosti upravljano Usluga data lake koja može odvojiti skladištenje podataka od računarskih resursa i umjesto toga čini računske klastere skalabilnim, dostupnim za korištenje na zahtjev i uključuje mogućnost da više klastera pristupi istim skupovima podataka odjednom.

Neko se takođe može zapitati, kako funkcioniše AWS EMR?

Generalno, kada obrađujete podatke u Amazon EMR , ulaz su podaci pohranjeni kao datoteke u vašem odabranom osnovnom sistemu datoteka, kao što je Amazon S3 ili HDFS. Ovi podaci prelaze iz jednog koraka u drugi u nizu obrade. Posljednji korak upisuje izlazne podatke na određenu lokaciju, kao što je Amazon S3 kašika.

Koja je razlika između ec2 i EMR?

Za razliku od EMR , EC2 ne kategorizira slave čvorove u jezgre i čvorove zadataka. Ovo povećava rizik od gubitka HDFS podataka u slučaju uklanjanja/gubljenja čvora. EC2 koristi Apache biblioteke (s3a) za pristup podacima na s3. S druge strane, EMR koristi AWS vlasnički kod za brži pristup s3.

Preporučuje se: