Šta je problem sa malim fajlovima u Hadoop-u?
Šta je problem sa malim fajlovima u Hadoop-u?

Video: Šta je problem sa malim fajlovima u Hadoop-u?

Video: Šta je problem sa malim fajlovima u Hadoop-u?
Video: Два года назад я приехал сюда. Что с землянкой? Жуткая атмосфера. 2024, Maj
Anonim

1) Problem male datoteke in HDFS : Čuvanje puno mali fajlovi koji su izuzetno manji nego se veličina bloka ne može efikasno rukovati HDFS . Čitanje do kraja mali fajlovi uključuje puno traženja i mnogo skakanja između čvora podataka do čvora podataka, što je zauzvrat neefikasna obrada podataka.

Osim ovoga, koje datoteke se bave malim problemima datoteka u Hadoop-u?

1) HAR ( Hadoop Arhiva) Fajlovi je upoznat sa baviti se malim problemom sa fajlovima . HAR je uveo sloj na vrhu HDFS , koji pružaju interfejs za fajl pristupanje. Koristeći Hadoop arhivska komanda, HAR datoteke kreiraju se, koji se pokreće a MapReduce posao pakovanja datoteke se arhivira u manji broj HDFS datoteke.

Nadalje, mogu li imati više datoteka u HDFS-u koji koriste različite veličine blokova? Default veličina of blok je 64 MB. ti mogu promijenite ga ovisno o vašim zahtjevima. Dolazim do vašeg pitanja da može kreirati više datoteka variranjem veličine blokova ali ovo u realnom vremenu će ne favorizuju proizvodnju.

Štaviše, zašto HDFS ne rukuje optimalno malim datotekama?

Problemi sa mali fajlovi i HDFS Svaki fajl , direktorij i blok u HDFS je predstavljen kao objekat u memoriji imenode, od kojih svaki zauzima 150 bajtova, kao pravilo. Nadalje, HDFS nije prilagođen efikasnom pristupu mali fajlovi : it je prvenstveno dizajniran za streaming pristup velikim datoteke.

Zašto je Hadoop spor?

Sporo Brzina obrade Ovom traženju diska je potrebno vrijeme, što čini cijeli proces vrlo sporo . Ako Hadoop obrađuje podatke u malom obimu, to je vrlo sporo komparativno. Idealan je za velike skupove podataka. As Hadoop ima mašinu za grupnu obradu u jezgri, njegova brzina za obradu u realnom vremenu je manja.

Preporučuje se: