Sadržaj:

Koji su različiti formati datoteka u Hadoop-u?
Koji su različiti formati datoteka u Hadoop-u?

Video: Koji su različiti formati datoteka u Hadoop-u?

Video: Koji su različiti formati datoteka u Hadoop-u?
Video: hadoop yarn architecture 2024, Novembar
Anonim

Na vašu sreću, zajednica velikih podataka se u osnovi odlučila na tri optimizirana formati datoteka za upotrebu u Hadoop klasteri: Optimizirani stupovi redova (ORC), Avro i Parket.

Nakon toga, može se postaviti pitanje koje su različite vrste formata podataka?

Ima ih tri vrste podataka mapiranje i GIS formati podataka . Svaki tip tretira se drugačije.

Tipovi formata podataka

  • Zasnovane na fajlovima – Shapefiles, Microstation Design Files (DGN), GeoTIFF slike.
  • Zasnovano na imeniku - ESRI ArcInfo pokrivenosti, US Census TIGER.
  • Veze baze podataka - PostGIS, ESRI ArcSDE, MySQL.

Osim toga, koji je format datoteke najbolji u košnici? RCFile je stupasti red format datoteke . Ovo je još jedan oblik Hive format datoteke koji nudi visoke stope kompresije na nivou reda. Ako imate zahtjev da izvodite više redova istovremeno, onda možete koristiti RCFile formatu.

Imajući ovo u vidu, koji su uobičajeni formati unosa u Hadoop-u?

InputFormat kreira Inputsplit

  • Najčešći formati za unos su:
  • FileInputFormat- To je osnovna klasa za sve datoteke-basedInputFormat.
  • TextInputFormat- To je zadani InputFormat za MapReduce.
  • KeyValueTextInputFormat- Sličan je TextInputFormat.
  • Pratite vezu da saznate više o InputFormat u Hadoop-u.

Šta je orc format datoteke u Hadoop-u?

ORC format datoteke Optimizirani stupac reda ( ORC ) format datoteke pruža visoko efikasan način za pohranjivanje Hive podataka. Dizajniran je da prevaziđe ograničenja druge košnice formati datoteka . Koristeći ORC fajlovi poboljšava performanse kada Hive čita, piše i obrađuje podatke.

Preporučuje se: