Sadržaj:

Mogu li pokrenuti Python na Hadoop-u?
Mogu li pokrenuti Python na Hadoop-u?

Video: Mogu li pokrenuti Python na Hadoop-u?

Video: Mogu li pokrenuti Python na Hadoop-u?
Video: Data Science with Python! Analyzing File Types from Avro to Stata 2024, Maj
Anonim

Uz izbor između programskih jezika kao što su Java, Scala i Python za Hadoop ekosistema, većina programera koristi Python zbog svojih pomoćnih biblioteka za zadatke analize podataka. Hadoop streaming omogućava korisniku da kreira i izvršiti Preslikavanje/smanjenje poslova bilo kojom skriptom ili izvršnom datotekom kao maperom ili/i reduktorom.

Slično, postavlja se pitanje kako se Python povezuje sa Hadoop-om?

Povezivanje Hadoop HDFS-a sa Pythonom

  1. Korak 1: Uvjerite se da Hadoop HDFS radi ispravno. Otvorite Terminal/Command Prompt, provjerite da li HDFS radi koristeći sljedeće naredbe: start-dfs.sh.
  2. Korak 2: Instalirajte biblioteku libhdfs3.
  3. Korak 3: Instalirajte hdfs3 biblioteku.
  4. Korak 4: Provjerite je li veza s HDFS-om uspješna.

Slično tome, šta je Hadoop u Pythonu? Python je potpuni programski jezik opće namjene koji se može koristiti za gotovo sve u svijetu programiranja. Hadoop je veliki okvir podataka napisan u Javi za rad sa ogromnim količinama podataka. Postoje brojni onlajn instituti koji Hadoop sa Python kursevi kao što su: Analytixlabs. Edureka.

Nakon toga, postavlja se pitanje kako da pokrenem Python MapReduce program u Hadoop-u?

Pisanje Hadoop MapReduce programa u Pythonu

  1. Motivacija.
  2. Šta želimo da radimo.
  3. Preduvjeti.
  4. Python MapReduce kod. Korak mape: mapper.py. Smanji korak: reduktor.py.
  5. Pokretanje Python koda na Hadoop-u. Preuzmite primjer ulaznih podataka. Kopirajte lokalne primjere podataka u HDFS.
  6. Poboljšani kod Mapper i Reducer: korištenje Python iteratora i generatora. mapper.py. reduktor.py.

Šta je Hadoop Streaming jar?

Hadoop distribucija pruža Java uslužni program tzv Hadoop Streaming . Upakovano je u a jar fajl. With Hadoop Streaming , možemo kreirati i pokrenuti Map Reduce poslove pomoću izvršne skripte. Hadoop Streaming je uslužni program koji dolazi s Hadoop distribucija. Može se koristiti za izvršavanje programa za analizu velikih podataka.

Preporučuje se: