Pig, Hive dan Hbase: Mengolah Big Data

Dengan pengunjung yang sangat banyak per harinya, bagaimana Anda berfikir Facebook dapat menangani begitu banyak data dan hiruk pikuk dengan baik? Apache Hadoop bersama dengan banyak teknologi, antara lain Pig, Hive, HBase dan sebagainya adalah solusi untuk permasalahan tersebut yang dapat diterapkan pada komputer-komputer komoditas di tempat Anda.

Daftar Isi

≡

Mengolah Big Data

HBase dan Hive dapat digunakan secara bersama di dalam kluster Hadoop yang sama untuk memaksimalkan keunggulan masing-masing produk. Dengan demikian, pengolahan big data dapat dilakukan secara realtime dengan lebih mudah.
— Pig, Hive dan Hbase: Mengolah Big Data

https://bptsi.unisayogya.ac.id/pig-hive-dan-hbase-mengolah-big-data/ 2021-08-06 07:40:48

Pig

Apache Pig is a platform for analyzing large data sets that consists of a high-level language for expressing data analysis programs, coupled with infrastructure for evaluating these programs. The salient property of Pig programs is that their structure is amenable to substantial parallelization, which in turns enables them to handle very large data sets.
https://pig.apache.org/

Perangkat lunak yang meng-abstraksi map reduce
Bahasa scripting pig latin
Memiliki sejumlah perintah untuk trasformasi data
Dapat dijalankan secara interaktif maupun batch
Dapat dikembangkan dengan membut fungsi berbasis pemrograman Java
Pemrograman berbasis aliran data

Hive

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.
https://hive.apache.org/

Framework data warehousing yang berjalan di atas Hadoop
Dibuat oleh tim facebook
Dibuat untuk analisis yang terbiasa dengan SQL tetapi tidak terbiasa dengan pemrograman Java
Saat ini menjadi aplikasi yang digunakan oleh banyak industri sebagai platform pemrosesan berskala besar
Schema on Read, berbeda dengan RDBMS yang menggunakan Schema on Write
Tidak ada update, transaction dan index

HBase

Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project’s goal is the hosting of very large tables — billions of rows X millions of columns — atop clusters of commodity hardware. Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google’s Bigtable: A Distributed Storage System for Structured Data by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, Apache HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.
https://hbase.apache.org/

Database terdistribusi berorientasi kolom yang disimpan di HDFS, berbeda dengan RDBMS yang biasanya berbasis baris
Digunakan pada proses baca tulis random dan realtime berskala besar
Bukan relasional
Tidak mendukung SQL
Banyak digunakan untuk tabel web
Konsep:
- Data disimpan dalam bentuk tabel
- Kolom kunci berupa byte array sehingga bisa menyimpan tipe apapun
- Kolom dikelompokkan menjadi family. Setiap anggota family dipisahkan dengan tanda titik dua (:)
- Setiap kolom berkumpul di sistem file
- Tabel dipartisi horisontal secara otomatis ke banyak server
- Setiap sel memiliki timestamp
- Locking per sel
Karakteristik:
- Tidak ada index
- Partisi terjadi secara otomatis
- Skalabilitas horisontal, linear dan otomatis
- Perangkat keras komoditas
- Fault tolerance
- Pemrosesan batch

Kerja Bareng Hive-HBase?

Berdasarkan informasi yang dilansir dari mindmajix.com, bahwa Hive dan Hbase dapat digunakan secara bersama-sama untuk memaksimalkan kelebihan masing-masing.

Dikatakan bahwa merupakan pilihan yang baik ketika menggunakan Hive sebagai perangkat ETL untuk memasukkan data secara batch dan kemudian menjalankan query yang merupakan data gabungan yang ada di tabel HBase dan yang ada di sistem HDFS
Memungkinkan untuk menuliskan query berbasis HiveQL pada tabel HBase
Apache Hive memiliki library khusus untuk berinteraksi dengan HBase sebagai mediator antara Hive dan HBase

Pelatihan hari keempat Big Data Administration with Hadoop (5/8/2021) sebagai bagian dari penggunaan dana hibah PKKM tahun anggaran 2021 dengan mentor Nuzul Fauzan M. [bst]

Sumber:

2 replies on “Pig, Hive dan Hbase: Mengolah Big Data”

[…] Dalam rangka pengembangan Data Science / Big Data, maka Universitas ‘Aisyiyah (UNISA) Yogyakarta membentuk Tim Task Force Pengembangan Data Science Universitas ‘Aisyiyah Yogyakarta pada tanggal 27 Desember 2021. Alhamdulillah-nya, BPTSI telah melaksanakan pelatihan pada https://pdsi.unisayogya.ac.id/administrasi-big-data-studi-kasus-hadoop/, https://pdsi.unisayogya.ac.id/flume-sqoop-dan-kafka-mengumpulkan-dan-memasukkan-big-data/ dan https://pdsi.unisayogya.ac.id/pig-hive-dan-hbase-mengolah-big-data/. […]

Mengolah Big Data

Pig

Hive

HBase

Kerja Bareng Hive-HBase?

By basit

2 replies on “Pig, Hive dan Hbase: Mengolah Big Data”

Leave a Reply Cancel reply