Categories
Berita PDSI

Pig, Hive dan Hbase: Mengolah Big Data

Dengan pengunjung yang sangat banyak per harinya, bagaimana Anda berfikir Facebook dapat menangani begitu banyak data dan hiruk pikuk dengan baik? Apache Hadoop bersama dengan banyak teknologi, antara lain Pig, Hive, HBase dan sebagainya adalah solusi untuk permasalahan tersebut yang dapat diterapkan pada komputer-komputer komoditas di tempat Anda.

Daftar Isi

Mengolah Big Data

HBase dan Hive dapat digunakan secara bersama di dalam kluster Hadoop yang sama untuk memaksimalkan keunggulan masing-masing produk. Dengan demikian, pengolahan big data dapat dilakukan secara realtime dengan lebih mudah.

— Pig, Hive dan Hbase: Mengolah Big Data
https://pdsi.unisayogya.ac.id/pig-hive-dan-hbase-mengolah-big-data/ 2021-08-06 07:40:48

Pig

Apache Pig is a platform for analyzing large data sets that consists of a high-level language for expressing data analysis programs, coupled with infrastructure for evaluating these programs. The salient property of Pig programs is that their structure is amenable to substantial parallelization, which in turns enables them to handle very large data sets.

https://pig.apache.org/
  1. Perangkat lunak yang meng-abstraksi map reduce
  2. Bahasa scripting pig latin
  3. Memiliki sejumlah perintah untuk trasformasi data
  4. Dapat dijalankan secara interaktif maupun batch
  5. Dapat dikembangkan dengan membut fungsi berbasis pemrograman Java
  6. Pemrograman berbasis aliran data

Hive

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

https://hive.apache.org/
  1. Framework data warehousing yang berjalan di atas Hadoop
  2. Dibuat oleh tim facebook
  3. Dibuat untuk analisis yang terbiasa dengan SQL tetapi tidak terbiasa dengan pemrograman Java
  4. Saat ini menjadi aplikasi yang digunakan oleh banyak industri sebagai platform pemrosesan berskala besar
  5. Schema on Read, berbeda dengan RDBMS yang menggunakan Schema on Write
  6. Tidak ada update, transaction dan index

HBase

Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project’s goal is the hosting of very large tables — billions of rows X millions of columns — atop clusters of commodity hardware. Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google’s Bigtable: A Distributed Storage System for Structured Data by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, Apache HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.

https://hbase.apache.org/
  1. Database terdistribusi berorientasi kolom yang disimpan di HDFS, berbeda dengan RDBMS yang biasanya berbasis baris
  2. Digunakan pada proses baca tulis random dan realtime berskala besar
  3. Bukan relasional
  4. Tidak mendukung SQL
  5. Banyak digunakan untuk tabel web
  6. Konsep:
    • Data disimpan dalam bentuk tabel
    • Kolom kunci berupa byte array sehingga bisa menyimpan tipe apapun
    • Kolom dikelompokkan menjadi family. Setiap anggota family dipisahkan dengan tanda titik dua (:)
    • Setiap kolom berkumpul di sistem file
    • Tabel dipartisi horisontal secara otomatis ke banyak server
    • Setiap sel memiliki timestamp
    • Locking per sel
  7. Karakteristik:
    • Tidak ada index
    • Partisi terjadi secara otomatis
    • Skalabilitas horisontal, linear dan otomatis
    • Perangkat keras komoditas
    • Fault tolerance
    • Pemrosesan batch

Kerja Bareng Hive-HBase?

Berdasarkan informasi yang dilansir dari mindmajix.com, bahwa Hive dan Hbase dapat digunakan secara bersama-sama untuk memaksimalkan kelebihan masing-masing.

  1. Dikatakan bahwa merupakan pilihan yang baik ketika menggunakan Hive sebagai perangkat ETL untuk memasukkan data secara batch dan kemudian menjalankan query yang merupakan data gabungan yang ada di tabel HBase dan yang ada di sistem HDFS
  2. Memungkinkan untuk menuliskan query berbasis HiveQL pada tabel HBase
  3. Apache Hive memiliki library khusus untuk berinteraksi dengan HBase sebagai mediator antara Hive dan HBase

Pelatihan hari keempat Big Data Administration with Hadoop (5/8/2021) sebagai bagian dari penggunaan dana hibah PKKM tahun anggaran 2021 dengan mentor Nuzul Fauzan M. [bst]

Sumber:

By basit

Biro Pengembangan Teknologi Dan Sistem Informasi

2 replies on “Pig, Hive dan Hbase: Mengolah Big Data”

[…] Dalam rangka pengembangan Data Science / Big Data, maka Universitas ‘Aisyiyah (UNISA) Yogyakarta membentuk Tim Task Force Pengembangan Data Science Universitas ‘Aisyiyah Yogyakarta pada tanggal 27 Desember 2021. Alhamdulillah-nya, BPTSI telah melaksanakan pelatihan pada https://pdsi.unisayogya.ac.id/administrasi-big-data-studi-kasus-hadoop/, https://pdsi.unisayogya.ac.id/flume-sqoop-dan-kafka-mengumpulkan-dan-memasukkan-big-data/ dan https://pdsi.unisayogya.ac.id/pig-hive-dan-hbase-mengolah-big-data/. […]

[…] Dalam rangka pengembangan Data Science / Big Data, maka Universitas ‘Aisyiyah (UNISA) Yogyakarta membentuk Tim Task Force Pengembangan Data Science Universitas ‘Aisyiyah Yogyakarta pada tanggal 27 Desember 2021. Alhamdulillah-nya, BPTSI telah melaksanakan pelatihan pada https://pdsi.unisayogya.ac.id/administrasi-big-data-studi-kasus-hadoop/, https://pdsi.unisayogya.ac.id/flume-sqoop-dan-kafka-mengumpulkan-dan-memasukkan-big-data/ dan https://pdsi.unisayogya.ac.id/pig-hive-dan-hbase-mengolah-big-data/. […]

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.