Apa Itu Web Scraping?

Pengertian web scraping

Grouptutorial.com - Web scraping (panen web) adalah pengambilan sebuah dokumen semi-terstruktur dari internet, umumnya berupa halaman-halaman web dalam bahasa markup seperti HTML atau XHTML, dan menganalisis dokumen tersebut untuk diambil data tertentu dari halaman tersebut. Istilah gampangnya yaitu pengambilan konten atau sebagian data dari suatu situs web.

Web scraping mempunyai banyak kegunaan dan sangat membantu masalah pengambilan data. Salah satunya yaitu untuk konten artikel dimana isi kontenya langsung diambil dari situs lain misal konten dari wikipedia. Contohnya pada pesonainformatika.com misalkan kata kunci yang dicari tidak ditemukan, maka otomatis akan melakukan scraping dari situs wikipedia berdasarkan kata kunci atau keyword yang dicari.

Contoh lain dari kegunaan web scraping yaitu untuk mengambil data2 dari suatu situs. Misalnya mengambil data-data dari berbagai situs marketplace untuk dibandingkan harganya, menampilkan jadwal imsak di dimana data berasal dari KEMENAG , mengambil data prakiraan cuaca, dan masih banyak lainya. Web scraping juga bisa digunakan untuk mengexport kumpulan list data dari website ke format file csv, json, excel, dsb.

Saat ini Data Scraping atau menggali data di internet menjadi sebuah tren dan bahkan sudah sangat umum dilakukan oleh perusahaan atau individu untuk kepentingan tertentu. Ini terlihat semakin banyaknya tools yang tersedia baik berbayar atau gratis seperti Data Miner, Import.io, Scrapy dan lain-lain. Data scraping sendiri memiliki beberapa varian, salah satunya adalah Web Scraping yaitu mengambil mengambil data berbentuk teks yang umumnya bertipe HTML atau XHTML [1].

ntuk pengguna wordpress, tersedia plugin WP web scraper di wordpress.org. Cara penggunaanyapun juga mudah, tinggal import alamat konten yang akan di scraping, misal ingin mengambil konten yang berada dalam alamat https://id.wikipedia.org/wiki/Daerah_Khusus_Ibukota_Jakarta , kita buat postingan baru seperti biasa, menuliskan judul seperti biasanya, kemudian bagian konten kita tulis seperti ini :

[wpws url="https://id.wikipedia.org/wiki/Daerah_Khusus_Ibukota_Jakarta" query=""]

Untuk praktek digunakan pada fungsi search sebuah situs yang otomatis akan menscaping jika artikel tidak ditemukan berdasarkan kata kunci, kita perlu merubah sedikit pada file search.php yaitu dengan menambahkan beberapa kode. contoh sebagai berikut :

else : //get_template_part( 'template-parts/content', 'none' ); $kueri_cari = get_search_query(); $keyw=str_replace(" ","+",$kueri_cari); echo wpws_get_content('https://en.wikipedia.org/w/index.php?search='.$keyw , '' );

kode diatas adalah blok kode didalam else pada file search.php jika artikel tidak ditemukan.

Pada kesempatan ini kita akan membahas tentang 2 teknik yang dapat digunakan untuk melakukan web scraping dan pengaplikasiannya dengan menggunakan bahasa PHP. Mengapa kita tidak membahas tools yang ada? Agar kita lebih memahami bagaimana proses yang berjalan dan tidak terpaku pada tools yang ada. Adapun 2 teknik yang dapat digunakan adalah teknik search string between two strings atau mencari string di antara 2 string dan search json on render page atau mencari data json saat melakukan render halaman. Secara umum dalam mengimplementasikan kedua teknik tersebut dibutuhkan 5 tahap (gambar 1):

  1. Request url yang dijadikan target.
  2. Request diproses oleh server target.
  3. Hasil dari request dari url (hasilnya adalah teks dengan format HTML).
  4. Ekstrak data (mengambil teks yang diperlukan dari tahap ke-3).
  5. Hasil yang ekstrak (menentukan output yang diinginkan).


Gambar 1 : tahap web scraping

Teknik 1: Search string between two strings

Teknik ini mencari sebuah string yang terletak di antara dua buah string.

Contoh ada sebuah paragraf seperti berikut:

“Kita akan mempelajari teknik dasar web scraping dan implementasinya……”

Kemudian kita akan mencari string yang berada di antara string “akan” dan “implementasinya” maka akan diperoleh string “mempelajari teknik dasar web scraping”.

Contoh implementasi:
  • Tahap 1:
Url :

“https://www.bukalapak.com/p/handphone/hp-smartphone/7fybvh-jual-sony-z5-e6683-3-32-gb-garansi-resmi-1-tahun”.
  • Tahap 2:
Tahap ini akan dijalankan oleh server yang menjadi target.

  • Tahap 3:
Return dari request kita seperti terlihat pada gambar 2 dan jika di-render pada browser maka akan terlihat seperti gambar 3.

Gambar 2 : return from request
Gambar 3 : return dari request setelah di render oleh browser

  • Tahap 4:


Pada tahap ini kita akan mendefinisikan string mana saja yang akan kita ambil. Sebagai contoh kita akan mengambil string “Sony Z5 E6683 3/32 GB — Garansi Resmi 1 Tahun”.

Yang perlu dilakukan sebagai berikut:

1). Membuat fungsi search string between two strings dengan nama getStringBetween (lihat gambar 4).

2). letakkan kursor tepat di atas string target “Sony Z5 E6683 3/32 GB — Garansi Resmi 1 Tahun”

3). Klik kanan pada mouse atau touchpad dan pilih inspect (hasilnya akan terlihat seperti gambar 5).

4). Mencari string target getStringBetween ($teks adalah hasil tahap 3, $sebelum string yang terletak sebelum string yang dicari, $sesudah string yang terletak setelah string yang dicari) lihat gambar 6.

Gambar 4 : fungsi strings between two strings
Gambar 5 : Hasil inspect

Gambar 6 : Mencari string target

  • Tahap 5:
pada tahap 4 kita telah memperoleh data array (title, price, category dan description). kemudian pada tahap ini mari kita tampilkan data dengan format HTML (lihat gambar 7) dan hasilnya akan terlihat seperti gambar 8. Hasil pada tahap ini dapat juga dibuat dalam bentuk .csv, xls, dan lain sebagainya.

Gambar 7: code untuk menampilkan data dengan format HTML

Gambar 8: Hasil web scraping

referensi : https://www.infomasakini.com/2019/02/apa-itu-web-scraping.html
  • Data Scraping
  • Web Scraping
  • Teknik Scraping
  • Basic Technique Of Scrape
  • 0 Response to "Apa Itu Web Scraping?"

    Post a Comment

    ID: Silahkan berkomentar dengan cara yang sopan, kami menghargai setiap saran dan masukan demi kenyamanan bersama.

    EN: Please comment in a polite manner, we appreciate any suggestions and inputs for the sake of mutual convenience.

    Iklan Atas Artikel

    Iklan Tengah Artikel 1

    Iklan Tengah Artikel 2

    Iklan Bawah Artikel