Parse HTML dengan _Regex_ adalah *task* yang sungguh menyiksa otak.				Apalagi kalau HTML yang kita *parse* kurang rapi dan kadang sudah berubah (baca: _maintenance code_ yang sudah dibuat), memikirkan _Regex_ baru setiap kali ada perubahan membutuh waktu dan banyak _adjustment_. Untung [.NET][] punya _library_ yang membuat tidak perlu ber-_regex_ kalau hanya untuk melakukan *parsing* HTML.

[HTML-Agility-Pack (HAP)][HAP] merupakan _library_ yang berfungsi untuk membaca dan menulis _Document Object Model (DOM)_ dari HTML. *Library* ini akan mentoleransi apabila ada HTML yang ditulis kurang benar. Bagi [.NET][] developer, meng-*expose* _DOM_ melalui _LiNQ-to-XML_ benar-benar menyederhanakan tugas kita saat meng-*explore* HTML dengan [HAP][] ini. Kita bisa menggunakan _XPATH_ atau dengan model read seperti _XML_ untuk mencari ke dalam DOM. 

### Bank Indonesia Kurs

Kalau kita ingin mendapakan list kurs dari Bank Indonesia (BI). Karena BI menggunakan _WebForm_ dengan _sharepoint_, maka kadang hasil HTML-nya agak berantakan. Key untuk target BI ini adalah __table1__. Selanjutnya silahkan di baca-baca code di bawah.

`VB.NET`

![alt text][i-hap-bi-kurs-vb]

`CSharp`

![alt text][i-hap-bi-kurs-cs]

Hasil-nya akan seperti ini

![alt text][i-hap-bi-kurs-result]

### Kaskus User

Untuk mendapatkan informasi dari __http://m.kaskus.co.id/profile/__ juga cukup sederhana. Cukup kita ambil _div_ yang memiliki **c-profile__user-details** _class_ seperti gambar di bawah.

`VB.NET`

![alt text][i-hap-kaskus-vb]

`CSharp`

![alt text][i-hap-kaskus-cs]

### Web Crawler

Mungkin pembaca berfikir untuk melakukan _crawler_ dalam scala besar dengan _library_ ini. Untuk keperluan itu, sebaiknya di pikirkan lagi. Tugas utama _library_ ini adalah _parse html_.

_Crawler_ dalam scala besar memerlukan banyak hal yang perlu dipertimbangkan. Salah satunya, implementasi dari [HAP][] untuk _Load_ dari _URL_ dimaksud untuk pembantu saja dan itu tidak optimal sama sekali serta tidak dapat dikonfigurasi sesuai kebutuhan.

Belum lagi _Web Crawler_ adalah pekerjaan yang [I/O Bound][] memerlukan penanganan berbeda pada saat operasi _Parallel_. Bicara itu juga, teknik _Parallel_-nya juga akan berbeda kalau di bandingkan dengan [CPU Bound][].

Ditambah lagi, bila terlalu banyak _request_ ke sebuah _site_. Kadang _firewall_ akan menganggap ini sebagai ancaman _security_. Lagi pula, _request http_ ada limit juga di-_OS_ sehingga perlu di _tweak_.

Wah repot juga ya? *Yup*, kalau buat dari awal tentu akan makan waktu dan tenaga untuk buat seperti itu. Untung saja ada yang sudah buat. Coba saja pakai [Abot][]. Walau ada limitasinya untuk _basic-binary_-nya, pembaca bisa mempelajari _source-code_ dan merubah sesuai dengan kebutuhan.

Untuk meng-_crawler_-nya kita gunakan [Abot][] dan _parse_-nya kita gunakan [HAP][] atau _library_ lainnya.

### Penutup

Dengan bantuan library [HtmlAgilityPack][HAP] meng-_extract_ sebuah website untuk di ambil informasinya menjadi lebih mudah. Tentu kita juga harus mengerti struktur halaman HTML itu sebelum memulai menggunakan _library_ ini.      

### Referensi

* [.NET][]
* [GitHub: HTML-Agility-Pack (HAP)][HAP]
* [CSharp (C#)][C#]
* [GitHub: Abot][Abot]

> **Perhatian!** Code yang ditampilkan dalam tulisan ini merupakan ilustrasi dari yang ingin dipaparkan dan bukan _**production ready code**_. Sudah banyak kejadian karena asal meng-_**copy-and-paste**_ tanpa mengerti code yang diambil itu ke dalam _**production**_. Selain itu perlu ada tambahan code dan test sebelum siap untuk digunakan secara utuh.

[.NET]: https://www.microsoft.com/net "Microsoft .NET"
[HAP]: https://github.com/zzzprojects/html-agility-pack "GitHub: HTML-Agility-Pack (HAP)"
[NuGet]: https://www.nuget.org/ "NuGet"
[C#]: https://en.wikipedia.org/wiki/C_Sharp_(programming_language) "Wikipedia: CSharp"
[Abot]: https://github.com/sjdirect/abot/ "GitHub: Abot"
[I/O Bound]: https://en.wikipedia.org/wiki/I/O_bound "Wikipedia: I/O Bound"
[CPU Bound]: https://en.wikipedia.org/wiki/CPU-bound "Wikipedia: CPU Bound"

[i-hap-bi-kurs-cs]: https://dede.gitlab.io/a/i/2018/net-hap/hap-bi-kurs-cs.png 
[i-hap-kaskus-cs]: https://dede.gitlab.io/a/i/2018/net-hap/hap-kaskus-cs.png
[i-hap-bi-kurs-result]: https://dede.gitlab.io/a/i/2018/net-hap/hap-bi-kurs-result.png
[i-hap-bi-kurs-vb]: https://dede.gitlab.io/a/i/2018/net-hap/hap-bi-kurs-vb.png 
[i-hap-kaskus-vb]: https://dede.gitlab.io/a/i/2018/net-hap/hap-kaskus-vb.png

CODEPOLITAN Learning

RuangAI

KelasFullstack

JagoanSiber