11
HTML Agility Pack Kullanımı
HTML içeriklerinin başarılı bir biçimde çekilmesi ve parse edilmesi için HTML Agility Pack (HAP) ile tanışmanızı öneririm. http://htmlagilitypack.codeplex.com/ adresinde ilgili uygulamaya ulaşabilirsiniz.
HTML Agility Pack oldukça başarılı ve hızlı, download edilen web sayfaları üzerinde parse işlemi gerçekleştirebiliyor. DOM ve XPATH desteği mevcut. Ayrıca son çıkan versiyonlar LINQ to Object desteği gelmiş durumda.
Kolay bir sorgu ile bir web sayfası içerisinde yer alan tüm linkleri, resim URL’lerine kolaylıkla erişebilirsiniz.
Simon Mourier tarafından hazırlanan bu kod benim gibi web tarama ve veri toplayıcılar için çok iş görüyor.
HtmlDocument doc = new HtmlDocument(); doc.Load("file.htm"); foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"]) { HtmlAttribute att = link["href"]; att.Value = FixLink(att); } doc.Save("file.htm");
Xpath hakkında sorgulama ve detaylı bilgilere W3Schools.com’un şu sayfasından ulaşabilirsiniz.
Uygulamaya ait kaynak kodu indirmek için ise buraya tıklayabilirsiniz.











