.NET使用AngleSharp抓取网站信息,超简单
前言
最近小编接到一个抓取全国地区的任务,在Github找到了一个开源工具AngleSharp。AngleSharp 是一个强大的 .NET 库,它为我们提供了一种方便且灵活的方式来处理 HTML 和 XML 文档。在这篇文章中,我们将使用 AngleSharp 来抓取全国地区的信息。
准备工作
首先,我们用Visual Studio 新建一个控制台程序,并安装 AngleSharp。可以通过 NuGet 包管理器控制台或 Visual Studio 的包管理器来安装 AngleSharp:
Install-Package AngleSharp
编写抓取代码
接下来,我们将编写一个简单的 C# 程序,使用 AngleSharp 抓取地区网站信息。我们找到民政局全国区域的网站,循环分级提取地区的信息。示例代码如下:
using AngleSharp;
using AngleSharp.Html.Dom;
//民政局网站地区网址
var url = "http://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2022/index.html";
var context = BrowsingContext.New(Configuration.Default.WithDefaultLoader());
// 异步打开指定的URL,并获取返回的文档对象
var dom = context.OpenAsync(url).Result;
// 使用 CSS 选择器选择表格中的所有省级行的超链接元素
var itemList = dom.QuerySelectorAll("table.provincetable tr.provincetr td a");
// 遍历每个超链接元素
foreach (IHtmlAnchorElement item in itemList)
{
// 输出地区的文本内容
Console.WriteLine("地区:" + item.TextContent);
// 输出下级链接的地址,便于继续循环下级。
Console.WriteLine("下级链接:" + item.Href);
}
打印出来的效果如下:
上面代码AngleSharp成功抓取了所要的地区。它的优点是可以用CSS选择器来获取元素,减少了代码的使用量及整洁度。
结语
AngleSharp抓取网页只是其中的一项,它提供了一个强大而灵活的工具集,使开发人员能够以 .NET 平台为基础构建各种 Web 相关应用。通过使用 AngleSharp,开发人员可以轻松地处理 Web 内容,从而更高效地开发和维护其应用程序。
git地址:github.com/AngleSharp/AngleSharp
关注公众号↑↑↑:DotNet开发跳槽❀
评论