.NET使用AngleSharp抓取网站信息,超简单

共 2087字,需浏览 5分钟

 ·

2024-04-11 11:50

前言

    最近小编接到一个抓取全国地区的任务,在Github找到了一个开源工具AngleSharp。AngleSharp 是一个强大的 .NET 库,它为我们提供了一种方便且灵活的方式来处理 HTML 和 XML 文档。在这篇文章中,我们将使用 AngleSharp 来抓取全国地区的信息。

准备工作

    首先,我们用Visual Studio 新建一个控制台程序,并安装 AngleSharp。可以通过 NuGet 包管理器控制台或 Visual Studio 的包管理器来安装 AngleSharp:

      
        Install-Package AngleSharp
      
    

编写抓取代码

    接下来,我们将编写一个简单的 C# 程序,使用 AngleSharp 抓取地区网站信息。我们找到民政局全国区域的网站,循环分级提取地区的信息。示例代码如下:

      
        using AngleSharp;
      
      
        using AngleSharp.Html.Dom;
      
      
        
          
//民政局网站地区网址 var url = "http://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2022/index.html"; var context = BrowsingContext.New(Configuration.Default.WithDefaultLoader());
// 异步打开指定的URL,并获取返回的文档对象 var dom = context.OpenAsync(url).Result;
// 使用 CSS 选择器选择表格中的所有省级行的超链接元素 var itemList = dom.QuerySelectorAll("table.provincetable tr.provincetr td a");
// 遍历每个超链接元素 foreach (IHtmlAnchorElement item in itemList) { // 输出地区的文本内容 Console.WriteLine("地区:" + item.TextContent);
    // 输出下级链接的地址,便于继续循环下级。 Console.WriteLine("下级链接:" + item.Href); }

打印出来的效果如下:

5f00cae577fc66ff641ed4f42312caa1.webp

上面代码AngleSharp成功抓取了所要的地区。它的优点是可以用CSS选择器来获取元素,减少了代码的使用量及整洁度。

结语

    AngleSharp抓取网页只是其中的一项,它提供了一个强大而灵活的工具集,使开发人员能够以 .NET 平台为基础构建各种 Web 相关应用。通过使用 AngleSharp,开发人员可以轻松地处理 Web 内容,从而更高效地开发和维护其应用程序。

git地址:github.com/AngleSharp/AngleSharp


    

关注公众号DotNet开发跳槽    

浏览 19
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报