构建正则表达式(RegEx)以提取HTML标记的文本

这个问题在这里已经有了答案:

  • RegEx匹配除XHTML自包含标签之外的开放标签35个答案

  • <a href="javascript:ProcessQuery('report_drilldown',[0-9]+)">([^<]*)</a>
    

    这不会真正解决问题,但它可能只是勉强。 特别是,它非常脆弱,对标记稍作修改,并且不匹配。 如果report_drilldown不是绝对的,请用[^']*替换它,并且/或者如果需要的话捕获它和数字。

    如果你需要解析HTML的东西,那么如果你必须处理标签汤,那么这有点噩梦。 如果您使用的是Python,我会建议使用BeautifulSoup,但我不知道C#的类似内容。 (任何人都知道C#的类似标签汤解析库?)


    答案是......不要!

    使用一个库,比如这个库


    我同意正则表达式可能不是解析这个问题的最好方法,但是使用反向引用很容易完成:

    <(?<tag>w*)(?:.*)>(?<text>.*)</k<tag>>
    

    标签和文本被命名为捕获组。

    帽子提示:expresso图书馆

    链接地址: http://www.djcxy.com/p/76861.html

    上一篇: Building Regular Expression (RegEx) to extract text of HTML tag

    下一篇: Regular Expression (Regex) for HTML parsing in PHP