构建正则表达式（RegEx）以提取HTML标记的文本

2018-06-27 11:52:43

这个问题在这里已经有了答案：

RegEx匹配除XHTML自包含标签之外的开放标签35个答案

<a href="javascript:ProcessQuery('report_drilldown',[0-9]+)">([^<]*)</a>

这不会真正解决问题，但它可能只是勉强。特别是，它非常脆弱，对标记稍作修改，并且不匹配。如果report_drilldown不是绝对的，请用[^']*替换它，并且/或者如果需要的话捕获它和数字。

如果你需要解析HTML的东西，那么如果你必须处理标签汤，那么这有点噩梦。如果您使用的是Python，我会建议使用BeautifulSoup，但我不知道C＃的类似内容。（任何人都知道C＃的类似标签汤解析库？）

答案是......不要！

使用一个库，比如这个库

我同意正则表达式可能不是解析这个问题的最好方法，但是使用反向引用很容易完成：

<(?<tag>w*)(?:.*)>(?<text>.*)</k<tag>>

标签和文本被命名为捕获组。

帽子提示：expresso图书馆

链接地址: http://www.djcxy.com/p/76861.html