构建正则表达式(RegEx)以提取HTML标记的文本
这个问题在这里已经有了答案:
<a href="javascript:ProcessQuery('report_drilldown',[0-9]+)">([^<]*)</a>
这不会真正解决问题,但它可能只是勉强。 特别是,它非常脆弱,对标记稍作修改,并且不匹配。 如果report_drilldown
不是绝对的,请用[^']*
替换它,并且/或者如果需要的话捕获它和数字。
如果你需要解析HTML的东西,那么如果你必须处理标签汤,那么这有点噩梦。 如果您使用的是Python,我会建议使用BeautifulSoup,但我不知道C#的类似内容。 (任何人都知道C#的类似标签汤解析库?)
答案是......不要!
使用一个库,比如这个库
我同意正则表达式可能不是解析这个问题的最好方法,但是使用反向引用很容易完成:
<(?<tag>w*)(?:.*)>(?<text>.*)</k<tag>>
标签和文本被命名为捕获组。
帽子提示:expresso图书馆
链接地址: http://www.djcxy.com/p/76861.html上一篇: Building Regular Expression (RegEx) to extract text of HTML tag