我如何grep所有非

我有几个非常大的XML文件,我试图找到包含非ASCII字符的行。 我试过以下内容:

grep -e "[x{00FF}-x{FFFF}]" file.xml

但是这将返回文件中的每一行,而不管该行是否包含指定范围内的字符。

我的语法错了吗?还是我在做其他错误? 我也试过:

egrep "[x{00FF}-x{FFFF}]" file.xml 

(包含模式的单引号和双引号)。


你可以使用这个命令:

grep --color='auto' -P -n "[x80-xFF]" file.xml

这会给你行号,并将突出显示红色的非ASCII字符。

在某些系统中,根据您的设置,上述操作不起作用,因此您可以通过反转来进行grep

grep --color='auto' -P -n "[^x00-x7F]" file.xml

还要注意,重要的位是-P标志,它等同于--perl-regexp :所以它会将你的模式解释为一个Perl正则表达式。 它也是这样说的

这是高度实验性的,grep -P可能会警告未实现的功能。


与上面大多数解决方案一样,不是假定非ASCII字符的字节范围,而是稍微好一点的IMO来清楚地说明ASCII字符的实际字节范围。

因此,第一个解决方案将成为:

grep --color='auto' -P -n '[^x00-x7F]' file.xml

(它基本上适用于十六进制ASCII范围之外的任何字符:从 x00到 x7F)

在Mountain Lion上无法运行(由于缺乏PCRE在BSD grep中的支持),但是通过Homebrew安装pcre ,以下内容也可以正常工作:

pcregrep --color='auto' -n '[^x00-x7F]' file.xml

任何人都可以想到的优点或缺点?


以下适用于我:

grep -P "[x80-xFF]" file.xml

非ASCII字符从0x80开始,在查看字节时转到0xFF。 Grep(和家族)不会进行Unicode处理,将多字节字符合并为单个实体以进行正则表达式匹配,正如您所期望的那样。 我的grep中的-P选项允许在字符类中使用xdd转义符来实现你想要的。

链接地址: http://www.djcxy.com/p/11949.html

上一篇: How do I grep for all non

下一篇: Parse error: syntax error, unexpected (T