如何搜索多个pdf文件的内容?
我如何搜索目录/子目录中的PDF文件的内容? 我正在寻找一些命令行工具。 看来, grep
无法搜索PDF文件。
你的发行版应该提供一个名为pdftotext
的工具:
find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' ;
“ - ”对于将pdftotext输出到标准输出而不是文件是必需的。 --with-filename
和--label=
选项会将文件名放在grep的输出中。 可选的--color
标志很好,并告诉grep使用终端上的颜色输出。
(在Ubuntu中, pdftotext
由软件包xpdf-utils
或poppler-utils
。)
如果您想使用pdfgrep
不支持的GNU grep
特性,则使用pdftotext
和grep
这种方法比pdfgrep
优势。 注意 :pdfgrep-1.3.x支持用于打印上下文行的-C
选项。
有pdfgrep,它确实如其名字所暗示的那样。
pdfgrep -R 'a pattern to search recursively from path' /some/path
我用它进行简单的搜索,它工作得很好。
(有Debian,Ubuntu和Fedora的软件包。)
从版本1.3.0开始,pdfgrep支持递归搜索。 此版本自Ubuntu 12.10(Quantal)起可用于Ubuntu。
Recoll是一款非常棒的Unix / Linux全文GUI搜索应用程序,支持数十种不同的格式,包括PDF。 它甚至可以将查询的确切页码和搜索项传递给文档查看器,从而允许您从GUI中直接跳转到结果。
Recoll还带有一个可行的命令行界面和一个网页浏览器界面。
链接地址: http://www.djcxy.com/p/65445.html