如何使用nltk从text / pdf中提取段落？

2018-06-23 05:45:52

我想从一个大文本文件中提取段落，基本想法是提取PDF的每个部分，我知道以下内容：每个部分以像7.1,7.2等数字开始，所以我想在7.2之前提取所有文本那属于7.1，类似地，如果我在世界7.3的第一次出现之前提取所有文本，并且减去7-1，它会给我7.2。那么在nltk中有没有办法做到这一点？

链接地址: http://www.djcxy.com/p/65165.html