如何使用nltk从text / pdf中提取段落?
我想从一个大文本文件中提取段落,基本想法是提取PDF的每个部分,我知道以下内容:每个部分以像7.1,7.2等数字开始,所以我想在7.2之前提取所有文本那属于7.1,类似地,如果我在世界7.3的第一次出现之前提取所有文本,并且减去7-1,它会给我7.2。 那么在nltk中有没有办法做到这一点?
链接地址: http://www.djcxy.com/p/65165.html我想从一个大文本文件中提取段落,基本想法是提取PDF的每个部分,我知道以下内容:每个部分以像7.1,7.2等数字开始,所以我想在7.2之前提取所有文本那属于7.1,类似地,如果我在世界7.3的第一次出现之前提取所有文本,并且减去7-1,它会给我7.2。 那么在nltk中有没有办法做到这一点?
链接地址: http://www.djcxy.com/p/65165.html