从Python中的电子邮件中提取文本

我的用户将通过电子邮件ala Posterous向我发送帖子

我正在使用Google Apps Engine(GAE)来接收和解析电子邮件。 GAE返回消息的文本部分。

我需要从邮件的纯文本部分提取帖子。

纯文本可能会被宣传页眉,页脚,签名等“污染”。

另外我想省略“请贴这个:”或类似的一些人坦率地包含。

你会如何实现这一目标?

有什么工具(比正则表达式更简单)我可以使用吗?

UPDATE

例子:

(在所有这些例子中,这个帖子是“Lorem ipsum sit amet ...”

=====

Lorem ipsum dolor sit amet,consectetur adipisicing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。 请将您的评论发送给我们,我们会尽快为您解答。 Duis aute irure dolor in renhenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur。

维克多P
victor.p@example.com
请访问我的博客:www.example.com/victor

=====

你好,我喜欢你的页面。 请你能包括这个:Lorem ipsum dolor sit amet,consectetur adipisicing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。 请将您的评论发送给我们,我们会尽快为您解答。 Duis aute irure dolor in renhenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur。

=====

Lorem ipsum dolor sit amet,consectetur adipisicing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。

请将您的评论发送给我们,我们会尽快为您解答。

Duis aute irure dolor in renhenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur。

=====

如果您发现更多电子邮件的例子,请随时将其添加到帖子中。


我会去编译正则表达式的列表。 沿着以下方向的东西:

import re

regexes = (
    re.compile("visit my blog at: .*$", re.IGNORECASE),
    re.compile("please post this:", re.IGNORECASE),
    re.compile("please can you include this:", re.IGNORECASE)
    # etc
)

for filePath in files:
    with open(filePath) as file:
        for line in file:
            for regex in regexes:
                print(re.sub(regex, ""))
链接地址: http://www.djcxy.com/p/55101.html

上一篇: Text extraction from email in Python

下一篇: how to save csv into a txt, and search for records