本文介绍了算法来匹配邮件自然的文本的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我需要做进一步处理之前分离的自然,连贯的文/句子从列表,签名,问候的邮件等。

I need to separate natural, coherent text/sentences in emails from lists, signatures, greetings and so on before further processing.

例如:

汤姆

上周一,我们也BLA BLA,绝杀Lorem存有悲坐阿梅德,consectetur adipisici ELIT,sed的eiusmod tempor incidunt UT labore等  dolore麦格纳aliqua。

last monday we did bla bla, lore Lorem ipsum dolor sit amet, consectetur adipisici elit, sed eiusmod tempor incidunt ut labore et dolore magna aliqua.

      
  • 列表项目2
  •   
  • 列表项目3
  •   
  • 列表项目3
  •   
  • list item 2
  • list item 3
  • list item 3

UT斯达康enim广告微量veniam,QUIS nostrud实习ullamco laboris妮斯UT aliquid x EA commodi consequat。 QUIS奥特iure重新prehenderit  在voluptate velit

Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquid x ea commodi consequat. Quis aute iure reprehenderit in voluptate velit

问候,K。

---线的搞笑字符 - #######

---line-of-funny-characters-#######

例如INC。

33邪恶街,伦敦

移动:00二十三万四千三百四十五分之二十三万四千五百三十四

mobile: 00 234534/234345

在理想情况下,该算法将只匹配了大胆的零件。

Ideally the algorithm would match only the bold parts.

有没有什么建议的方法 - 或者是那里的问题,即使现有的算法?我应该尝试近似常规EX pressions以上统计的东西的基础上punctation痕迹,长度等号码?

Is there any recommended approach - or are there even existing algorithms for that problem? Should I try approximate regular expressions or more statistical stuff based on number of punctation marks, length and so on?

推荐答案

您需要经历严重的自然语言处理的东西来获得所需的处理完成(依赖于precision你期待什么样的水平和随机性和模糊性输入电子邮件数据为您的code)。

You need to go through serious NLP stuff to get the desired processing done (depends on what level of precision you are expecting and the randomness and vagueness of the input email data for your code).

阅读一。见其他相关的东西的参考部分。

Read this one. See the references section for other relevant stuff.

这处理不同的问题分类,但涉及到操作上的电子邮件文本。

This deals with different issue of classification but involves operating on the email text.

这篇关于算法来匹配邮件自然的文本的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

09-14 15:33