这可能是一个愚蠢的问题,但我只是想学习!

我正在尝试构建一个简单的电子邮件搜索工具来了解有关 Python 的更多信息。我正在修改一些开源代码来解析电子邮件地址:

emails = re.findall(r'([A-Za-z0-9\.\+_-]+@[A-Za-z0-9\._-]+\.[a-zA-Z]*)', html)

然后我使用 CSV 模块将结果写入电子表格。

由于我想保持域扩展名对几乎任何人开放,因此我的结果是输出具有电子邮件类型格式的图像文件:

例如:[email protected]

如何添加以从 re.findall 中排除“png”字符串

代码:

最佳答案

你已经只对 if 采取行动了……只是做 if 检查的一部分……这比试图将它从正则表达式中排除要容易得多

if email not in self.emails and not email.endswith("png"):  # if not a duplicate
        self.csvwriter.writerow([page.title.encode('utf8'), page.url.encode("utf8"), email])
        self.emails.append(email)

关于python - 如何从 re.findall 中排除字符串?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/24741081/

10-10 22:25