我是python的新手,我想知道是否有办法通过python脚本获取网站的公司名称。
我有数千个企业需要验证其名称,并且想知道是否有可能通过查看其网站或地址并在该地址下找到注册的企业名称来扩大规模。
我想在这里问这个问题,然后再浪费我的研究时间,如果可能的话。
感谢您对高级的任何帮助。
最佳答案
在某些情况下,网站首页的页面标题可能是完整公司名称的近似值。
以下是一个非常简单的示例,它可以对网站主页执行ping操作并返回<title>
标记,该标记是公司名称的近似值。您需要安装请求和lxml库。
import requests
from lxml import etree
from StringIO import StringIO
parser = etree.HTMLParser()
urls = ['http://google.com', 'http://facebook.com', 'http://stackoverflow.com']
for url in urls:
r = requests.get(url)
html = r.text
tree = etree.parse(StringIO(html), parser)
title = tree.xpath('//title/text()')
print url, title
>>>
http://google.com ['Google']
http://facebook.com ['Welcome to Facebook - Log In, Sign Up or Learn More']
http://stackoverflow.com ['Stack Overflow']
在其他情况下,如果您需要查找完整的合法企业名称,则可能需要导航到“法律”或“联系我们”页面。这很棘手,因为名称不一定与任何html标记关联;它可能只是自由文本漂浮在页面上的某个地方。