前几天领导让写一个从新闻语料中识别上市公司的方案。上市公司属于组织机构的范畴,组织机构识别属于命名实体识别的范畴。命名实体识别包括人名、地名、组织机构等信息的识别。

要想从新闻语料中识别上市公司就需要把上市公司的信息提取出来,需要有上市公司的信息。趁着周末在家没重要事情,顺手写了个爬虫,爬取了上海交易所的上市公司的信息。

好吧,废话不多说直接上代码。说明:本次代码是一次性的,还有优化的空间。例如:多线程。

Python爬虫一:爬取上交所上市公司信息-LMLPHP

Python爬虫一:爬取上交所上市公司信息-LMLPHP

Python爬虫一:爬取上交所上市公司信息-LMLPHP

04-27 05:12