我正在研究财务报告/单据的单据分类问题。是否有现成的语料库?我找到了几个用例,但它们都构成了自己的语料库。

最佳答案

您很有可能必须创建自己的语料库。我也有类似的任务,而手动创建这样的语料库太繁琐了。结果,我创建了News Corpus Builder一个python模块,该模块可让您根据对主题的特定兴趣快速开发语料库。

该模块允许您生成自己的语料库,并将文本和相关标签存储在sqlite或平面文件中。

from news_corpus_builder import NewsCorpusGenerator

# Location to save generated corpus
corpus_dir = '/Users/skillachie/finance_corpus'

# Save results to sqlite or  files per article
ex = NewsCorpusGenerator(corpus_dir,'sqlite')

# Retrieve 50 links related to the search term dogs and assign a category of   Pet to the retrieved links
links = ex.google_news_search('dogs','Pet',50)

# Generate and save corpus
ex.generate_corpus(links)


有关我的blog的更多详细信息

财务资料集可从here下载。语料库具有以下类别:


政策(许可证,法规,SEC,货币,联邦,货币,财政,IMF)
国际金融(全球金融,IMF,ECB,希腊麻烦,人民币贬值)
经济(GDP,就业,失业,住房,经济)筹集资本(ipo,股权)
房地产
并购(合并,收购)
石油(石油,石油价格,天然气价格)
商品(商品,黄金,白银)
欺诈(内部交易,庞氏骗局,财务欺诈)
诉讼(公司诉讼,公司和解)
收益报告

07-26 06:37