我拥有数十万份法律文件(大部分来自欧盟)的资料集-法律,评论,法院文件等。我试图通过算法对它们加以理解。
我已经为已知的关系建模(时间关系,此变化,那个等)。但是在单文档级别上,我希望我有更好的工具可以快速理解。我愿意征求意见,但这是一个更具体的问题:
例如:是否有NLP方法来确定文档的相关/有争议的部分而不是样板?最近泄露的TTIP论文有数以千计的带有数据表的页面,但其中的一句话可能会破坏整个行业。
过去,我使用过Google的新Parsey McParface
和其他NLP解决方案,但是尽管它们的效果令人印象深刻,但我不确定它们在隔离含义方面的表现如何。
最佳答案
为了使文档有意义,您需要执行某种语义分析。他们的例子有两种主要的可能性:
使用框架语义:
http://www.cs.cmu.edu/~ark/SEMAFOR/
使用语义角色标签(SRL):
http://cogcomp.org/page/demo_view/srl
一旦能够从文档中提取信息,则可以进行一些后处理以确定哪些信息是相关的。查找哪些信息是相关的任务,我认为您找不到能够提取“相关”信息的通用工具。
关于NLP法律文本?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37199332/