我正在研究Hadoop中专利数据的示例。
您能否详细说明所使用的数据集?
该数据集包含两列引用和引用的专利。引用列是指提交专利的所有者ID?被引用的列是指构成第二数据集密钥的专利ID?
此数据集中有许多字段。
为了形成这两个数据集的映射,是来自第二个数据集的第一列(专利)中具有对应关键字的第一数据集的引用列还是引用列?
最佳答案
首先让我们澄清一些与专利有关的术语。
什么是引用?
请参阅此link以了解有关专利的更多信息:)
“专利引用数据集”-该数据集仅提及专利引用。
更像说专利A使用专利B,C和D
复制并粘贴到本书中,因此专利号3858242在这里引用(使用/引用)其他4项专利,
专利号3858241引用(使用/引用)其他5项专利
专利描述数据集-有点像主表,它仅保存每个专利的数据。
希望这可以为您解决一些问题。
关于hadoop - Hadoop实战专利示例说明,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/22826631/