我有以下输入xml

<Type>
    <Source>
        <TimeStamp>2016-02-19T12:27:06.387Z</TimeStamp>
        <IPAddress IPVersion="IPv4">x.xx.xxx.xxx</IPAddress>
        <Port>64435</Port>
        <DNS_Name>x.xx.xxx.xxx.range9-27.abc.com</DNS_Name>
    </Source>
 </Type>

我正在尝试使用下面的代码从上面的标记中检索所有值。
REGISTER piggybank-0.15.0.jar
            DEFINE XPath org.apache.pig.piggybank.evaluation.xml.XPath();

        A =  LOAD 'test.xml' using org.apache.pig.piggybank.storage.XMLLoader('Type') as (x:chararray);
        B = FOREACH A GENERATE
                               XPath(x, 'Source/TimeStamp')
                               ,XPath(x, 'Source/IPAddress')
                               ,XPath(x, 'Source/IPAddress/@IPVersion')
                               ,XPath(x, 'Source/Port')
                               ,XPath(x, 'Source/DNS_Name');

当我转储b时,会得到以下输出,其中缺少ipversion的值。
(2016-02-19T12:27:06.387Z,x.xx.xxx.xxx,,64435,x.xx.xxx.xxx.range9-27.abc.com)

有人能帮我解决这个问题吗?

最佳答案

Piggybank的XPath类中有两个错误:
ignorenamespace逻辑中断了对xml属性的搜索
https://issues.apache.org/jira/browse/PIG-4751
ignorenamepace参数默认为true,不能覆盖
https://issues.apache.org/jira/browse/PIG-4752
使用XPathAllhere查看解决方案

关于xml - 使用PIG中的xpath提取XML中的属性值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37406744/

10-12 01:31
查看更多