我要拆分较大的XML文件(“ONIX”标准)。基本结构是:

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE ONIXmessage SYSTEM "http://www.editeur.org/onix/2.1/short/onix-international.dtd">
<!-- DOCTYPE is not always present and might look differently -->
<ONIXmessage> <!-- sometimes with an attribute -->
<header>
...
</header> <!-- up to this line every out-file should be identical to source -->
<product> ... </product>
<product> ... </product>
...
<product> ... </product>
<ONIXmessage>

我想要做的是将此文件拆分为大小相同的n个较小的文件。为此,我将计算<product>节点的数量,将它们除以n,然后将其克隆到n个新的xml文件中。我进行了很多搜索,此任务似乎比我想象的要难。
  • 到目前为止,我仍无法解决的问题是克隆一个具有相同xml声明,doctype,根元素和<header>节点但没有<product>s的新XML文档。我可以使用正则表达式来做到这一点,但我宁愿使用xml工具。
  • 将许多<product>节点传输到新XML文档的最聪明方法是什么?对象表示法,例如$xml.ONIXmessage.product | % { copy... }XPath()查询(可以使用XPath()选择n个节点吗?)和CloneNode()XMLReader / XMLWriter吗?
  • 关于格式和编码,节点的内容应该相同。如何确保呢?

  • 我要感谢一些朝着正确方向前进的人!

    最佳答案

    一种方法是:

  • 复制XML文件
  • 删除副本
  • 中的所有productnodes
  • 使用循环一次将一个产品从原始文件复制到其中一个副本。
  • 当达到每个文件的产品数量限制时,请保存当前文件(副本)并创建一个新文件。

  • 例:
    param($path, [int]$maxitems)
    
    $file = Get-ChildItem $path
    
    ################
    
    #Read file
    $xml = [xml](Get-Content -Path $file.FullName | Out-String)
    $product = $xml.SelectSingleNode("//product")
    $parent = $product.ParentNode
    
    #Create copy-template
    $copyxml = [xml]$xml.OuterXml
    $copyproduct = $copyxml.SelectSingleNode("//product")
    $copyparent = $copyproduct.ParentNode
    #Remove all but one product (to know where to insert new ones)
    $copyparent.SelectNodes("product") | Where-Object { $_ -ne $copyproduct } | ForEach-Object { $copyparent.RemoveChild($_) } > $null
    
    $allproducts = @($parent.SelectNodes("product"))
    $totalproducts = $allproducts.Count
    
    $fileid = 1
    $i = 0
    
    foreach ($p in $allproducts) {
        #IF beggining or full file, create new file
        if($i % $maxitems -eq 0) {
            #Create copy of file
            $newFile = [xml]($copyxml.OuterXml)
            #Get parentnode
            $newparent = $newFile.SelectSingleNode("//product").ParentNode
            #Remove all products
            $newparent.SelectNodes("product") | ForEach-Object { $newparent.RemoveChild($_) } > $null
        }
    
        #Copy productnode
        $cur = $newFile.ImportNode($p,$true)
        $newparent.AppendChild($cur) > $null
    
        #Add 1 to "items moved"
        $i++
    
        #IF Full file, save
        if(($i % $maxitems -eq 0) -or ($i -eq $totalproducts)) {
            $newfilename = $file.FullName.Replace($file.Extension,"$fileid$($file.Extension)")
            $newFile.Save($newfilename)
            $fileid++
        }
    
    }
    

    更新:由于性能在这里很重要,因此我创建了该脚本的新版本,该脚本使用foreach循环和xml模板作为副本,以删除99%的读取操作和删除操作。概念仍然相同,但是执行方式不同。

    基准测试:
    10 items, 3 per xml OLD solution: 0.0448831 seconds
    10 items, 3 per xml NEW solution: 0.0138742 seconds
    16001 items, 1000 per xml items OLD solution: 73.1934346 seconds
    16001 items, 1000 per xml items NEW solution: 5.337443 seconds
    

    关于xml - 如何使用Powershell将XML文件拆分为较小的文件,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37058864/

    10-16 15:36
    查看更多