我有两个版本的代码似乎做同样的事情:

sum = 0
for x in 1:100
    sum += x
end
sum = 0
for x in collect(1:100)
    sum += x
end

这两种方法之间有实际区别吗?

最佳答案

在 Julia 中,1:100 返回一个名为 UnitRange 的特定结构,如下所示:

julia> dump(1:100)
UnitRange{Int64}
  start: Int64 1
  stop: Int64 100

这是一个非常紧凑的结构,用于表示具有步骤 1 和任意(有限)大小的范围。 UnitRangeAbstractRange 的子类型,一种代表任意步长范围的类型,是 AbstractVector 的子类型。

每当您使用 UnitRange (或语法糖 getindex )时, vector[index] 的实例就会动态计算它们的元素。例如,使用 @less (1:100)[3] 你可以看到这个方法:
function getindex(v::UnitRange{T}, i::Integer) where {T<:OverflowSafe}
    @_inline_meta
    val = v.start + (i - 1)
    @boundscheck _in_unit_range(v, val, i) || throw_boundserror(v, i)
    val % T
end

这是通过将 i 添加到范围的第一个元素 ( i - 1 ) 来返回向量的第 start 元素。一些函数使用 UnitRange 优化了方法,或者更普遍地使用 AbstractRange 。例如,使用 @less sum(1:100) 您可以看到以下内容
function sum(r::AbstractRange{<:Real})
    l = length(r)
    # note that a little care is required to avoid overflow in l*(l-1)/2
    return l * first(r) + (iseven(l) ? (step(r) * (l-1)) * (l>>1)
                                     : (step(r) * l) * ((l-1)>>1))
end

此方法使用 formula for the sum of an arithmetic progression ,它非常有效,因为它在与向量大小无关的时间内进行评估。

另一方面, collect(1:100) 返回一个普通的 Vector ,其中包含一百个元素 1, 2, 3, ..., 100。 与 UnitRange (或其他类型的 AbstractRange )的主要区别在于 getindex(vector::Vector, i) (或 vector[i] ,带有 vector::Vector )不t 做任何计算,只是访问向量的第 i 元素。 Vector 相对于 UnitRange 的缺点是,一般来说,在使用它们时没有有效的方法,因为该容器的元素是完全任意的,而 UnitRange 表示一组具有特殊属性(排序、恒定步长等)的数字。 ...)。

如果您比较 UnitRange 具有超高效实现的方法的性能,这种类型将胜出(注意在使用 $(...) 宏时使用 BenchmarkTools 变量插值):
julia> using BenchmarkTools

julia> @btime sum($(1:1000_000))
  0.012 ns (0 allocations: 0 bytes)
500000500000

julia> @btime sum($(collect(1:1000_000)))
  229.979 μs (0 allocations: 0 bytes)
500000500000

请记住,每次使用 UnitRange 访问元素时,getindex 都会带来动态计算元素的成本。例如考虑这个函数:
function test(vec)
    sum = zero(eltype(vec))
    for idx in eachindex(vec)
        sum += vec[idx]
    end
    return sum
end

让我们用一个 UnitRange 和一个普通的 Vector 对其进行基准测试:
julia> @btime test($(1:1000_000))
  812.673 μs (0 allocations: 0 bytes)
500000500000

julia> @btime test($(collect(1:1000_000)))
  522.828 μs (0 allocations: 0 bytes)
500000500000

在这种情况下,调用普通数组的函数比使用 UnitRange 的函数要快,因为它不必动态计算 100 万个元素。

当然,在这些玩具示例中,遍历vec的所有元素而不是索引要更明智,但在现实世界中,这种情况可能更明智。然而,最后一个例子表明 UnitRange 不一定比普通数组更有效,尤其是当您需要动态计算其所有元素时。当您可以利用可以在恒定时间内执行操作的专用方法(如 UnitRange )时, sum 会更有效。

作为文件备注,请注意,如果您最初有一个 UnitRange,那么将其转换为普通的 Vector 以获得良好的性能不一定是一个好主意,尤其是如果您只打算使用它一次或很少次数,作为转换Vector 本身涉及范围内所有元素的动态计算和必要内存的分配:
julia> @btime collect($(1:1000_000));
  422.435 μs (2 allocations: 7.63 MiB)

julia> @btime test(collect($(1:1000_000)))
  882.866 μs (2 allocations: 7.63 MiB)
500000500000

关于julia - `UnitRange` 和 `Array` 有什么区别?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58001053/

10-12 20:13