我即将将利用C++编写的OpenGL的iOS应用移植到Apple的Metal。目标是完全摆脱OpenGL,并用Metal取代它。

OpenGL代码是分层的,我试图替换渲染器,即实际调用OpenGL函数的类。但是,整个代码库都使用GLM数学库来表示向量和矩阵。

例如,有一个摄像机类提供视图和投影矩阵。它们都为glm::mat4类型,并被简单地传递到GLSL顶点着色器,在这里它们与GLSL给出的mat4数据类型兼容。我想利用该相机类,因为它将这些矩阵发送到Metal顶点着色器。现在,我不确定glm::mat4是否与Metal的float4x4兼容。

我没有一个可以在其中进行测试的有效示例,因为我实际上只是从Metal入手,在网上找不到任何有用的东西。

所以我的问题如下:

  • GLM类型(例如glm::mat4glm::vec4)是否与Metal的float4x4 / float4兼容?
  • 如果问题1的答案为是,那么如果我直接在Metal着色器中使用GLM类型,是否会有任何不利之处?

  • 问题2的背景是我碰巧遇到了Apple的SIMD库,它提供了另一组在这种情况下无法使用的数据类型,对吗?

    该应用程序仅是iOS,我根本不在乎在macOS上运行Metal。

    代码段(最好是Objective-C(是,没有玩笑))将非常受欢迎。

    最佳答案

    总体而言,答案是,GLM非常适合使用Apple Metal的应用程序。但是,有几件事需要考虑。评论中已经暗示了其中一些内容。
    首先,Metal Programming Guide提到

    Metal将其归一化设备坐标(NDC)系统定义为2x2x1立方体,其中心位于(0,0,0.5)

    这意味着Metal NDC坐标与OpenGL NDC坐标不同,因为OpenGL将NDC坐标系定义为2x2x2立方体,其中心位于(0, 0, 0),即有效OpenGL NDC坐标必须在

    // Valid OpenGL NDC coordinates
    -1 <= x <= 1
    -1 <= y <= 1
    -1 <= z <= 1
    
    因为GLM最初是为OpenGL量身定制的,所以它的glm::orthoglm::perspective函数创建投影矩阵,将坐标转换为OpenGL NDC坐标。因此,有必要将这些坐标调整为“金属”。 this博客文章中概述了如何实现这一目标。
    但是,有一种更优雅的方法来固定这些坐标。有趣的是,Vulkan使用与Metal相同的NDC坐标系,并且GLM已被改编为与Vulkan一起使用(此here的提示)。
    通过定义C / C++预处理器宏GLM_FORCE_DEPTH_ZERO_TO_ONE,提到的GLM投影矩阵函数将转换坐标以与Metal / Vulkan的NDC坐标系统一起使用。因此,该#define将解决具有不同NDC坐标系的问题。
    接下来,在Metal着色器和客户端(CPU)代码之间交换数据时,必须同时考虑GLM和Metal数据类型的大小和对齐方式,这一点很重要。苹果的Metal Shading Language Specification列出了某些数据类型的大小和对齐方式。
    对于未在其中列出的数据类型,可以使用C / C++的sizeofalignof运算符来确定大小和对齐方式。有趣的是,Metal着色器支持两个运算符。以下是GLM和Metal的两个示例:
    // Size and alignment of some GLM example data types
    glm::vec2 : size:  8, alignment: 4
    glm::vec3 : size: 12, alignment: 4
    glm::vec4 : size: 16, alignment: 4
    glm::mat4 : size: 64, alignment: 4
    
    // Size and alignment of some of Metal example data types
    float2        : size:  8, alignment:  8
    float3        : size: 16, alignment: 16
    float4        : size: 16, alignment: 16
    float4x4      : size: 64, alignment: 16
    packed_float2 : size:  8, alignment:  4
    packed_float3 : size: 12, alignment:  4
    packed_float4 : size: 16, alignment:  4
    
    从上表可以看出,GLM向量数据类型在大小和对齐方式上与Metal的打包向量数据类型非常匹配。但是请注意,4x4矩阵数据类型在对齐方式上不匹配。
    根据this对另一个SO问题的回答,对齐表示以下含义:

    对齐方式是可以存储值的第一个字节的存储位置的限制。 (需要提高处理器的性能,并允许使用仅对具有特定对齐方式的数据起作用的某些指令,例如SSE需要对齐为16个字节,而AVX需要对齐为32个字节。)
    对齐16表示唯一的有效地址是16的倍数的内存地址。

    因此,在将4x4矩阵发送到Metal着色器时,我们需要谨慎考虑不同的对齐方式。让我们看一个例子:
    以下Objective-C结构充当缓冲区,用于存储要发送到Metal顶点着色器的统一值:
    typedef struct
    {
      glm::mat4 modelViewProjectionMatrix;
      glm::vec2 windowScale;
      glm::vec4 edgeColor;
      glm::vec4 selectionColor;
    } SolidWireframeUniforms;
    
    此结构在头文件中定义,该头文件包含在客户端(即CPU端)代码中需要的位置。为了能够在“金属”顶点着色器侧使用这些值,我们需要一个相应的数据结构。在此示例的情况下,“金属”顶点着色器部分如下所示:
    #include <metal_matrix>
    #include <metal_stdlib>
    
    using namespace metal;
    
    struct SolidWireframeUniforms
    {
      float4x4      modelViewProjectionMatrix;
      packed_float2 windowScale;
      packed_float4 edgeColor;
      packed_float4 selectionColor;
    };
    
    // VertexShaderInput struct defined here...
    
    // VertexShaderOutput struct defined here...
    
    vertex VertexShaderOutput solidWireframeVertexShader(VertexShaderInput input [[stage_in]], constant SolidWireframeUniforms &uniforms [[buffer(1)]])
    {
      VertexShaderOutput output;
      // vertex shader code
    }
    
    为了将数据从客户端代码传输到Metal着色器,将统一的结构打包到缓冲区中。以下代码显示了如何创建和更新该缓冲区:
    - (void)createUniformBuffer
    {
      _uniformBuffer = [self.device newBufferWithBytes:(void*)&_uniformData length:sizeof(SolidWireframeUniforms) options:MTLResourceCPUCacheModeDefaultCache];
    }
    
    
    - (void)updateUniforms
    {
      dispatch_semaphore_wait(_bufferAccessSemaphore, DISPATCH_TIME_FOREVER);
    
      SolidWireframeUniforms* uniformBufferContent = (SolidWireframeUniforms*)[_uniformBuffer contents];
      memcpy(uniformBufferContent, &_uniformData, sizeof(SolidWireframeUniforms));
    
      dispatch_semaphore_signal(_bufferAccessSemaphore);
    }
    
    请注意用于更新缓冲区的memcpy调用。如果GLM和Metal数据类型的大小和对齐方式不匹配,则可能会出错。由于我们只是将Objective-C结构的每个字节复制到缓冲区,然后在Metal着色器端,再次解释该数据,如果数据结构不匹配,则数据将在Metal着色器端被误解。
    在该示例的情况下,内存布局如下所示:
                                                  104 bytes
               |<--------------------------------------------------------------------------->|
               |                                                                             |
               |         64 bytes              8 bytes         16 bytes         16 bytes     |
               | modelViewProjectionMatrix   windowScale      edgeColor      selectionColor  |
               |<------------------------->|<----------->|<--------------->|<--------------->|
               |                           |             |                 |                 |
               +--+--+--+------------+--+--+--+-------+--+--+-----------+--+--+----------+---+
    Byte index | 0| 1| 2|    ...     |62|63|64|  ...  |71|72|    ...    |87|88|   ...    |103|
               +--+--+--+------------+--+--+--+-------+--+--+-----------+--+--+----------+---+
                                            ^             ^                 ^
                                            |             |                 |
                                            |             |                 +-- Is a multiple of 4, aligns with glm::vec4 / packed_float4
                                            |             |
                                            |             +-- Is a multiple of 4, aligns with glm::vec4 / packed_float4
                                            |
                                            +-- Is a multiple of 4, aligns with glm::vec2 / packed_float2
    
    除了4x4 matix对齐方式以外,其他所有条件都匹配良好。 4x4矩阵的未对齐在这里没有问题,在上述内存布局中可见。但是,如果统一结构得到修改,则对齐或大小可能会成为问题,并且可能需要填充以使其正常工作。
    最后,还有其他需要注意的地方。数据类型的对齐会影响需要为统一缓冲区分配的大小。因为SolidWireframeUniforms结构中出现的最大对齐方式是16,所以似乎统一缓冲区的长度也必须是16的倍数。
    在上述示例中,情况并非如此,缓冲区长度为104个字节,不是16的倍数。直接从Xcode运行应用程序时,内置的断言将显示以下消息:

    validateFunctionArguments:3478:失败的断言“顶点函数(solidWireframeVertexShader):缓冲区(1)中具有偏移量(0)和长度(104)的参数统一[0]具有104个字节的空间,但是参数具有长度(112)。”

    为了解决这个问题,我们需要使缓冲区的大小为16字节的倍数。为此,我们只需根据所需的实际长度计算下一个16的倍数。对于104,这将是112,这也是上面的断言还告诉我们的。
    以下函数为指定的整数计算16的下一个倍数:
    - (NSUInteger)roundUpToNextMultipleOf16:(NSUInteger)number
    {
      NSUInteger remainder = number % 16;
    
      if(remainder == 0)
      {
        return number;
      }
    
      return number + 16 - remainder;
    }
    
    现在,我们使用上述函数来计算统一缓冲区的长度,该函数将更改缓冲区创建方法(如上所述),如下所示:
    - (void)createUniformBuffer
    {
      NSUInteger bufferLength = [self roundUpToNextMultipleOf16:sizeof(SolidWireframeUniforms)];
      _uniformBuffer = [self.device newBufferWithBytes:(void*)&_uniformData length:bufferLength options:MTLResourceCPUCacheModeDefaultCache];
    }
    
    那应该解决上述断言检测到的问题。

    关于ios - GLM数学库是否与Apple的 Metal 着色语言兼容?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/54930382/

    10-13 09:19