我一直在努力研究在Matlab中执行常见SQL操作所需的额外代码和簿记下面是一个典型的SQL代码模式示例,用于生成汇总数据表的度量:

SELECT vGrouping, MEAN( x - y ) AS rollup1, VAR(y+z) AS rollup2
INTO tRollups FROM tDat GROUP BY vGrouping

我的SQL有点生疏,但是SQLers应该清楚总体思路这是Matlab的等价物:
% Create test data
tDat = array2table( floor(10*rand(5,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat.vGrouping = ( rand(5,1) > 0.5 )

% Calculate summary metrics for each group of data
[vGroup,grps] = findgroups(tDat.vGrouping)
fRollup = @(a,b,c)[ mean(a-b) var(b+c) ] % Calculates summary metric
rollups = splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup )

% Code pattern 1 to assemble results
tRollups = [ array2table( grps , 'VariableNames',{'group'} ) ...
             array2table( rollups , ...
                          'VariableNames',{'rollup1','rollup2'} ) ]

% Code pattern 2 to assemble results
tRollups = array2table( [grps rollups], ...
                        'VariableNames',{'group','rollup1','rollup2'} )

这不是一个公平的比较,因为Matlab代码包含数据设置,以及两种可能的代码模式,用于组合摘要度量此外,我还添加了一些注释——这并不是为了使Matlab代码更加庞大,而是因为它更加繁忙,需要一些认知路标来帮助阅读。
然而,除了代码量之外,让我恼火的一件事是tDat中的汇总表达式没有显式地与输入或输出数据列的名称相关联参数是伪参数,fRollup中的实际输入数据列在tDat调用中指定与fRollup参数的关联是位置关联,因此字段/变量名称本身无法强制执行正确的关联同样,tRollups中的输出列在array2table调用中指定,同样与splitapply输出位置相关。
这使得SQL语句中相当简单的关系在Matlab代码中很难看到有没有一个替代的模式或设计习惯用法没有这个缺点,但希望不会产生很多其他缺点?
后注:出于某种原因,即使下面没有解决输入/输出参数与实际输入/输出变量的命名/显式关联,我仍然发现更容易看到这些关系代码看起来确实没那么吵了关键是,用于生成数据摘要度量的函数fRollup现在返回多个输出,而不是将它们绑定到单个阵列输出中这允许我显式地将scalarsplitapplyfRollup的属性命名为赋值的目标我不需要将所有类型的转换转换为表,使用额外的代码指定struct,只需要将结果与标识的组连接起来相反,群组身份作为另一个属性ssRollups在同一VariableNamesgrps)中作为struct结果开始,事实上,它是第一个使ssRollups存在的属性。
% File tmp.m
%-----------
function tmp

   % Create test data
   tDat = array2table( floor(10*rand(5,3)) , ...
                       'VariableNames',{'x','y','z'} );
   tDat.vGrouping = ( rand(5,1) > 0.5 )

   % Find the groups
   [ vGroup, ssRollups.grps ] = findgroups(tDat.vGrouping)

   % Calculate summary metrics for each group of data
   [ ssRollups.rollup1 ssRollups.rollup2 ] = ...
      splitapply( @fRollup, tDat(:,{'x','y','z'}), vGroup );

   % Display use nice table formatting
   struct2table( ssRollups )

end % function tmp

function [rollup1 rollup2] = fRollup(a,b,c)
   rollup1 = mean(a-b);
   rollup2 = var(b+c);
end % function fRollup

然而,作为一个多输出函数,splitapply似乎更适合于非匿名函数对我来说,尽管代码不那么紧凑,但它实际上似乎更好地记录了多个输出这可能只是其中一种情况,即更紧凑的内容可读性较差,从而导致更难看到数据关系但是,它确实要求将整个代码段转换成一个函数(在本例中为struct),除非您不介意将fRollup分解成它自己的函数和m-file我不想在我的文件系统中浪费这么小的代码片段函数。

最佳答案

这个“答案”并不直接处理实际输入/输出变量和提供给splitapply的函数句柄参数之间的显式命名关联但是,它显著地简化了初始示例中的代码,希望能够更清楚地看到函数参数和输入/输出变量之间的关系这个解决方案最初包含在问题的后注中由于更好的答案似乎不会很快出现,所以我决定把它作为答案它使用deal来实现匿名多输出函数,以便splitapply在由其分组参数定义的数据组上使用。

% Create test data
tDat = array2table( floor(10*rand(5,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat.vGrouping = ( rand(5,1) > 0.5 )

% Find the groups
[ vGroup, ssRollups.grps ] = findgroups(tDat.vGrouping)

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ ssRollups.rollup1 ssRollups.rollup2 ] = ...
   splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

% Display use nice table formatting
struct2table( ssRollups )

在出现更好的解决方案之前,这种方法将成为我的习惯用法。
这里有一个变量,它使用一个表变量作为splitapply的输出当使用多个分组变量时,这可能更方便,因为splitapply会将分组变量名称传递给左侧的输出变量findgroups
% Create test data
tDat = array2table( floor(10*rand(8,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat = [ tDat ...
         array2table( rand(8,2)>0.5 , ...
                      'VariableNames',{'vGrpng1','vGrpng2'} ) ];

% Find the groups
[ vGroup, tRollups ] = findgroups(tDat(:,{'vGrpng1','vGrpng2'}));

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ tRollups.rollup1 tRollups.rollup2 ] = ...
   splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

tRollups

这里有一个版本,它使用多个分组变量,并使用标量结构而不是用于tRollupsfindgroup输出的表:
% Create test data
tDat = array2table( floor(10*rand(8,3)) , ...
                    'VariableNames',{'x','y','z'} );
tDat.vGrpng1 = rand(8,1)>0.5 ;
tDat.vGrpng2 = rand(8,1)>0.5

% Find the groups
[ vGroup, ssRollups.vGrpng1, ssRollups.vGrpng2 ] = ...
    findgroups( tDat.vGrpng1, tDat.vGrpng2 );

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ ssRollups.rollup1 ssRollups.rollup2 ] = ...
   splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

% Display using nice table formatting
struct2table( ssRollups )

08-27 09:14