嗨,我正在尝试基于ssdeep从文件中查找组。

我已经生成了ssdeep文件,并将其保存在csv文件中。

我在perl脚本中解析文件,如下所示:

foreach( @all_lines )
{
    chomp;
    my $line = $_;

    my @split_array = split(/,/, $line);
    my $md5 = $split_array[1];
    my $ssdeep = $split_array[4];

    my $blk_size = (split(/:/, $ssdeep))[0];

    if( $blk_size ne "")
    {
        my $cluster_id = check_In_Cluster($ssdeep);

        print WFp "$cluster_id,$md5,$ssdeep\n";
    }
}

这还将检查ssdeep是否在以前的群集组中存在,如果不存在,则创建新的组。

chec_In_Cluster的代码
my $ssdeep = shift;
my $cmp_result;

if( $cluster_cnt > 0 ) {
    $cmp_result = ssdeep_compare( $MRU_ssdeep, $ssdeep );
    if( $cmp_result > 85 ) {
        return $MRU_cnt;
    }
}

my $d = int($cluster_cnt/4);
my $thr1 = threads->create(\&check, 0, $d, $ssdeep);
my $thr2 = threads->create(\&check, $d, 2*$d, $ssdeep);
my $thr3 = threads->create(\&check, 2*$d, 3*$d, $ssdeep);
my $thr4 = threads->create(\&check, 3*$d, $cluster_cnt, $ssdeep);

my ($ret1, $ret2, $ret3, $ret4);
$ret1 = $thr1->join();
$ret2 = $thr2->join();
$ret3 = $thr3->join();
$ret4 = $thr4->join();
if($ret1 != -1) {
    $MRU_ssdeep = $ssdeep;
    $MRU_cnt = $ret1;
    return $MRU_cnt;
} elsif($ret2 != -1) {
    $MRU_ssdeep = $ssdeep;
    $MRU_cnt = $ret2;
    return $MRU_cnt;
} elsif($ret3 != -1) {
    $MRU_ssdeep = $ssdeep;
    $MRU_cnt = $ret3;
    return $MRU_cnt;
} elsif($ret4 != -1) {
    $MRU_ssdeep = $ssdeep;
    $MRU_cnt = $ret4;
    return $MRU_cnt;
} else {
    $cluster_base[$cluster_cnt] = $ssdeep;
    $MRU_ssdeep = $ssdeep;
    $MRU_cnt = $cluster_cnt;
    $cluster_cnt++;
    return $MRU_cnt;
}

和chech的代码:
sub check($$$) {
    my $from = shift;
    my $to = shift;
    my $ssdeep = shift;

    for( my $icnt = $from; $icnt < $to; $icnt++ ) {
        my $cmp_result = ssdeep_compare( $cluster_base[$icnt], $ssdeep );
        if( $cmp_result > 85 ) {
            return $icnt;
        }
    }
return -1;
}

但是此过程需要很多时间(对于20-30MB的csv文件,它需要8-9小时)。
我也尝试在检入Cluster时使用多线程,但是从中得到的帮助不多。

由于他们不需要像Text::CSV这样的csv解析器(因为对csv的操作较少),所以我没有使用它。

有人可以解决我的问题吗?是否可以使用hadoop或其他基于ssdeep进行分组的框架?

最佳答案

Optimizing ssDeep for use at scale (2015-11-27)有一个提示。

  • 根据您的目的,循环并匹配不同块大小的SSDEEP将创建N x(N-1)哈希比较。除非您需要查找部分内容,否则请避免使用。
  • 可以按照文章中的建议对步骤1中的哈希索引进行细分。对于部分内容匹配不同块大小的情况,这是一种更好的方法。
  • 可以通过生成“距离表亲”哈希将相似的哈希分组来减少SSDEEP哈希。
  • 07-25 21:05