我正在从pdf文件中剥离数据,因此我将pdf转换为txt并从中获取数据。当只有一条记录时,我会得到这样的字符串形式的主记录,有时我会得到这样的单个字符串形式的多条记录,我用“”字符发现在第一行的字符串CARDS 1 GA350C 3 2 0 . 0 450.0 DIGCL R 90 . 0 55.0 2Y 4 4 #
中有多个记录,实际字符串应该是Invite 1 MA300C 3 2 0 . 0 450.0 DIGCL R 9 9 . 0 210.0 6 Y 4 4 #RSVP 1 OFF-90 A 1 3 2 0 . 0 450.0 DIGBH S 9 9 . 0 210.0 6 N 1 0 #Letter1 1 MA130C 3 2 0 . 0 450.0 DIGC L R 29 7 . 0 210.0 2 N 4 0 #Letter1 1 OFF-90 A 1 3 2 0 . 0 450.0 DIGBH S 29 7 . 0 210.0 2 N 1 0 #Envelopes 1 ENVDL E P F S 3 2 0 . 0 450.0 DIGBH S 13 0 . 0 225.0 1 N 1 0 #
这里y代表是,所以这个字符有时n代表否,我如何以我显示的方式连接数字和字母?不管我用的是什么长度
$string = "CARDS 1 GA350C 3 2 0 . 0 450.0 DIGCL R 90 . 0 55.0 2Y 4 4 #";
$newstring = preg_replace("/(\d+)\s+(?=\d+)/", "$1", $string);
但运气不好,有人能解决吗?谢谢你看这个问题。
最佳答案
我不会一个人做的。
下面的代码将把所有格式奇怪的数字转换成新格式,例如:
$string = "CARDS 1 GA350C 3 2 0 . 0 450.0 DIGCL R 90 . 0 55.0 2 Y 4 4";
preg_match_all("/(\d+\s)+\.\s?0/", $string, $matches);
$newNumbers = array_map(
function ($number) { return str_replace(' ', '', $number); },
$matches[0]
);
$newstring = str_replace($matches[0], $newNumbers, $string);
结果:
卡片1 GA350C 320.0 450.0数字卡R 90.0 55.0 2 Y 4 4