我想以二进制格式(例如jpegs,但可以是任何二进制格式)加载一些文件,以某种方式进行操作并将其写回。我想在hadoop上做到这一点,我想在Cascading框架上编写它。

我可以将二进制接收器/制表符用于二进制格式的文件吗?还有其他方法吗?

我什么都找不到。我能想到的唯一选择是也许我应该实现自己的hadoop InputFormat,它将以字节数组或Java ByteBuffer的形式读取文件,但是我发现没有内置解决方案很奇怪(因为我确定不是第一个遇到此问题的人)。

如果有人有任何指点,将不胜感激

最佳答案

您将必须编写自己的Hadoop InputFormat来处理二进制数据,然后将该InputFormat包装在自定义的Cascading Scheme中。从好的方面来说,您不需要自定义的Tap

所有这些都来自于层叠author本人。

关于hadoop - 如何在Cascading中读写二进制文件?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/17700290/

10-16 01:13