我有一个包含两列的 Pandas 数据框,一列包含图像路径,另一列包含字符串类标签。

我还编写了以下函数,这些函数从数据帧加载图像,重新规范化它们并将类标签转换为单热向量。

def prepare_data(df):
    data_X, data_y = df.values[:,0], df.values[:,1]

    # Load images
    data_X = np.array([np.array(imread(fname)) for fname in data_X])

    # Normalize input
    data_X = data_X / 255 - 0.5

    # Prepare labels
    data_y = np.array([label2int[label] for label in data_y])
    data_y = to_categorical(data_y)

    return data_X, data_y

我想将此数据帧提供给 Keras CNN,但整个数据集太大而无法一次加载到内存中。

本网站的其他答案告诉我,为此我应该使用 Keras ImageDataGenerator,但老实说,我不明白如何从文档中做到这一点。

将延迟加载批次中的数据提供给模型的最简单方法是什么?

如果它是 ImageDataGenerator,我如何创建一个 ImageDataGenerator 来初始化 Dataframe 并通过我的函数传递批次以创建适当的 numpy 数组?以及如何使用 ImageDataGenerator 拟合模型?

最佳答案

ImageDataGenerator 是一个高级类,它允许从多个来源(来自 np arrays ,来自目录...)产生数据,并且包括执行图像增强等的实用函数。

更新

keras-preprocessing 1.0.4 开始,ImageDataGenerator 带有一个 flow_from_dataframe method 来解决您的情况。它需要定义如下的 dataframedirectory 参数:

dataframe: Pandas dataframe containing the filenames of the
           images in a column and classes in another or column/s
           that can be fed as raw target data.
directory: string, path to the target directory that contains all
           the images mapped in the dataframe.

所以不再需要自己实现它。

原答案如下

在您的情况下,使用您描述的数据帧,您还可以编写自己的自定义生成器,将 prepare_data 函数中的逻辑用作更简约的解决方案。使用 Keras 的 Sequence 对象来这样做是一种很好的做法,因为它允许使用多处理(这将有助于避免你的 GPU 出现瓶颈,如果你正在使用它的话)。

您可以查看 Sequence 对象上的 docs,它包含一个实现示例。最终,您的代码将是这样的(这是样板代码,您必须添加诸如 label2int 函数或图像预处理逻辑之类的细节):
from keras.utils import Sequence
class DataSequence(Sequence):
    """
    Keras Sequence object to train a model on larger-than-memory data.
    """
    def __init__(self, df, batch_size, mode='train'):
        self.df = df # your pandas dataframe
        self.bsz = batch_size # batch size
        self.mode = mode # shuffle when in train mode

        # Take labels and a list of image locations in memory
        self.labels = self.df['label'].values
        self.im_list = self.df['image_name'].tolist()

    def __len__(self):
        # compute number of batches to yield
        return int(math.ceil(len(self.df) / float(self.bsz)))

    def on_epoch_end(self):
        # Shuffles indexes after each epoch if in training mode
        self.indexes = range(len(self.im_list))
        if self.mode == 'train':
            self.indexes = random.sample(self.indexes, k=len(self.indexes))

    def get_batch_labels(self, idx):
        # Fetch a batch of labels
        return self.labels[idx * self.bsz: (idx + 1) * self.bsz]

    def get_batch_features(self, idx):
        # Fetch a batch of inputs
        return np.array([imread(im) for im in self.im_list[idx * self.bsz: (1 + idx) * self.bsz]])

    def __getitem__(self, idx):
        batch_x = self.get_batch_features(idx)
        batch_y = self.get_batch_labels(idx)
        return batch_x, batch_y

您可以像自定义生成器一样传递此对象来训练模型:
sequence = DataSequence(dataframe, batch_size)
model.fit_generator(sequence, epochs=1, use_multiprocessing=True)

如下所述,不需要实现混洗逻辑。在 shuffle 调用中将 True 参数设置为 fit_generator() 就足够了。从 docs :

关于python - 从 Pandas 数据帧在 Keras 中加载批量图像,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51843149/

10-12 22:46
查看更多