这个问题是针对那些熟悉GPT或GPT2 OpenAI模型的人的。特别是带有编码任务(字节对编码)。这是我的问题:
我想知道如何创建自己的vocab.bpe文件。
我有一个西类牙语料库文本,我想使用它来适合我自己的bpe编码器。我已经使用python-bpe库成功创建了encoder.json,但是我不知道如何获取vocab.bpe文件。
我已经检查了gpt-2/src/encoder.py中的代码,但是找不到任何提示。有什么帮助或想法吗?
提前非常感谢您。
最佳答案
checkout here,您可以使用以下命令轻松创建相同的vocab.bpe:
python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000
关于python - 如何使用自己的主体文本创建vocab.bpe文件(GPT和GPT2 OpenAI模型)并使之适合?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55531061/