要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 18 章:对抗性提示
对抗性提示是一种允许模型生成能够抵御某些类型的攻击或偏差的文本的技术。这种技术可用于训练更健壮、更能抵御某些类型的攻击或偏差的模型。
要在 ChatGPT 中使用对抗性提示,应为模型提供一个提示,该提示的设计应使模型难以生成与所需输出一致的文本。提示中还应包含所需的输出信息,如要生成的文本类型以及任何特定的要求或限制。
提示示例及其公式:
示例 1:用于文本分类的对抗提示
- 任务: 生成归类为特定标签的文本
- 说明: 生成的文本应难以归类为特定标签
- 提示公式: "生成难以归类为【插入标签】的文本
示例 2:用于情感分析的对抗提示
- 任务: 生成难以归类为特定情感的文本
- 说明: 生成的文本应难以归类为特定情感
- 提示公式: "生成难以归类为【插入情感】情感的文本
示例 3:语言翻译对抗提示
- 任务: 生成难以翻译的文本
- 说明: 生成的文本应难以翻译成目标语言
- 提示公式: "生成难以翻译成【插入目标语言】的文本