自然语言编程是人工智能和软件工程领域的一个重要研究方向。它旨在使普通用户能够通过日常语言描述来生成可执行的程序代码,而无需掌握专业的编程技能。近期,随着大型语言模型(LLM)在代码生成方面取得的进展,这一目标似乎越来越接近实现。然而,现有的文本到代码(Text-to-Code)模型主要针对程序员使用的技术性描述,而非普通用户的日常语言表达。为了弥补这一差距,研究人员提出了NoviCode任务,旨在将非技术用户的自然语言描述转化为复杂的可执行程序。本文将详细介绍NoviCode任务的背景、挑战、数据集构建以及相关的评估方法和模型设计。
1. 任务背景与挑战
1.1 从Text-to-Code到自然语言编程
当前的Text-to-Code范式主要关注将程序员编写的技术性描述转换为代码行。而NoviCode任务则将这一范式扩展到更具挑战性的领域:从非技术人员使用的直观、日常语言描述生成具有复杂结构的程序。这一新颖的任务重构在两个层面上都具有挑战性:
-
生成的程序具有非平凡的控制流结构,需要调用可能未经过训练的新API,而不仅仅是生成简单的单行代码。
-
输入指令来自普通人的日常自然语言,不使用技术概念或专业术语。
这种自然语言编程(Natural Language Programming, NLProg)任务与标准的代码生成模型有几个关键区别:
- 传统Text-to-Code模型要求用户使用技术术语,如流程结构(条件、循环等)、数据类型、变量和编程概念(排序算法、面向对象概念、递归等)。
- NLProg旨在将不含任何技术术语的普通日常语言描述转换为使用独立且未见过的API规范的功能代码。
1.2 NLProg的特殊挑战
NLProg在描述隐含代码构造(如控制流元素:序列、循环或条件语句)时尤其具有挑战性,因为这些描述并未明确提及这些构造。例如,给定标准的电子邮件和日历应用API,以及用户请求:
“检查我是否收到了委员会所有顾问的确认邮件,否则取消与他们的会议”
我们期望模型能够:
- 将连词"或"解释为表示条件。
- 识别"委员会所有顾问"为对特定集合的迭代。
- 基于API生成适当的可执行程序(如图1所示)。
content = Content.resolve_from_text('confirmation')
senders = Contact.resolve_many_from_text('all advisors in the committee')
messages = []
for sender in senders:
messages.append(
Messages.find_messages(sender=sender, content=content)
)
test_messages = all(messages)
if not test_messages:
event_name = EventName.resolve_from_text('my meetings with them')
participants = senders
Calendar.delete_events(
event_name=event_name,
participants=participants
)
这个示例展示了从非技术用户的自然语言描述到复杂程序代码的转换过程,突出了NLProg任务的复杂性。
1.3 专业人士与新手的语言差异
程序员和新手在描述代码时存在显著差异:
-
程序员描述:
- 明确指出目标代码中的元素,如函数、参数和变量名。
- 使用技术术语和编程概念。
- 例如:“在8080端口启动一个监听服务器”。这里明确指定了参数(端口)及其值(8080),使用了技术术语(服务器、端口),并采用了代码概念(启动服务器、监听端口)。
-
新手描述:
- 使用不与程序代码对齐的自然语言表述。
- 没有目标程序代码、编程语言、API或一般编程概念的先验知识。
- 使用更简单的日常语言,偏离底层代码元素。
- 例如:“为我找到《仲夏夜之梦》的相邻座位,选在天气好的第一个周末”。这个描述可能需要包含循环(遍历周末)和条件(天气好),但没有使用明确的关键词来指示这些结构。
这种差异突显了将新手使用的语言转换为技术性代码的额外挑战。
2. NoviCode任务定义
NoviCode任务的定义如下:
输入:
- 由新手生成的自然语言描述,描述一个复杂的代码。
- API规范,允许相关代码的功能执行。这些API规范充当高级复杂NL指令和低级代码实现之间的桥梁。
输出:
满足NL描述的程序代码。输出代码需要在语法上和功能上正确,并能根据API规范成功编译。
3. 数据集构建
为了创建NoviCode基准,研究团队采取了以下步骤:
3.1 收集非程序员的意图描述
首先,研究人员通过众包平台Amazon Mechanical Turk收集了非程序员对复杂代码的自然语言描述。这一步骤旨在捕捉这群用户直观的语言结构和表达方式,涵盖了各种涉及不同逻辑控制流的普通语言描述。
收集过程聚焦于9个直观的域:时钟、事件、地图、消息、音乐、提醒、购物、智能家居和天气。这些领域对非专业众包工作者来说很直观,不需要任何专业知识,并且可以交织在一起描述复杂程序的执行。
为了刺激创造性描述的生成,研究人员设计了一个交互式用户界面,模拟移动设备。该界面引导贡献者通过一系列步骤来制定复杂查询,验证控制流,并提交他们的描述。为了促进创造力,系统随机向贡献者展示:
- 潜在领域的子集
- 以直观方式表达的首选控制流(如条件或序列)
- 在某些情况下,限制使用常见词语(如"if"、“then”、“tomorrow”、“tonight”、“weather”、"when"等)
另一种促进创造力的策略是提供单步非复杂描述示例,并要求贡献者重新表述以表达更复杂的目标,同时教育他们复杂描述可能是什么样子。
3.2 人工制作测试套件
第二阶段集中于制定手写测试套件。为了评估生成的代码,研究人员收集了手工制作的Python测试套件,其中包含专门用于检查第一阶段收集的NL指令生成代码正确性的单元测试。
从第一阶段收集的1,200个描述中随机选择了150个评估目标。两名熟悉Python编程和单元测试的本科生和研究生花费了约100小时构建测试,以可靠地执行任务。
每个标注者编写了带有测试场景片段的功能测试,该片段将与用作测试输入的数据一起使用,并相应地设置了一组断言测试。在运行时,通过组合测试场景片段、生成的代码和断言测试来执行单元测试。在单元测试执行之前,生成的代码对编写单元测试的程序员保持隐藏,确保对代码生成模型的公正评估。
3.3 合成训练数据集
为了增强数据集,研究人员采用了Berant和Liang(2014)的方法生成合成描述。这种方法将NL句子与逻辑谓词匹配。具体步骤如下:
-
首先,从领域范围内为每个逻辑谓词(如checkWeather)指定一个规范短语(如"check weather")来创建种子词典。这个词典是从通过众包收集的较大数据集的一个子集中提取的。
-
其次,定义一个语法,该语法与种子词典和模拟数据生成器一起,可以自动生成大量规范描述(“今晚检查纽约市的天气”)及其执行代码。
-
在定义了谓词和潜在参数后,研究人员使用从保留集中提取的自然出现的短语扩展语法,以体现控制流规则,从而促进生成具有不同嵌套程度的控制流。
-
最后,递归地使用规范描述来组成复杂的规范描述(例如,“今晚检查天气,并查看纽约市的交通状况”)。
虽然生成的描述可能不如真实的NL用户查询那样优雅,但它们提供了大量的训练数据,有助于模型学习将自然语言映射到代码结构。
4. 评估方法
评估NoviCode任务的代码生成模型面临着独特的挑战。传统的基于字符串匹配的度量(如BLEU和CodeBLEU)在这种复杂的代码生成任务中不够充分,因为它们可能会错误判断与参考解决方案功能等效但形式不同的解决方案。
为了解决这个问题,NoviCode采用了基于功能正确性的评估方法。具体来说:
-
每个数据样本都配备了一套全面的单元测试,涵盖了复杂程序中典型的各种边缘情况。
-
评估过程不仅关注程序的最终输出,还提供了有关程序各个部分正确性的洞察。
-
测试套件经过精心设计,能够评估生成代码中控制流元素的功能正确性,而不仅仅是代码的形式或最终状态。
这种评估方法确保了对生成代码质量的全面和细粒度评估,特别适合源自非程序员描述的复杂程序。
5. 模型设计
为了应对将高级语言转换为复杂代码的非平凡挑战,研究人员提出了一种新颖的建模方法。这种方法的核心思想是:学习自然语言查询与代码分层结构的对齐,而不是简单地学习端到端的文本到代码模型。
研究人员假设,这种对齐学习方法可以显著提高LLM在NoviCode任务上的性能,特别是在处理如此复杂的程序时。实验结果证实了这一假设,表明与事实上的标准端到端建模相比,这种新方法确实表现更好。
这种建模方法的主要特点包括:
- 显式学习自然语言片段与代码组成结构的对应关系。
- 利用代码的层次结构信息来指导生成过程。
- 能够更好地处理复杂的控制流和API调用。
6. 实验结果与分析
研究人员使用标准LLM和新提出的对齐学习方法在NoviCode任务上进行了实验。主要发现包括:
-
NoviCode确实是代码合成领域的一项具有挑战性的任务。从非技术指令生成复杂代码超出了当前Text-to-Code范式的能力。
-
现有模型难以生成具有复杂构造的预期可执行代码。这表明了任务的困难程度,也突显了进一步研究的必要性。
-
新提出的对齐自然语言查询与代码分层结构的方法显著提高了LLM在此任务上的性能。这一发现为未来的模型设计提供了有价值的方向。
-
即使使用最先进的生成式LLM,对齐学习方法仍然优于标准的端到端基线模型。这证实了该方法在处理复杂代码生成任务时的有效性。
这些结果不仅验证了NoviCode任务的价值,也为未来的研究指明了方向。它们强调了开发更先进的模型和方法以缩小非技术用户语言和复杂代码之间差距的重要性。
7. 结论与未来展望
NoviCode任务的提出标志着自然语言编程研究的一个重要里程碑。它不仅定义了一个新的具有挑战性的代码合成任务,还提供了评估复杂程序生成的新方法,以及改进模型性能的创新建模技术。
主要贡献总结如下:
- 定义了一个基于非技术自然语言的新型代码合成任务。
- 提供了一个由非程序员指令组成的数据集,配有专家制作的评估套件,关注生成代码的功能而非形式。
- 提出了一种新的建模方法,将NL片段与代码的显式组合结构对齐。
- 实验证明,即使使用最先进的生成式LLM,新提出的对齐学习方法仍然优于标准的端到端基线模型。
这项研究为自然语言编程领域开辟了新的研究方向,同时也揭示了一些值得进一步探索的问题:
7.1 模型改进
尽管提出的对齐学习方法取得了显著进展,但在处理极其复杂的程序结构时仍存在挑战。未来的研究可以探索以下方向:
-
增强模型对上下文的理解能力,使其能更好地捕捉隐含在自然语言中的程序逻辑。
-
开发更先进的注意力机制,以更精确地将自然语言片段与代码结构对齐。
-
探索将领域知识和常识推理纳入模型中的方法,以更好地理解非技术用户的意图。
7.2 数据集扩展
虽然NoviCode数据集为研究提供了坚实的基础,但进一步扩展和多样化数据集可能会带来更多洞察:
-
扩大领域覆盖范围,包括更多专业和技术领域,以测试模型的泛化能力。
-
收集来自不同文化和语言背景用户的描述,以探索跨文化和多语言自然语言编程的挑战。
-
创建包含更长、更复杂程序的数据子集,以推动模型在处理大规模代码生成任务时的能力边界。
7.3 评估方法的进一步发展
尽管基于功能的评估方法是一个重要进步,但仍有改进空间:
-
开发更细粒度的评估指标,不仅关注功能正确性,还考虑代码质量、效率和可读性等方面。
-
探索自动生成测试套件的方法,以加快评估过程并扩大可评估样本的规模。
-
结合人类专家评估和自动化评估,以获得更全面的性能衡量。
7.4 实际应用与用户研究
将NoviCode的研究成果转化为实际应用是一个重要的下一步:
-
开发基于NoviCode技术的交互式编程助手,并在真实用户中进行测试。
-
研究如何将这种技术整合到现有的开发环境中,以辅助非专业程序员进行编程任务。
-
进行长期用户研究,了解这种技术如何影响非专业用户的编程学习和实践。
7.5 伦理和安全考虑
随着自然语言编程技术的发展,也需要关注潜在的伦理和安全问题:
-
研究如何确保生成的代码符合安全标准和最佳实践。
-
探讨自然语言编程技术可能对就业市场和编程教育产生的影响。
-
开发方法来检测和防止通过自然语言描述生成恶意代码的尝试。
8. NoviCode的潜在应用场景
NoviCode任务的成功突破可能会在多个领域带来革命性的变化:
8.1 教育与培训
-
编程教学辅助:NoviCode可以作为一个强大的教学工具,帮助初学者理解如何将高级概念转化为实际代码。学生可以用自然语言描述他们的想法,然后观察这些想法如何被转换成实际的程序结构。
-
个性化学习路径:通过分析学生的自然语言描述和生成的代码之间的差异,系统可以识别学生的知识盲点,提供个性化的学习建议。
-
跨学科编程应用:非计算机专业的学生可以更容易地将编程应用到他们的研究中,无需深入学习编程语言的语法细节。
8.2 软件开发
-
快速原型开发:开发人员可以使用自然语言快速描述功能需求,系统生成初始代码框架,大大加速原型开发过程。
-
代码文档生成:反向使用NoviCode技术,可以从复杂的代码结构生成自然语言描述,自动创建易懂的代码文档。
-
需求分析工具:将客户的自然语言需求直接转换为初步的代码结构,帮助开发团队更快理解和评估项目需求。
8.3 人机交互
-
智能个人助理升级:集成NoviCode技术的个人助理可以执行更复杂的任务,如自动化日程安排、数据分析等。
-
无代码/低代码平台增强:为这些平台提供更自然的交互界面,使用户能够通过对话式交互创建复杂的应用逻辑。
-
辅助技术:帮助视障人士或行动不便者通过语音指令控制和编程设备,增强他们的独立性。
8.4 科学研究
-
实验自动化:研究人员可以用自然语言描述复杂的实验程序,系统自动生成控制实验设备的代码。
-
数据分析脚本生成:科学家可以描述所需的数据处理和分析步骤,系统生成相应的分析脚本。
-
跨学科合作工具:促进不同背景的研究人员合作,通过自然语言交流复杂的计算任务。
8.5 企业应用
-
业务流程自动化:非技术人员可以描述业务流程,系统自动生成相应的工作流自动化脚本。
-
定制报告生成:管理人员可以用自然语言描述所需的报告内容和格式,系统自动生成数据处理和可视化代码。
-
智能客户服务:客服人员可以通过自然语言描述来快速创建和修改客户服务脚本,提高服务效率。
9. 总结
NoviCode任务的提出标志着自然语言编程研究迈出了重要一步。通过桥接非技术用户的日常语言与复杂的程序结构,NoviCode为实现真正的自然语言编程铺平了道路。这项研究不仅提供了宝贵的数据集和评估方法,还提出了创新的模型设计思路,为未来的研究指明了方向。
尽管当前的模型在处理极其复杂的程序结构时仍面临挑战,但NoviCode的成果为进一步的突破奠定了基础。随着研究的深入,我们可以期待看到更强大、更直观的自然语言编程系统的出现,这将彻底改变人们与计算机交互和创造软件的方式。
未来的研究应该继续追求在更广泛的领域和更复杂的任务中提高模型性能,同时也要关注技术的实际应用、用户体验以及潜在的社会影响。通过不断的创新和努力,我们有望在不远的将来看到自然语言编程成为连接人类创意和计算能力的强大桥梁。
参考文献
-
Achi, A., Goldberg, Y., & Tsarfaty, R. (2024). NoviCode: Generating Programs from Natural Language Utterances by Novices. arXiv preprint arXiv:2407.10626v2.
-
Berant, J., & Liang, P. (2014). Semantic parsing via paraphrasing. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 1415-1425).
-
Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. D. O., Kaplan, J., … & Zaremba, W. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
-
Wang, Y., Wang, W., Joty, S., & Hoi, S. C. (2023). CodeT5+: Open Code Large Language Models for Code Understanding and Generation. arXiv preprint arXiv:2305.07922.
-
Nijkamp, E., Pang, B., Hayashi, H., Tu, L., Wang, H., Zhou, Y., … & Liu, C. (2023). CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X. arXiv preprint arXiv:2303.17568.