文章目录
前言
这是 AI 技术取得突破的一年。ChatGPT 和 Bing Chat 等大型语言模型 (LLM) 在大量公共数据上进行了训练,展示了从写诗到生成计算机程序的一系列令人印象深刻的技能,尽管它们不是为解决任何特定任务而设计的。
但是,即使一些用户可能已经习惯与聊天机器人分享个人信息(例如他们的社交媒体资料和病史)并寻求推荐,但重要的是要记住,这些 LLMs 仍处于相对早期的开发阶段,通常不推荐使用用于复杂的咨询任务,例如医疗诊断、财务风险评估或业务分析。能够可靠地执行这些任务的模型需要在模型架构(例如,根据图像、音频和视频等多模型数据进行训练的能力)和专业高质量训练数据的来源方式方面进行创新。
可用于训练下一代模型的数据已经存在,但它既是私人的(根据政策或法律),又分散在许多独立实体中:医疗实践和医院、银行和金融服务提供商、物流公司、咨询公司…这些参与者中的少数最大参与者可能有足够的数据来创建自己的模型,但处于 AI 创新前沿的初创公司无法访问这些数据集。
一、机密计算
机密计算是一项基础技术,可以解锁对敏感数据集的访问,同时满足数据提供商和广大公众的隐私和合规性问题。通过机密计算,数据提供商可以授权将其数据集用于特定任务(通过认证验证),例如训练或微调商定的模型,同时保持数据机密。最终用户可以通过检查推理服务不会出于未经授权的目的收集其数据来保护其隐私。模型提供商可以验证为其模型提供服务的推理服务运营商无法提取模型的内部架构和权重。
与使用单个组织的数据训练的相同模型相比,机密计算可以使多个组织将其数据集汇集在一起,以更高的准确性和更低的