Meta 发布紫羊驼:在生成人工智能的新世界中走向开放的信任和安全
生成式人工智能(Generative AI)引发了一系列前所未有的创新浪潮。这项技术使我们能够与对话式人工智能进行交流、生成逼真的图像,并通过简单的提示来准确总结大量文档。截至目前,Llama模型已超过1亿次下载,这些创新很大程度上得益于开放模型的推广。
为了推动这一创新浪潮的安全发展,建立信任至关重要,这需要在负责任的人工智能方面进行更多的研究和贡献。开发者不能孤立地面对人工智能的挑战,因此我们希望营造一个开放、共享的环境,创建一个开放信任和安全的中心。
今天,我们宣布推出Purple Llama项目,这是一个旨在随着时间推移,整合工具和评估,帮助社区以开放的生成式AI模型负责任地构建的总括项目。初始发布将包括针对网络安全和输入/输出保护的工具和评估,未来还将推出更多工具。
Purple Llama项目中的组件将采用宽容许可的授权方式,以便同时支持研究和商业用途。我们相信,这是迈向社区合作、规范生成式AI发展中信任和安全工具的开发和使用的重要一步。
网络安全和LLM提示安全是当今生成式AI安全的重要领域。我们已经在我们的第一方产品中优先考虑了这些因素,并在Llama 2负责任使用指南中将它们作为最佳实践进行强调。
在网络安全方面,我们分享了一套我们认为是首个行业范围内的LLM网络安全安全评估。这些基准是基于行业指导和标准(例如CWE和MITRE ATT&CK),并与我们的安全专家合作建立。通过这个初始版本的发布,我们旨在提供工具,以帮助解决白宫在负责任AI开发承诺中概述的一些风险,包括:
量化LLM网络安全风险的指标。 评估不安全代码建议频率的工具。 使LLM更难生成恶意代码或协助进行网络攻击的工具。
我们相信这些工具将减少LLM建议不安全AI生成代码的频率,并减少它们对网络对手的帮助。我们的初步结果表明,LLM在推荐不安全代码和响应恶意请求方面存在重大网络安全风险。更多详细信息可以参考我们的Cybersec Eval论文。
在输入/输出保护方面,正如我们在Llama 2的负责任使用指南中所概述的,我们建议对LLM的所有输入和输出根据适用的应用内容指南进行检查和过滤。
为了支持这一点并赋权社区,我们发布了Llama Guard,这是一个公开可用的模型,其在常见开放基准测试中的表现具有竞争力,并为开发者提供了一个预训练模型,以帮助防止生成潜在风险的输出。
作为我们对开放和透明科学的持续承诺的一部分,我们在Llama Guard论文中发布了我们的方法论和对模型性能的扩展讨论。这个模型是在一系列公开可用的数据集上训练的,以支持检测多种开发者用例可能相关的常见潜在风险或违规内容的类型。最终,我们的愿景是使开发者能够定制这个模型以支持相关的用例,并使采纳最佳实践和改善开放生态系统变得更加容易。