主页 > 快资讯 > 正文

“目前水平最高”！Meta 挑战 ChatGPT(3)

2023-02-28 13:45来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

复制网址

Meta 称，将致力于这种开源模型的研究，新模型会开源给整个 AI 研究社区使用，并授予大学、非政府组织和行业实验室访问权限。另外，Meta 表示其还有更多研究需要做，以解决大型语言模型中的偏见、有害评论等风险。

使用公开数据集训练或将打破大模型发展格局

Meta 训练其 LLaMA 模型所使用的是各类公开可用的数据集（例如 Common Crawl、维基百科以及 C4），意味着该公司可能会开源发布模型及其权重设置。在大语言模型行业当中，这代表着一波转折性的新发展，或将打破科技巨头在竞赛中永远把最好的 AI 技术“藏”起来的定式。

项目组成员 Guillaume Lample 在推文中指出，“与 Chinchilla、PaLM 或者 GPT-3 不同，我们只使用公开可用的数据集，这就让我们的工作与开源兼容且可以重现。而大多数现有模型，仍依赖于非公开可用或未明确记录的数据内容。”

Meta 将自己的 LLaMA 模型称为“基础模型”，意味着该公司打算以此为基础构建起更加完善的 AI 模型。这类似于 OpenAI 以 GPT-3 为基础构建 ChatGPT 的作法。Meta 方面希望 LLaMA 能在自然语言研究当中发挥作用，进而在“问答、自然语言理解或阅读理解、理解能力以及解决现有语言模型的局限性”等方面贡献力量。

虽然顶级 LLaMA 模型（LLaMA-65B，拥有 650 亿个参数）明显是在叫板竞争对手 DeepMin、谷歌及 OpenAI 的同类方案，但此次公布阵容中最有趣的反而可能是家族中的“小弟弟”LLaMA-13B，此外，Meta 也表示将提供 7B、13B、33B 和 65B 等参数尺寸的 LLaMA。

前面提到， L LaMA在多项基准测试时，在单 GPU 上运行的性能优于 GPT-3。而且跟 GPT-3 系列模型必须依赖于数据中心的庞大设施不同，LLaMA-13B 有望在不久的将来，让消费级硬件也能获得趋近 ChatGPT 的 AI 性能表现。

目前，精简版的 LLaMA 已经登陆 GitHub。要了解完整的代码的权重（即神经网络「学习」到的训练数据），Meta 已向感兴趣的研究人员开放访问申请表（https://forms.gle/jk851eBVbX1m5TAv5）。Meta 目前还未宣布更广泛的模型与权重公布计划。

LLaMA 项目地址： https://github.com/facebookresearch/llama

LLaMA 论文地址： https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

99科技网：http://www.99it.com.cn

共4页:

相关推荐