亚马逊云科技AIGC全家桶Bedrock炸裂登场,开放定制 隐私拉满
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
如火如荼的AI竞赛,亚马逊云科技也下场了。有些不同的是,除了自己构建的AI模型,他们还招募第三方在亚马逊云科技上托管模型。毫无疑问,亚马逊云科技在掀起一场颠覆性变革。
AIGC的「基石」:基础模型
过去的十多年里,人工智能领域大部分研究集中在训练神经网络来完成一项特定的任务。比如在CV中,图像分类、分割、或者识别图中是否是一只猫;在NLP中,语义检索、翻译等等。直到ChatGPT的横空出世,甚至可以说最早从Stable Diffusion开始,生成式AI的能力逐渐打破人们原有的认知。
正是GPT-3、DELL-E、GPT-4等超大模型兴起,让语言模型的训练范式发生了重大变化。模型训练过程不再过度依赖显性标注,能够根据句子中已有单词,预测一下词,实现了智能体的认知能力进步。
因为在大量的数据上进行了预训练,基础模型已具有了高度适应性,能够完成一系列下游任务。基础模型的优势就在于,可以被用于微调的特定领域,或者创建一个业务模型的起点。在理解数行为方面,FM当然是最好的。微调模型,就需要在特定数据集(有标注)进一步训练而来的模型。而这种数据集是解决特定任务所需的,因为大模型只能做到「很懂」,但不能做到「很专」。
微调后的模型结合了2点优势:一是对数据结构的理解,再一个是通过标注数据的形式了解业务问题的背景。基础模型是生成式AI的关键,是AIGC的基石。
大模型虽好,但一般人并用不起
当下,整个业界呼声最高的便是,哪里有大模型可用。我们都知道,训练一个超大规模的语言模型,同样离不开三驾马车:算法、算力、数据。而且还需要的是超强算法、超大算力和数据。
要训练出真正优秀的大语言模型,不仅需要耗费资本,还需要足够多的时间。2022年,GPT-4模型训练完成后,还用了6个月的时间,进行了微调和测试。这也恰恰解释了为什么大多数公司都想用大型语言模型,但又不想投入太多成本。只想借用基础模型泛化能力,用自己特定领域的数据,去微调模型。
对此,亚马逊云科技做了大量的用户调研后,发现客户的主要需求是
-
需要一个简单的方法来查找和访问高性能基础大模型,既要提供出色的结果,也要符合自己的目标。
-
需要模型能够无缝地集成到应用程序中,而不必管理庞大的基础设施集群或产生大量成本。
-
希望能够轻松获得基础大模型,并使用自己的数据(少量或大量数据)构建差异化应用。
Bedrock:主打的就是一个模型定制+数据隐私
为了解决这些问题,亚马逊云科技认为,应该让生成式AI技术变得普惠起来。
也就是说,AIGC并不独属于少数初创公司和资金雄厚的大厂,而是要让更多公司从中受益。
于是,一个名为Bedrock的基础大模型云服务,便应运而生了。而Bedrock也是亚马逊云科技在生成式AI市场上最大的一次尝试,根据Grand View Research的估计,到2030年,该市场的价值可能接近1100亿美元。
在训练时,Bedrock会为开发者创建一个基础模型的副本,并对此私有副本进行训练。其中,所有的数据都经过加密,并且不会离开虚拟专用云(VPC)。此外,这些数据也不会被用来训练底层大模型。开发者还可以通过在Amazon S3中提供一些标注示例来为特定任务微调模型,无需大量个人数据就能产生比较满意的结果。更重要的是,Bedrock可以与平台上其他的工具和功能配合使用,这意味着开发者无需管理任何额外的基础设施。
自研「泰坦」+第三方SOTA模型
具体来说,Bedrock主要包含两部分,一个是亚马逊云科技自己的模型Titan,另一个是来自初创公司AI21 Labs、Anthropic,以及Stability AI的基础模型。
Titan基础模型的构建是基于亚马逊云科技在机器学习领域20多年的经验。Titan包含了两个大语言模型,一个是用于生成文本的Titan text,一个是让网络搜索个性化的Titan Embeddings。Titan text针对的是总结、文本生成、分类、开放式问答和信息提取等任务。文本嵌入Titan Embeddings模型,能够将文本输入(字词、短语、大篇幅文章)翻译成包含语义的数字表达(embeddings嵌入编码)。
用户可以通过自己的数据定制Titan模型。并且,亚马逊云科技非常保护用户数据隐私,不会将用户数据拿来再训练Titan模型。而且,不同于其他大模型时常会出现的「幻觉」,Titan在训练时非常关注精度,就是为了保证产生的响应一定是高质量的。
除了亚马逊云科技的Titan模型,开发者们还可以利用其他的基础模型。其中包括AI21 Labs开发的Jurassic-2多语种大语言模型系列,能够根据自然语言指令生成文本内容。还有Anthropic开发的大语言模型Claude,能够执行多轮对话和文本处理任务。第三个基础模型是Stability AI的文本图像生成模型Stable Diffusion。通过这些模型,开发者只用20个样本,就能一键定制自己的模型。
AIGC爆发,云服务供应商需求猛增
随着相关技术的演进,各行各业对于AIGC内容的需求也在不断增加。这对于那些提供基础设施服务的供应商来说,是一个非常好的机会。根据Gartner的预测,到2025年,AIGC数据将占到所有数据的10%,而目前这一比例还不到1%。
亚马逊云科技在Bedrock中搭载的模型则更加丰富,不仅有自研的泰坦,还有来自其他初创公司的开源模型。而且,据称还会有更多的模型加入其中。凭借其灵活性和定制选项、以及对隐私的承诺,Bedrock更能迎合不同行业的独特需求。
99科技网:http://www.99it.com.cn

11 月 18 日消息, 适用于 Apple Watch 的亚马逊有声读物应用 Audible 今天获得了一个
快资讯2022-11-18
