Aicommandbot 网络资源 2023-04-25

ChatGPT大模型多模态应用展望

ChatGPT 专题报告：GPT，大模型多模态应用展望

1. ChatGPT 通过大模型突破 AI 瓶颈，GPT-4 多模态应用带动商业化加

速

概述：ChatGPT 为 NLP 下的 AI 大模型，性能和使用体验超预期

ChatGPT 是自然语言处理（NLP）下的 AI 大模型，通过大算力、大规

模训练数据突破 AI 瓶颈。2022 年 11 月，OpenAI 推出 ChatGPT，

ChatGPT 基于 GPT-3.5，使用人类反馈强化学习技术，将人类偏好作

为奖励信号并微调模型，实现有逻辑的对话能力。

ChatGPT 本质上是通过超大的统计语言模型，对词语序列的概率分布

进行建模，利用上下文信息预测后续词语出现的概率分布，其表现的

超预期反映了在算力水平提升的情况下大语言模型技术路线的成功，通

过对大规模的未标注的文本数据进行训练，突破了AI发展的技术瓶颈。

根据《瞭望》新闻周刊报道，OpenAI 为了让 ChatGPT 的语言合成结

果更自然流畅，使用了 45TB 的数据、近 1 万亿个单词来训练模型，

训练一次的成本高达千万美元，一个月的运营成本需要数百万美元。

概述：OpenAI 倾力打造 ChatGPT，获得微软有力加持

ChatGPT 出自美国 AI 创业公司 OpenAI，是 AI 大模型领域的领军者。

OpenAI 在 2015 年由 Sam Altman、Peter Thiel、Reid Hoffman、Elon

Musk 等人创办。公司成立之初，即确定了包括制造“通用”机器人和使

用自然语言的聊天机器人的发展目标。2019 年，OpenAI 获得来自微

软的 10 亿美元投资，为 Azure 云端平台服务开发 AI 技术。2018 年起，

OpenAI 开始发布 GPT（Generative Pre-trained Transformer）模型，

2020 年发布 GPT-3，可以完成答题、写论文、代码生成等任务，被视为

人工智能竞赛的里程碑事件，并直至 ChatGPT 的推出引起 AI 的热潮。

除了 NLP 领域，OpenAI 还在多模态领域取得成就，包括发布了 AI 图

像生成器 DALL-E2，对音频转录编辑器 Descript、AI 笔记应用 Mem

等进行投资。

演变：GPT-1—无监督预训练+有监督微调

GPT-1 发布于 2018 年 6 月，参数量达 1.17 亿，预训练数据量约 5GB。

GPT-1 包含预训练和微调两个阶段，考虑到自然语言处理任务中有标

签的语料少，GPT-1 先在大量的无标签数据上训练语言模型，然后在下

游具体任务（如分类、常识推理、自然语言推理等）的有标签数据集

上进行微调。1）在无监督训练中，GPT-1 采用 Transformer 的架构，

即标准的语言模型的目标函数，通过前面的词预测后面的词；2）在有

监督训练中，采用标准的分类目标函数，仅需对第一阶段预训练的语言

模型做出很小的结构改变，即可应用于各种下游任务。

GPT-1 使用了 BooksCorpus 数据集来训练语言模型，其中有 7000 余

本未出版的书籍。具体表现上，在有监督学习的 12 项任务中，GPT-1

在其中 9 项上的表现优于专门训练的受监督模型。

演变：GPT-2—无监督预训练+多任务学习

GPT-2 发布于 2019 年 2 月，参数量达 15 亿，预训练数据量约 40GB。

GPT-1 使用的概率条件模型为 p(output|input)，GPT-2 使用相同的无

监督模型学习多个任务，将概率条件模型修改为 p(output|input, task) ，

期望模型对不同任务的相同输入产生不同的输出。此外，GPT-2 采取

Zero-shot 设定，不需要下游任务的标注信息，而是根据给定的指令理

解任务。因此 GPT-2 的核心思想在于多任务学习。

GPT-2 训练的数据集来自社交新闻平台 Reddit，共有约 800 万篇文章，

体积超 40GB。具体表现上，在 8 个语言模型任务中，仅通过 Zero-Shot

学习，GPT-2 在其中 7 个上领先。GPT-2 表明，随着模型容量和数据

量增大，GPT 模型的潜力仍有望进一步显现。

展望：GPT-4—此前外界预期参数量变化不大、使用门槛有望降低

GPT-4 备受业界期待，训练成本控制有望带动商业潜力的极大增强。

ChatGPT 的突出表现使得外界对 GPT-4 十分期待，自 2021 年以来便

有报道称 GPT-4“即将推出” ，OpenAI 公司 CEO Sam Altman 今年受

StrictlyVC 采访时表示 GPT-4 将在 “有信心可以安全且负责任地运行

时”推出。外界此前也曾预期，GPT-4 的推出或分阶段进行，例如 GPT-3

也是先开放给合作伙伴、付费用户和学术机构，才在 2022 年底开放给

公众。

在参数量上，针对有传言称 GPT-4 参数量将达到百万亿，OpenAI 公司

CEO Sam Altman予以否定。此外，AI专家Alberto Romero预测，GPT-4

的重点在数据处理优化上，因此其使用门槛有望降低，我们预计训练成

本的控制将带动其商业潜力的增强。

展望：GPT-4—最新消息称推出在即、支持多模态

最新消息称 GPT-4 将于下周推出，支持多模态应用，开启通往人工通

用智能之路。根据德国科技媒体“heise 在线”报道，当地时间 3 月 9 日，

微软德国公司首席技术官 Andreas Braun 在名为“AI in Focus - Digital

Kickoff”的活动中透露称 “将在下周推出 GPT-4，它将是一个多模态模

型，会提供完全不同的可能性——例如视频”。这意味着 GPT-4 可以管

理不同语言数据的输入和输出，也能够做到输出图像甚至视频。在活

动上，微软 AI 技术专家对多模态 AI 的应用案例进行了介绍，例如能

够将电话呼叫的语音直接记录成文本，这为微软位于荷兰的一家大型客

户节省 500 个工作小时/天。

GPT-4 对多模态的支持使得外界对模型潜力的预期进一步强化，原因在

于多模态感知是建立人工通用智能（AGI）的重要一步，基于此能够执

行人类水平的一般任务。

商业模式：C 端推出订阅制会员，B 端提供调用 API 接口

ChatGPT 迅速走红，以订阅制服务 B 端、C 端客户，成本控制下将有

效加速商业化落地。ChatGPT 自年初以来，持续出圈，截至 2023 年

1 月末月活突破 1 亿，成为史上增长最快的消费者应用。考虑到计算资

源所牵涉的庞大训练成本、运行成本，ChatGPT 的商业化路径已正在

探索、明确中。

商业模式—1）C 端：OpenAI 发布 ChatGPT Plus 订阅计划，每月收费

20 美元，相较于免费版本，即便在高峰时段用户也能正常访问

ChatGPT，响应时间更快，可以优先使用新功能，有望引领 AI 技术变

现新模式；2）B端：OpenAI发布 ChatGPT API，开发者可以将ChatGPT

集成到产品中，价格为$0.002/1k token，相较于 GPT-3.5 降低 90%，

我们预计成本控制后有望快速带动 GPT 相关应用爆发。根据微信公众

号“智东西” ，生鲜电商 Instacart、跨境电商 Shopify、照片分享应用

Snap、单词背诵应用 Quizlet 等已率先接入 ChatGPT API。

2.Transformer 架构支撑 GPT 走向多模态，构筑 AIGC 领域核心基石

GPT 采用的 Transformer 架构在 NLP 领域已跻身主流

GPT 沿用主流 Transformer 模型，该模型采用自注意力机制，在 NLP

上表现优于 RNN（循环神经网络）。2017 年，谷歌在《Attention is All

You Need》中提出 Transformer 模型，可用于文本摘要、机器翻译等

NLP 任务。在 NLP 方面，Transformer 模型的自注意力（self-attention）

机制可以为输入序列中的任意位置提供上下文，进而模型能够一次性处

理所有输入数据，而非 RNN 一次只处理一个单词的情况，由此模型可

以减少训练时间，能够在更大的数据集上进行训练。目前，基于

Transformer 的预训练语言模型已成为 NLP 领域的主流。

Transformer 也可用于 CV 领域，相较于 CNN 实现性能巨大提升

Transformer 也可用于 CV（计算机视觉）领域，表现出巨大的性能提

升。CV 领域此前更多由 CNN（卷积神经网络）主导，而 Transformer

凭借着自注意力机制，表现出了巨大的性能提升。根据微软亚洲研究院，

Transformer 在图像分类、物体检测等任务中刷新了测评记录，例如

2020 年 Transformer 被首次应用于图像分类任务，结合海量的预训练

数据，ViT 在 ImageNet-1K 的 validation 评测集上取得 88.55%的准确

率。Transformer 也在视频动作识别、视觉自监督学习、图像复原、图

像分割等视觉任务中取得优异成绩。谷歌提出的 ViT-MoE 模型目前在

参数量上领先，达到了 150 亿。

Transformer 支撑下 GPT 有望走向多模态，构筑 AIGC 领域核心基石

GPT 有望基于 Transformer 延伸至多模态，构筑 AIGC 核心基石，GPT-4

或实现领跑。当前，基于 Transformer 的多模态学习成为 AI 领域的研

究热点，研究者们提出了大量的 Transformer 变体。鉴于 Transformer

具有较少的特定于模态的架构假设，以及生成式预训练、大模型&大数

据路线的成功，Transformer 能够联动 CV 与 NLP，通过联合建模完成，

打破 CV 与 NLP 领域之间的壁垒。微软亚洲研究院 2022 年推出 BEiT-3

预训练模型，在目标检测、实例分割、语义分割、视觉推理、图片描

述生成等任务上取得了 SOTA 的迁移性能。我们认为，基于 Transformer

架构，GPT 未来有望延伸至多模态，助力内容创作由 UGC、PGC 全

面走向 AIGC，赋能通用领域以及金融、教育、医疗、传媒等垂直行业。

3.通用与垂直场景多点开花，GPT 变革内容生成与交互方式

通用场景：搜索引擎—GPT+文本&图像&视频重塑搜索结果呈现方式

搜索引擎接入 GPT 后结果呈现方式大为变化，或影响行业盈利模式与

竞争格局。用户使用传统的搜索引擎时，需要手动翻阅搜索结果，判

断是否为所需要的信息；而当搜索引擎接入 GPT 后，用户可直接获得

答案集合。尽管受制于训练语料、成本等因素，答案准确性有待商榷，

但在结果呈现方式上实现了变革，未来或与传统的搜索引擎相结合。如

进一步实现多模态，搜索结果将更加丰富。微软在 Bing 中上线

ChatGPT 能力并开启测试，以聊天方式展示搜索结果，并可在对话中

推荐广告。微软必应官方博客宣布，目前 Bing 日活突破 1 亿，集成搜

索+聊天功能的 Bing 预览版自推出以来总聊天次数已超过 4500 万次。

鉴于微软可能掀起搜索行业的第二次变革并颠覆此前的盈利模式，谷歌

在 2 月初展示由大型语言模型 LaMDA 驱动的类 ChatGPT 应用

——Bard，并计划大范围推广。

通用场景：办公软件—GPT+文本&图像打造效率型生产力工具

GPT 有望融入办公流程，率先推动办公软件转型为智能办公平台。微

软将于 3 月 16 日召开名为“Future of Work with AI” 的发布会，预计将

展示 ChatGPT 类技术在 Teams、Word、Outlook 等生产力套件中的应

用。我们认为，在 GPT 的赋能之下，办公软件作为效率型生产力工具

的属性将更加突出，功能上将更加智能化，用户有望享受到智能办公平

台所带来的便利性与效率大幅提升。例如，在 Word 中，GPT 将能够

帮助用户生成文本，或将文档集汇总为关键点，使得用户快速理解和

分析信息；在 Outlook 中，GPT 可以处理收件箱文本，帮助用户更快捷

地撰写或回复电子邮件；在 Excel 中，能够根据提示提取数据，如要

求“按照利润列出世界前五大公司”后，生成 Excel 公式或制作可视化图

表。

垂直场景：教育—GPT+文本&对话&翻译催化启发式、个性化教学

GPT 有望催化“启发式”教学模式，加快教育领域的个性化、多样化变革

探索。ChatGPT 可以理解为一名“全能教师” ，即便是小众、冷门的领

域，也能够给出相对有逻辑的回答。我们认为，GPT 技术将催化“启发

式”教学模式，引导学生更加积极主动地进行思考、发问，并与“全能教

师”进行对话探讨，这有别于传统的应试教学模式。

垂直场景：金融—GPT+文本&对话赋能客户服务、投研支持

GPT 有望对金融行业的经营、管理、产品营销及客户服务等方面产生

巨大影响。近年来，金融机构在合规趋严、人力成本上升等因素的影

响下，对于数字化建设的意愿强烈。考虑到 ChatGPT 在内容生成等方

面的突出表现，我们认为，GPT 有望率先落地对外的客户服务与对内

的投研支持。以银行业为例，电子客服仍处于 AB 判断阶段，引入 GPT

将更好地服务于客户需求；在证券、基金业，个人投资者存在的大量

疑惑将可通过 GPT 解决，机构投资者在投研中也将获得来自 GPT 的

协作。GPT 有望重构金融行业客户服务端，也有望进一步增强机构内

部的投研能力，助力经营效率提升与成本优化。

垂直场景：医疗—医疗信息化厂商卡位核心系统，助力构建 GPT 能力

医疗信息化公司作为医疗机构信息化底座提供者，有望助力构建 GPT

能力。根据复旦大学附属华山医院信息中心主任黄虹在接受第一财经

采访时透露的情况，医院内部落地 GPT 的场景包括：就医导诊，以提

升医疗效率；构建内部知识库，以提升临床研究效率；汇集历史病历，

辅助医生提升电子病历书写效率。考虑到医院本身在信息化能力上的相

对薄弱，我们认为以创业慧康、卫宁健康、医渡等为代表的医疗信息

化公司作为医院内部系统的供应商，有望帮助医院构建 GPT 能力。

互联网医疗平台卡位线上问诊，GPT 有望助力问诊效率大幅提升。2020

年疫情爆发以来，互联网医院凭借着突破时空限制、免接触等优势，

迎来快速发展。平安好医生、阿里健康、京东健康等平台搭建了轻问诊

模式，主要通过自有医生、外部签约医生提供问诊服务。我们认为，

GPT 可以用于在线问诊支持，为用户提供基本的、常规化的问诊服务。

这将助力互联网医疗平台实现问诊效率的大幅提升，问诊服务的供给

能力将不再受制于链接的医生数量。

垂直场景：图像视频—GPT+图像&视频强化内容智能化生产与处理

GPT 有望改变图像视频领域内容生产模式，多模态提高信息输出丰富

度。图像视频行业新老业态交织，构成相对多元，以生产和传播文字、

图像、艺术、影像、声音等形式存在，包括报纸、图书、广播、电影、

电视、动漫等诸多细分领域。从产业链条来看，图像视频行业主要涉

及信息采集、制作、分发、传播等，我们认为 GPT 将主要影响产业链

前端的采集、制作。结合中国信通院《AIGC 白皮书》，我们预计在

GPT 赋能之下，特别是对多模态的延伸，图像视频行业有望进一步提

高写稿机器人、采访助手、视频智能剪辑、合成主播等新兴应用的供给

能力，既改变内容生产模式，也满足信息接收者对丰富内容的需求。

ChatGPT专题报告：GPT，大模型多模态应用展望.pdf

1、本站目前拥有近 1000+ 精品收费资源，现在加入VIP会员即可全部下载。
2、本站资源部分来源其他付费资源平台或互联网收集，如有侵权请联系及时处理。
3、凡是AIcommandbot直播间粉丝群的朋友注册会员，即可升级为AIcommandbot中级会员。
AIcommandbot » ChatGPT大模型多模态应用展望

Aicommandbot 高级会员

分享到：

Aicommandbot 高级会员

相关推荐

发表评论

加入本站VIP会员订阅计划，海量资源免费查看