AIGC发展过程:AI自行生成内容
【资料图】
AIGC(Artificial Intelligence Generated Content)指的是人工智能系统生成的内容,通常是文字、图像、音频或视频。这类内容可以通过自然语言处理,机器学习和计算机视觉等技术生成,即生成式AI。AI最初设立的目的是让机器像人类一样思考解决问题。目前AI的总体目的是通过各种算法解决问题提高生产效率。 AIGC 多样化的内容生成能力使其覆盖各类内容形式,各类应用场景正随技术进步逐渐落地。AIGC不仅可覆盖文本、音频、图像、视频等基本内容模态,还可综合图像、视频、文本进行跨模态生成,并应用于各类细分行业成为具体的生产力要素,例如游戏行业中的AI、NPC、虚拟人的视频制作与生成等。
AIGC发展过程:GPT助力,进入黄金期
ChatGPT的发展带动了文字类AI生成,或将在2023年进入黄金时期,图片类AI生成黄金时期将在2025年左右抵达,3D和视频类 AI生成在2023年可能正处于草稿阶段,进入黄金时期或许在2030年。 AIGC产业应用,如在制造业、建筑业等巨型垂直实体领域中,AIGC的C/Content内容将不仅停留在图片和文字的领域,而是进入信息更为丰富的领域。
AIGC发展过程:ChatGPT的发展历程
ChatGPT是一种聊天机器人软件: 全名为Chat Generative Pre-Trained Transformer,2022年11月,OpenAI在推出其基于 GPT-3.5的新型 AI聊天机器人ChatGPT免费预览版软件。用户只需向ChatGPT提出需求,即可实现文章创作、代码创作、回答问题等功能 。如今更新至GPT-4.0比以往更具创造性和协作性。基于客户需求可完成生成、编辑和迭代创意和技术写作任务,如创作歌曲、编写剧本或学习用户的写作风格。同时可以接受图片作为输入并生成标题、分类和分析。GPT-4.0能够处理超过25,000字的文本,允许使用案例,如长形式的内容创作、扩展的对话以及文件搜索和分析。GPT-4.5预计今年9月推出。
AIGC发展过程:ChatGPT插件拓宽应用场景
OpenAI邀请第三方公司进行插件测试并计划逐步扩大访问权限(对于插件开发人员、ChatGPT用户以及经过alpha测试期之后希望将插件集成到其产品中的API用户)建立一个社区,来塑造人类与人工智能交互范式的未来。 受邀请进入等待名单的插件开发人员可以使用文档为ChatGPT构建插件,将启用的插件列在显示给语言模型的提示中,并提供说明文档以指导模型如何使用每个插件。第一批插件由Expedia、FiscalNote、Instacart、KAYAK、Klarna、Milo、OpenTable、Shopify、Slack、Speak、Wolfram和Zapier创建。
AIGC发展过程:GPT-4与公司、政府合作
GPT-4的准确率与回应率明显提升。 6个月的时间使GPT-4更安全、更统 一。内部评估中,与GPT-3.5相比 GPT-4对不允许的内容请求的回应 率降低了82%,对事实的回应率提 高了40%。 GPT-4与公司、政府合作。主要应 用在语言学习公司的多邻国 (Duolingo)、线上教育公司可汗 学院(Khan Academy)、盲人和弱 视辅助公司Be My Eyes、线上支付 平台Stripe、Morgan Stanley财富 管理部门整理数据库、以及与冰岛 政府合作保护其语言。
AIGC软件应用AIGC软件应用:文字类-Notion AI介绍
简短介绍: 2022年11月,Notion公司推出Notion AI,它是一款 集成了笔记、知识库、数据表格、看板、日历等多种能 力于一体的应用,支持个人用户单独使用,也可以与他 人进行跨平台协作。目前,部分公司及个人使用Notion 来撰写笔记。 功能描述: 强大的可视化功能,更好地展示和解释数据。 灵活的搜索功能,更快地找到所需的信息。 可以将多个 Notion 页面链接在一起,形成一 个超级页面。 支持嵌入多种媒体类型和第三方应用程序,如 视频、音频、网页等。 具有强大的移动应用程序支持。无论是在手机、 平板电脑还是电脑上使用 Notion AI,都可以 方便地查看、编辑和共享信息。
AIGC软件应用:图像类-Midjourney介绍
背景介绍: Midjourney是一款2022年3月面世的AI绘画工具, 它是由Midjourney研究实验室开发的人工智能程序, 可根据文本生成图像,使用者可通过Discord的机 器人指令进行操作,可以创作出的图像作品。 5月15日推出了中文版官方内测已经开放,新用户 可通过腾讯QQ频道免费试用。功能介绍: 在创作过程中可以自动识别和纠正绘画中 的错误,生成更加真实自然的图像。 应用领域非常广泛,包括美术设计、游戏 开发、虚拟人物创作等。 通过API接口集成到各种应用中,为用户 提供更加便捷的服务。
AIGC软件应用:音频类-Amper Music介绍
简短介绍: Amper Music是一个基于云算法的平台,帮助 简化电影和视频游戏的音轨制作过程。在这个过 程中,它会生成AI生成的算法,帮助用户创作各 种音乐流派的音乐。它允许用户为其内容创建和 自定义原创音乐,是全球首家人工智能编曲、表 演和制作公司,使用户能够即时创作和定制原创 音乐。 目前Amper Muisc已经加入Shutterstock。在 Shutterstock可以直接使用由Amper Muisc预 生成的歌曲。 功能介绍: 最容易使用的 AI 音乐生成器之一,AI 音乐生成器列表中名列前茅,目的打造 成为音乐人心中最好的AI生成音乐产品。 从预先录制的样本中制作音乐。这些随 后被转换成实际的音频,可以改变音乐 键、速度、特定乐器和其他因素。例如, 可以调整全部乐器以适应想要创造的音 调或感觉。因此,无需透彻了解音乐理 论或作曲即可使用它。
AIGC软件应用:代码类-Github Copilot介绍
简短介绍: GitHub Copilot,是 GitHub 和 OpenAI 合 作开发的一个人工智能工具,用户在使用 Visual Studio Code、Microsoft Visual Studio、Vim 或JetBrains集成开发环境时可以 通过 GitHub Copilot 自动补全代码。 功能描述: Copilot可以支持十几种语言,与Python、 JavaScript、TypeScript、Ruby和Go等主流语言 配合效果更佳。GitHub Copilot还可以将注释转 换为代码。只需要描述需求逻辑,GitHub Copilot 能自动“理解”并写出相应功能的代 码,也能自动填充重复代码。GitHub 官方表示, Copilot 的功能能够帮助程序员减省阅读软件文 档的时间,快速浏览不熟悉的编码框架和语言。
AIGC软件应用:视频类-D-ID介绍
D-ID推出了其新的视频化照片产品。该产品可以使用其新的技术创造一个能够表达各种情感的多语言电视主播、为客户支持互动创建虚拟聊天机器人角色、开发用于专业发展的培训课程、并创建交互式对话视频广告。基本原理:D-ID的原理在于人脸识别,不仅是改变脸部和动画生成,同时可以根据少量信息生成逼真的人物视频或从单个静止图像生成动态人物。脸识别技术分为4步:人脸检测、人脸对齐、人脸编码、人脸匹配。 Chat D-ID为首个使用ChatGPT实现人与虚拟人面对面对话的应用程序,整合了ChatGPT与D-ID生成式技术。它使用实时人脸动画和先进的文本到语音来营造一种身临其境的感觉。
AIGC应用场景工业革命历程:人工智能引发第四次科技变革
每一次工业革命的到来,背后都有一个通用目的技术,例如第一次工业革命背后有蒸汽机,第二次工业革命背后有电,后面有了计算机、互联网。而每一个通用技术都会赋能千行百业,创造很多的商业机会,推动产业的变革发展。 人类历史上已经发生了三次科学革命、技术革命和工(产)业革命,第四次科学革命、技术革命和工业革命即将到来,并有希望在本世纪内完成。
第四次工业革命将对全球经济产生深远的影响,GDP、投资、消费、就业、贸易、通货膨胀等宏观变量几乎都会受其影响。 生产效率方面:当前世界技术和创新正处于拐点,第四次工业革命将很快推动生产效率的大幅上升,加速经济增长。对就业的影响:一方面,技术对就业是有破坏效应的,因为技术带来的颠覆和自动化会让资本取代人工,从而导致工人失业,或者把他们的技能用到其他地方;另一方面,这样的破坏效应也伴随着资本化效应:对新商品和新服务需求的增加,会催生全新职业、业务,甚至是全新行业。
AIGC应用场景:办公应用-Office系列全面升级
2023年3月16日,微软宣布将推出名为 Copilot的人工智能服务,并将其嵌入Word、 PowerPoint、Excel等Office办公软件中,能 够根据不同软件的功能与需要,处理不同类 型的任务。微软董事长兼首席执行官萨蒂亚·纳德拉 (Satya Nadella)称, “这是我们在计算交 互方面迈出的重要一步,这将从根本上改变 我们的工作方式,并开启新的生产力增长浪 潮。”除了加入 Office 应用之外,Copilot 也搭 载于 Viva Sales、Dynamics 365、以及微软 的低代码应用 Power Platform。 目前,微软正在与一小部分客户一起测试 Copilot,以根据用户反馈改进模型。它将在 未来几个月内面向更多企业客户推出。
AIGC应用场景:办公应用-Tome为PPT制作提升体验
提示栏(Prompt Bar):可以输入想法或问题,由AI生成完整的故事或者特定的页面。例如,输入“介绍一款新型电动汽车” ,AI会生成一份包含文本和图片的故事。也可以输入“添加一个关于市场分析的页面”,AI会生成一个包含相关数据和图表的页面。
DALL-E 2 标题(DALL-E 2 Tile):可以利用AI来创造出任何类型和风格的图片。只需输入一些文字或图标,AI就会生成一张图片,并且可以进行细节上的调整和编辑。例如,输入“一个穿着西装骑着独角兽的男人”,AI会生成一张符合这个描述的图片,并且可以让你改变男人或独角兽的颜色、大小、位置等。
内容类型(Content Types):可以添加各种类型的内容到故事中。选择文本、图片、视频、音频、3D渲染、网页嵌入等多种内容类型,来展示想法和数据。通过拖放的方式来调整内容的位置和大小,也可以通过一键主题来选择合适的配色和字体。支持多种格式的导入和导出,如PDF、PPT、Word等,方便与其他工具兼容。
AIGC应用场景:UI设计领域-特定优化AI工具出现
3月 28 日,一款面向 UI 设计的生成式 AI 产品,能够让 AI 生成可编辑 UI 设计稿的即时AI开放内测申请,迅速获得了业内人群的关注。UI 中国发布的盘点报告,目前全球有三款产品可以实现「AI 生成可编辑UI」的功能,分别是即时 AI、Galileo AI 以及 Uizard。其中国外的两款产品仍停留在小范围内测阶段。目前,「即时 AI」是全球首款可以大规模让用户体验到「AI 生成可编辑 UI 设计稿」功能的产品。 即时 AI基于在线协作设计平台即时设计,利用大语言模型,让人们在网页端就可以通过自然语言描述,实现可编辑UI设计稿的快速生成。使用即时 AI,只用简单的一句话描述,AI 就可以自动帮你生成出一个UI 界面样板。
AIGC模型展望AIGC模型展望:预训练基础模型为发展基石
预训练基础模型(PFM)是大数据时代人工智能的重要 组成部分。PFM 基于预训练技术,其目的是利用大量 的数据和任务来训练一个通用模型,该模型可以在不 同的下游应用中很容易地进行微调。 ChatGPT 是 PFM 应用的典型案例。它是从生成性预训 练 transformer 模型 GPT-3.5 中微调得出,该模型 利用了大量本文和代码进行训练。此外,ChatGPT 应 用了来自人类反馈的强化学习(RLHF),这已经成为 让大型 LM 与人类意图保持一致的一种有希望的方式。 u PFM 有以下两大优势: 要想提高在下游任务中的性能,模型只需要进行 很小的微调。其次,PFM 已经在质量方面得到了 审查。将 PFM 应用于任务相关的数据集,而不是从头开 始构建模型来解决类似的问题。 广阔前景激发了大量的相关工作来关注模型的效率、 安全性和压缩等问题。
AIGC模型展望:模型发展方向
开发新颖的应用程序:技术最先进的团队面临着广阔 的前景。有很多创新可以做,特别是在信息检索,混 合模态和训练/推理效率方面。可以推动科学的界限, 创建以前不可能的应用程序。 寻找差异化:具有出色想法但仅有早期技术能力的团 队现在可以访问工具,使得可以使用更丰富的记忆/上 下文,更丰富的外部数据源和API,以及评估和缝合多 个模型的能力来构建更丰富的应用程序。提供了更广 泛的途径构建新颖且易防御的产品,即使用了广泛可 用的技术。 开发工具:喜欢基础设施的团队现在有一个高效率的 机会,可以在编排Orchestraction(开发人员框架, 数据源和动作,评估)和基础模型操作(部署,训练 和推理的基础设施和优化工具)方面构建工具。更加 强大和灵活的工具将加强现有开发者的能力,并让更 多的新开发者使用。 基础模型相关的创新仍然会源源不断,但是其速度和 质量将会受到很多限制。
AIGC模型展望:垂类模型-亚马逊Bedrock平台
AWS Bedrock 和 OpenAI对比:Bedrock 和 GPT 都是基于大量数据进行预训练的基础模型,但Bedrock 提供来自不同来源的各种模型,而 GPT 是来自 OpenAI 的特定模型。Bedrock 提供无服务器体验,无需管理基础设施即可集成和部署模型。Bedrock可确保使用客户数据实现更加无缝和安全的定制流程,旨在帮助企业使用自身的数据来微调特定用例的基础模型。应用举例:营销经为新品开发广告创意,只需向Bedrock提供标注过的最佳广告,以及新品描述,Bedrock就能自动生成媒体推文、展示广告和产品网页。同样的,所有数据都进行了加密,任何客户数据都不会被用于训练底层模型。目前,Coda AI、Deloitte、埃森哲、Infosys等合作伙伴已经使用Bedrock。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)