“如果人类的水平达不到80分,就会被AI淘汰。”


(资料图)

在中国AIGC产业峰会现场,昆仑万维CEO方汉抛出这样一个大胆预测。

在他看来,目前AIGC对存量知识的理解与表达已经达到80分的水平,行业从业者将随之形成两极分化的局面:

一部分人成为上游管理员,一部分成为底层AIGC操作员,两者的工作产量都会极大提升。

剩下的达不到80分的腰部从业者,大概率被淘汰。

方汉毕业于中国科学技术大学近代物理系,拥有29年互联网从业经验,从1994年开始参与和倡导开源运动,是国内最早的网络安全专家,负责研发了国内市场占有率最高的网页游戏《三国风云》。

2008年3月,他协助周亚辉先生创立昆仑万维,后者于2015年A股上市。

在本次大会上,他对昆仑万维介入到类ChatGPT大模型开发的契机、AIGC对内容从业者的影响、三种AIGC商业路径、以及开源和预训练大模型在其中的重要性进行了一一分享。

为了完整体现他的思考,在不改变原意的基础上,量子位对其演讲内容进行了编辑整理。

演讲要点:

AIGC原本含义比较狭窄,主要指文本、图像以及视频还有音乐等人类可以消费的娱乐内容的生成。ChatGPT的出现把AIGC的范畴给泛化了。

对存量知识的理解与表达,AIGC将以低廉的成本做到80分的水准。

由于两极分化,AIGC领域的腰部工作者要么力争上游做头部管理员,要不就老老实实成为AIGC操作员。

在AIGC领域,文生图在同一个赛道出现了三种完全不同的商业模式,互为补充:

(1)Stability.AI打造的开源生态;

(2)Midjourney打造的SaaS或者Model Service生态;

(3)Adobe Firefly打造的传统生态工具,将所有AIGC功能集成到工具里。

只有开源模式可以满足用户的长尾需求;只有开源模式才可以满足中小企业的增长需求。

需要注意的是,我们不能只盯着目前AIGC进展,认为预训练大模型已经突破传统AIGC范畴进入AGI领域。实际上,各种AIGC工具能力仍然受到预训练大模型限制,尤其GPT-4大模型出现后这个现象更加突出。

以下为方汉演讲全文:

ChatGPT的出现把AIGC的范畴给泛化了

AIGC这个名字刚提出来的时候,在美国叫生成式AI。

国内UGC、PGC的概念深入人心,所以造了一个词叫“AIGC”。

AIGC原本含义比较狭窄,主要指文本、图像以及视频还有音乐等人类可以消费的娱乐内容的生成。

ChatGPT的出现把AIGC的范畴给泛化了,ChatGPT属于AGI(通用人工智能)范畴。

今天我的分享更多偏向原有含义,即人类娱乐内容的生成。

首先,我简单介绍一下昆仑万维介入到类ChatGPT大模型开发的契机。

昆仑万维2015年A股上市,当时是以网游题材上市的,上市后在海外进行多元化发展,有浏览器、社交产品、游戏业务。

昆仑万维是内容厂商,对于所有内容生成方面的科技进步都非常敏感。

早在2020年6月份GPT-3刚刚出现的时候,管理层和技术领导者都去进行尝试。

当时我们判断这是内容生成领域一个里程碑,没想到两年后变成通用人工智能突破口。

也是从那时我们就已经决定要跟进这件事情,因为我们在内容生成领域绝对不允许落后。

具体而言,昆仑万维开始布局AIGC和大模型领域,与奇点智源合作开始进行大模型训练工作。

目前为止除了通用大模型训练之外,昆仑万维在音乐生成领域也处于国内和国际前沿地位。

我们的愿景是推进开源AIGC算法和模型社区的发展壮大。

昆仑万维作为中国领先互联网出海企业、技术驱动全球互联网公司,致力于前沿技术追踪和研发,有相当的技术积累和人才储备。

我们的技术团队持续进行算法技术创新,积极推进模型算法开源以及社区发展壮大,基于全球每月平均4亿活跃用户以及丰富行业经验,助力AIGC应用和生态的快速落地以及成长。

以下分享AIGC在具体商业模式落地方面的思考。

AIGC从业者出现两极分化

我们观察到一个有趣的现象,对于UGC(用户生成内容)的平台如小红书、知乎、抖音、快手等,用户创造内容的门槛每降低一倍,用户创造内容的数量就会增加十倍

举个例子,在手机摄像头出现之前,人类拍摄视频一定是靠专业的摄像机和数码相机。

手机出现之后,摄像的门槛变低,视频内容数量出现了大爆发。

这促成了快手和抖音的发展,进而中国UGC领域产生了巨大突破。

C端工具的商业逻辑其实是社区,B端工具的商业逻辑是功能完备性

C端工具用快手、抖音拍视频,目的绝不是为了做工具,而是让用户做出来内容通过社区分发,这是C端工具逻辑。

B端工具的商业逻辑就像Adobe的PhotoShop全家桶、微软Office全家桶,以功能完备性来获得用户的青睐。

可见,随着AIGC技术的进展,它们将对内容生产者产生巨大影响。

不得不承认,现在AIGC对存量知识的理解与表达还远远没有到100分水准,但以低廉的成本做到80分没有任何问题。

如果人类自己的水平也只是80分,我们的工作一定会被AIGC替代,而80分以上的人将去管理AIGC操作员,完成曾经需要腰部作者完成的工作。

因此未来,头部工作者产量极大提升,作为AIGC操作员的底部工作者的生产能力也会得到极大提升。

很不幸,腰部工作者大概率会被淘汰。

那么,我们要么力争上游做头部工作者,要么就老老实实当AIGC操作员。

只有开源模式可以满足用户的长尾需求

在AIGC领域,文生图在同一个赛道出现了三种完全不同的商业模式

第一种:Stability.AI打造的开源生态;

第二种:Midjourney打造的SaaS或者Model Service生态;

第三种:Adobe Firefly打造的传统生态工具,将所有AIGC功能集成到工具里。

这三种商业路径,不止是在文生图,在文生图像、文生音乐还是小说创作领域都会长期存在,且三种模式互为补充。

最终的C端用户会倾向于使用Midjourney完成工作,如现在的电商从业者,大量使用Midjourney来进行电商广告素材创作。

Adobe Firefly则契合一些传统的大B企业的需求,B端用户会使用Adobe Firefly来作为自己的创作工具。

Stability.AI是一种开源模式,特别适合在这个领域进行创业的广大中小企业。

通过开源模式来进行自己的改装与改进,来满足长尾需求,这是另外两个模式无法提供的功能。

开源大模型是商业闭源大模型的有力补充和替代。

大家可以把ChatGPT想成早期Windows,Windows的存在是整个电脑商业软件的一个基石,也是绝大多数人的生产工具。

Linux通过30年的努力变成Windows的替代,开源大模型也一定会出现。

因为只有开源模式可以满足用户的长尾需求。

还是以Linux为例,全世界所有的云厂商、大型互联网企业都以Linux为自己的服务底座。

要满足自己的长尾需求,只有一个选择,就是用Linux进行改装。

所以,我们也说,只有开源模式才可以满足中小企业的增长需求。

做一个具体的分析,Stable Diffusion的出现比OpenAI DALL·E 2晚了整整6个月,在性能、质量上都低于DALL·E 2和Midjourney,但依然有众多用户。

因为它是开源的,进步速度是难以想象的快。

Stable Diffusion催生ControlNet、T2I-Adapter、Composer,以及LoRA训练技巧。

在它上面进行二次开发的人数众多,新特性也在不断地涌现。

ControlNet是目前为止在文生图领域唯一解决一致性问题的途径,极大地降低了用户的创作成本,提高了创作的可玩性。

ControlNet开源仅2周,它的Star数就超过了1万。

与此同时,开源社区也极大地降低了用户的使用门槛。

例如HuggingFace提供了大量的模型托管以及通用的模型训练来框架diffusers,stablediffusion-webui开发了完善的一套Demo平台,Civitai贡献了海量风格化LoRA权重,整个社区也蓬勃发展起来了。

预训练大模型能力决定AIGC能力上限

需要注意的是,我们不能只盯着目前AIGC进展,认为预训练大模型已经突破传统AIGC范畴进入AGI领域。

实际上,各种AIGC工具能力仍然受到预训练大模型限制,尤其GPT-4大模型出现后这个现象更加突出。

AIGC领域的企业对于大模型本身的需求仍然非常大,也是持续的。

目前,还存在这样几个大问题。

首先,AIGC发展起来之后是否会导致优质内容的稀缺?

因为AI生成的内容会大量污染原创的内容。

其次,如何解决大模型底座导致的偏见?

比如OpenAI、ChatGPT生成的内容就存在偏见,这个问题值得关注。

最后,版权、信息伪造问题。

Adobe Firefly提出了一个新的模式,它训练的所有内容与作者达成协议,通过对model收费给内容作者分成。

从监管到行业自律,我们可做的事情非常多,而且迫在眉睫。

关于未来AIGC的展望(仅指娱乐内容AIGC)——

第一,AIGC对整个社会最大的意义是低成本终极解决方案,这一点毋庸置疑,所有人类都有消费内容产生多巴胺的权力;

第二,AIGC将涌现新的范式,彻底改变艺术创作生产方式;

最后,AIGC导致内容生成的极大发展,会使得VR和元宇宙变得更加可行。

推荐内容