imtoken官方下载2.0|aigc
一次性搞懂什么是AIGC! - 知乎
一次性搞懂什么是AIGC! - 知乎切换模式写文章登录/注册一次性搞懂什么是AIGC!HOTAIGC一站式AIGC导航网站你知道什么是AIGC吗?不知道?没关系,我来告诉你。AIGC就是人工智能生成内容(Artificial Intelligence Generative Content),也就是让AI自己动手创作各种各样的内容,比如图片、视频、音乐、文字等等。听起来很酷吧?那么,AIGC是怎么做到的呢?下面,我就用最简单的语言,给你介绍一下AIGC的基本概念和常见应用。AI 工作原理AI,就是人工智能。它的目标是让机器能够像人一样有智能,能够看、听、说、想、做。要实现这个目标,AI需要用到三个重要的技术:深度学习、神经网络和生成式对抗网络(GAN)。神经网络神经网络就是模仿人脑的结构,用一些小点(节点)和线(链接)来连接起来,形成一个复杂的网络。这些小点就像我们大脑里的神经元,可以接收和传递信息;这些线就像我们大脑里的神经纤维,可以控制信息的流动。深度学习深度学习就是让神经网络变得更深更强。深度学习把神经网络分成很多层,每一层都负责处理一部分信息,就像我们大脑里有不同功能的区域一样。这样,深度学习可以处理更复杂更高级的问题,比如识别图片里的物体或者理解人说的话。生成式对抗网络(GAN)GAN就是让两个神经网络互相斗争,从而提高创作能力。GAN有两个角色:一个叫生成器(Generator),一个叫判别器(Discriminator)。生成器的任务是创造出看起来真实的作品,比如图片、音乐等;判别器的任务是判断这些作品是不是真的,还是生成器做出来的。生成器和判别器不断地互相挑战,生成器越来越擅长造假,判别器越来越擅长识破。最后,生成器可以创造出非常逼真的作品,让人分辨不出真假。AI大模型/预训练大模型AI大模型就是一种超级强大的机器学习模型。它可以处理海量的信息,比如图片、文字、声音等,并且可以完成各种各样的任务。比如智能语音助手和图像识别软件都用到了AI大模型。AI预训练大模型就是一种已经学过很多东西的AI大模型。它们通过在不同领域进行大量的训练,掌握了很多知识和技能。比如GPT就是一种预训练的大型语言模型,它可以自动生成各种类型的文本,比如新闻、小说、文章、对话等。GPT是目前自然语言处理领域最先进的自然语言生成模型之一。开源开源就是分享和合作的一种方式。在计算机编程中,当一个项目是开源的,意味着它的源代码是公开的,任何人都可以查看、修改和分享。比如你做了一个蛋糕,如果你把蛋糕的配方公开,让所有人都可以做这个蛋糕,甚至可以根据自己的口味改进这个配方,那么这个蛋糕的配方就是开源的。自然语言处理(NLP)自然语言处理(NLP)就是教计算机理解和使用人类语言的一种技术。比如你对手机说:“打开天气应用,查看明天的天气。”这就涉及到了自然语言处理。你的手机需要理解你说的话是什么意思,你想做什么,然后才能执行正确的动作。自然语言处理需要用到很多开源的工具和软件,它们能够帮助研究者处理语言数据,降低开发的难度,加快技术的进步。AIGCAIGC就是由AI自动创作生成的内容(AI Generated Content),比如图片、视频、音乐、文字等。AIGC就像一支神奇的画笔,拥有无限的创造力。这支画笔的特别之处在于,它是由AI打造的。AI利用它的理解力、想象力和创作力,根据指定的需求和风格,创作出各种内容:文章、短篇小说、报告、音乐、图像,甚至是视频。AIGC的出现,打开了一个全新的创作世界,为人们提供了无数的可能性。从用户生成内容(UGC),到专业生成内容(PGC),再到现在的人工智能生成内容(AIGC),我们看到了内容创作方式的巨大变革和进步。AIGC和Chat GPT的关系AIGC是AI大模型,特别是自然语言处理模型的一种重要应用;ChatGPT则是AIGC在聊天对话场景的一个具体应用。可以把AIGC看作是一个大的范畴,而ChatGPT是其中一个类别的小应用。常见的AIGC应用1、ChatGPTChatGPT是由OpenAI开发的一款大型预训练语言模型,就像一个会聊天的机器人。它可以理解你说的话,并给出回答。这个机器人在互联网上读了很多书、文章,学到了很多知识,所以可以回答各种问题,甚至进行深入的讨论。不过,ChatGPT的理解与人类不同,人类理解事物时,有意识、经验和情感等多个层次的参与,而ChatGPT只是通过分析和模拟大量的文本数据来"学习"如何合理地回应。2、MidjourneyMidjourney是由美国旧金山的一家独立研究实验室创立的图片类AIGC应用程序,我们可以通过语言描述来生成图片。比如,输入一个苹果,它就会为你生成出一张苹果的图片。3、Stable Diffusion图片生成类AI大模型,可以在给定的任何提示词下生成图像,并支持根据关键词和图片检索。与Midjourney相比,生成图像的结果更可控。4、Bing Bing AI就是搭载了GPT-4的Bing浏览器,它能够更好地理解用户意图,提供更加智能化、个性化的搜索和服务体验。5、文心一言文心一言是百度全新一代知识增强大语言模型,能够与人对话互动、回答问题、协助创作,具备更强的中文理解能力。6、文心一格文心一格是百度基于文心大模型的文生图系统,搭建的图片生成类AI大模型,可以根据用户输入的指令提示,生成相应的图片。总结以上就是我对AIGC的基本介绍,希望你能对AIGC有一个初步的了解。如果你想了解更多关于AIGC的信息和应用,可以访问[HOTAIGC]「https://hotaigc.cn/」,你可以在这里找到更多的AIGC应用和资讯,也可以亲自体验一下AIGC的魅力。参考HOTAIGC:https://hotaigc.cn/编辑于 2023-08-06 08:54・IP 属地湖北人工智能AIGCAI之下工作革新赞同 544 条评论分享喜欢收藏申请
AIGC_百度百科
_百度百科 网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心AIGC播报上传视频生成式人工智能(Artificial Intelligence Generated Content)收藏查看我的收藏0有用+10本词条由TE智库 提供内容,经科普中国·科学百科认证 。生成式人工智能AIGC(Artificial Intelligence Generated Content)是人工智能1.0时代进入2.0时代的重要标志。GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合,催生了AIGC的爆发。算法不断迭代创新、预训练模型引发AIGC技术能力质变,多模态推动AIGC内容多边形,使得AIGC具有更通用和更强的基础能力。从计算智能、感知智能再到认知智能的进阶发展来看,AIGC已经为人类社会打开了认知智能的大门。通过单个大规模数据的学习训练,令AI具备了多个不同领域的知识,只需要对模型进行适当的调整修正,就能完成真实场景的任务。AIGC对于人类社会、人工智能的意义是里程碑式的。短期来看AIGC改变了基础的生产力工具,中期来看会改变社会的生产关系,长期来看促使整个社会生产力发生质的突破,在这样的生产力工具、生产关系、生产力变革中,生产要素——数据价值被极度放大。AIGC把数据要素提到时代核心资源的位置,在一定程度上加快了整个社会的数字化转型进程。中文名生成式人工智能外文名Artificial Intelligence Generated Content简 称AIGC提出时间约 1960年提出者Alan Turing目录1概念与定义2产生背景3发展历程▪早期萌芽阶段:1950-1990▪沉积积累阶段:1990-2010▪快速发展阶段:2010-至今4特征▪文本生成▪图像生成▪语音生成▪视频生成5AIGC产业结构▪基础大模型▪行业与场景中模型▪业务与领域小模型▪AI基础设施▪AIGC配套服务6AIGC关键技术能力▪数据▪算力▪算法7AIGC商业应用领域▪营销场景▪数字办公场景▪在线客服场景▪人力资源▪基础作业8AIGC落地方式与路径▪直接使用▪Prompt▪LoRA▪FineTune▪Train9AIGC商业模式▪MaaS+IaaS▪MaaS+PaaS▪MaaS+SaaS▪收费模式▪AIGC供给侧能力评估模型10AIGC发展存在的问题▪法律法规完善程度低▪数据要素问题突出▪技术保密性问题11完善措施▪法律准入▪数据服务产业链纳入统一管理体系▪技术标准统一和完善12社会影响概念与定义播报编辑生成式人工智能——AIGC(Artificial Intelligence Generated Content),是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。例如,通过输入关键词、描述或样本,AIGC可以生成与之相匹配的文章、图像、音频等。麦肯锡的定义:生成式人工智能旨在通过以一种接近人类行为,(与人类)进行交互式协作。 [1]Gartner的定义:生成式人工智能是一种颠覆性的技术,它可以生成以前依赖于人类的工件,在没有人类经验和思维过程偏见的情况下提供创新的结果。 [2]BCG的定义:生成式AI是一种突破性的人工智能形式,它使用对抗网络(GANs)的深度学习技术来创建新颖的内容。 [3]TE智库的定义:生成式人工智能,将彻底改变人机交互的关系,并创造新的产能输出结构。它将在第四维度实现与人的思维同调,类似移动设备以人类外器官形态存在,AIGC将以外脑的形式存在于人类认知中。 [4]南京大学数据智能与交叉创新实验室:为伴随着网络形态演化和人工智能技术变革产生的一种新的生成式网络信息内容。 [5]信通院的定义:AIGC既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。 [6]产生背景播报编辑1950年,艾伦•图灵(Alan Turing)在其论文《计算机器与智能(Computing Machinery and Intelligence )》13中提出了著名的“图灵测试”,给出了判定机器是否具有“智能”的试验方法,即机器是否能够模仿人类的思维方式来“生成”内容继而与人交互。 [7]某种程度上来说,人工智能从那时起就被寄予了用于内容创造的期许。经过半个多世纪的发展,随着数据快速积累、算力性能提升和算法效力增强,今天的人工智能不仅能够与人类进行互动,还可以进行写作、编曲、绘画、视频制作等创意工作。 [6]2018年,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为世界上首个出售的人工智能艺术品,引发各界关注。随着人工智能越来越多地被应用于内容创作,人工智能生成内容 (Artificial Intelligence Generated Content,简称AIGC)的概念悄然兴起。 [6]发展历程播报编辑人工智能的发展历史大致可以被划分为5个阶段。(1950~1974)人工智能概念的出现;(1974~1980)神经网络遇冷,研究经费减少;(1980~1987)专家系统流行并商用;(1987~1993)专家系统溃败,研究经费大减;(1993~至今)深度学习理论和工程突破。使用计算机生成内容的想法自上个世纪五十年代就已经出现,早期的尝试侧重于通过让计算机生成照片和音乐来模仿人类的创造力,生成的内容也无法达到高水平的真实感。结合人工智能的演进改革,AIGC的发展可以大致分为以下三个阶段:早期萌芽阶段:1950-1990受限于科技水平,AIGC仅限于小范围实验。1957年,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》。1966年,约瑟夫·韦岑鲍姆(JosephWeizenbaum)和肯尼斯·科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组来完成交互式任务。80年代中期,IBM基于隐马尔可夫链模型创造了语音控制打字机“坦戈拉(Tangora)”,能够处理两万个单词。沉积积累阶段:1990-2010AIGC从实验性向实用性逐渐转变,深度学习算法、图形处理单元(GPU)、张量处理器(TPU)和训练数据规模等都取得了重大突破,受到算法瓶颈的限制,效果有待提升。2007年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)装配的人工智能系统通过对公路旅行中的所见所闻进行记录和感知,撰写出世界上第一部完全由人工智能创作的小说《1 The Road》。2012年,微软公开展示了一个全自动同声传译系统,通过深度神经网络(DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。快速发展阶段:2010-至今深度学习模型不断迭代,AIGC取得突破性进展。尤其在2022年,算法获得井喷式发展,底层技术的突破也使得AIGC商业落地成为可能。其中主要集中在AI绘画领域:2014年6月,生成式对抗网络(Generative Adversarial Network,GAN)被提出。2021年2月,OpenAI推出了CLIP(Contrastive Language-Image Pre-Training)多模态预训练模型。2022年,扩散模型Diffusion Model逐渐替代GAN。特征播报编辑AIGC是建立在多模态之上的人工智能技术,即单个模型可以同时理解语言、图像、视频、音频等,并能够完成单模态模型无法完成的任务,比如给视频添加文字描述、结合语义语境生成图片等。现阶段国内AIGC多以单模型应用的形式出现,主要分为文本生成、图像生成、视频生成、音频生成,其中文本生成成为其他内容生成的基础。文本生成文本生成(AI Text Generation),人工智能文本生成是使用人工智能(AI)算法和模型来生成模仿人类书写内容的文本。它涉及在现有文本的大型数据集上训练机器学习模型,以生成在风格、语气和内容上与输入数据相似的新文本。 [8]图像生成图像生成(AI Image Generation),人工智能(AI)可用于生成非人类艺术家作品的图像。这种类型的图像被称为“人工智能生成的图像”。人工智能图像可以是现实的或抽象的,也可以传达特定的主题或信息。 [9]语音生成语音生成(AI Audio Generation),AIGC的音频生成技术可以分为两类,分别是文本到语音合成和语音克隆。文本到语音合成需要输入文本并输出特定说话者的语音,主要用于机器人和语音播报任务。到目前为止,文本转语音任务已经相对成熟,语音质量已达到自然标准,未来将向更具情感的语音合成和小样本语音学习方向发展;语音克隆以给定的目标语音作为输入,然后将输入语音或文本转换为目标说话人的语音。此类任务用于智能配音等类似场景,合成特定说话人的语音。 [10]视频生成视频生成(AI Video Generation),AIGC已被用于视频剪辑处理以生成预告片和宣传视频。工作流程类似于图像生成,视频的每一帧都在帧级别进行处理,然后利用 AI 算法检测视频片段。AIGC生成引人入胜且高效的宣传视频的能力是通过结合不同的AI算法实现的。凭借其先进的功能和日益普及,AIGC可能会继续革新视频内容的创建和营销方式。 [10]AIGC产业结构播报编辑AI产业链主要由基础层、技术层、应用层三大层构成。其中基础层侧重于基础支撑平台的搭建,包含传感器、AI芯片、数据服务和计算平台;技术层侧重核心技术的研发,主要包括算法模型、基础框架、通用技术;应用层注重产业应用发展主要包含行业解决方案服务、硬件产品和软件产品。调研归纳发现,国内AIGC产业链结构主要由基础大模型、行业/场景中模型、业务/领域小模型,AI基础设施、AIGC配套服务五部分构成,并且已经形成了丰富的产业链。图片来源:TE智库《企业AIGC商业落地应用研究报告》基础大模型通过大量无标签或通用公开数据集,在数百万或数十亿参数量下,训练的深度神经网络模型。这种模型经过专门的训练过程,能够对大规模数据进行复杂的处理和任务处理。大模型需要占用大量的计算资源、存储空间、时间和电力等资源来保证它的训练和部署。 [4]行业与场景中模型基于行业/场景专有数据,在较小参数量下训练的深度神经网络模型。面向特定场景和行业,该模型运行速度更快,也更加轻便。 [4]代表供应商类型:行业头部数字化供应商、AI厂商、行业巨头、基础大模型厂商、数据服务供应商。业务与领域小模型基于少量、特定领域或企业独有数据,在小规模参数下训练的深度神经网络模型。适用于解决一些简单的、小规模的问题,可以在低功耗设备上运行,具有更快的推理速度。 [4]代表供应商类型:垂直领域数字化服务供应商(包含SaaS服务供应商)、行业巨头、AI厂商、基础大模型厂商。AI基础设施为模型厂商提供算力、算法、数据服务三大套件支持,包括服务器、芯片、数据湖、数据分析能力。 [4]AIGC配套服务围绕大模型,提供建模工具、安全服务、内容检测、基础平台等服务。AIGC产业链上游主要提供AI技术及基础设施,包括数据供给方、数据分析及标注、创造者生态层、相关算法等。中游主要针对文字、图像、视频等垂直赛道,提供数据开发及管理工具,包括内容设计、运营增效、数据梳理等服务。下游包括内容终端市场、内容服务及分发平台、各类数字素材以及智能设备,AIGC内容检测等。 [4]AIGC关键技术能力播报编辑实现AIGC更加智能化、实用化的三大要素是:数据、算力、算法。数据AIGC人有我优的核心基础,包括存储(集中式数据库、分布式数据库、云原生数据库、向量数据库)、来源(用户数据、公开域数据、私有域数据)、形态(结构化数据、非结构化数据)、处理(筛选、标注、处理、增强…)算力为AIGC提供基础算力的平台,包括半导体(CPU、GPU、DPU、TPU、NPU)、服务器、大模型算力集群、基于IaaS搭建分布式训练环境、自建数据中心部署。 [4]算法通过模型设计、模型训练、模型推理、模型部署步骤,完成从机器学习平台、模型训练平台到自动建模平台的构建,实现对实际业务的支撑与覆盖。 [4]AIGC商业应用领域播报编辑国外AIGC的商业化从基础大模型开始,包括以ChatGPT、Midjourney为代表的典型应用是基于基础大模型的调用,孵化而来。国内正好相反,由于国内市场极度丰富的业务场景,高度离散的供给侧服务,导致当前的AIGC商业化先从业务/领域小模型开始。基础大模型尚处于快速迭代升级的阶段,同时也开始关注具体的业务场景。而行业/场景中模型市场相对更加滞后,但这一市场在中国特色市场下,将会是未来基础大模型和领域小模型都会积极跨界的领域。目前国内的AIGC技术与应用,供需两侧主要集中在营销、办公、客服、人力资源、基础作业等领域,并且这种技术所带来的赋能与价值已经初步得到验证。根据TE智库《企业AIGC商业落地应用研究报告》显示,33%企业在营销场景、31.9%的企业在在线客服领域、27.1%的企业在数字办公场景下、23.3%的企业在信息化与安全场景下迫切期望AIGC的加强和支持。 [4]图片来源:TE智库《企业AIGC商业落地应用研究报告》营销场景营销场景是目前AIGC渗透最快,也是应用最成熟的场景。AIGC主要在营销动作中的内容生产、策略生成方面极大加强了数字营销的能力。例如市场认知阶段的核心价值是创意参考,可赋能环节包括:广告策略、品牌传播、市场分析、CEM、SEO、DSP、SSP,通过生成广告创意与投放优化参考,包括广告设计、广告内容、投放渠道策略和投放分析,从而提高广告效果和投放效率。 [4]数字办公场景数字办公场景也是目前AIGC渗透较快的场景之一,主要体现在对个体的办公效率提升。在文本内容生成、代码生成、流程设计和规范等方面表现出一定的提示和优化。例如流程管理模块的核心价值是规范建议,可赋能环节包括:流程规范设计、流程路径设计、流程控制设计、流程优化,在一个新项目启动时,可以根据项目需求和历史经验自动生成流程规范建议,包括各阶段的任务分配、时间节点等。 [4]在线客服场景在线客服是AIGC音频生成最近距离的场景之一,声音合成、语义理解在智能化策略下,生成具有明确目的性的对话内容。例如全渠道接入模块的核心价值在于个性化模块,可赋能的环节:富文本沟通、自动主动对话、访客信息展现,生成个性化回复模板,更好地提供针对性服务,从而提升客户满意度。 [4]人力资源AIGC对人力资源服务的加成,是目前在企业经营管理体系中进展较快的领域。使人力资源管理体系的效率大幅提升的同时,在一定程度上也改变了传统人力三支柱的传统管理模型。例如招聘模块的核心价值在于简历推荐,可赋能的环节:筛选、面试筛选、笔试测评,以筛选简历阶段为例,可以分析各个候选人的简历,生成匹配结果报告,并根据公司需求智能推荐合适的候选人。大幅提高筛选准确性和效率,减少人力资源部门的工作负担。 [4]基础作业AIGC在基础作业场景中的表现十分突出,在设计、电子签名、合同管理、法律服务等环节表现出很强的智能化以及可替代性。例如在平面设计领域:设计构思模块的核心价值在于创意辅助,可赋能的环节:设计对接、沟通设计思路,当企业开始设计时,可以根据客户需求,自动转化设计对接,同时辅助设计不同风格方案生成,提升设计师的创意水平。在合同管理、电签等领域:核心价值在于合同草稿生成、内容自动审核、合同完整性确认,可赋能的环节:合同制作、业务部门内部审核、审核确认、财务审核、法务审核、审核确认、领导审核、审核确认、最终审核,存档,能够根据企业需求和行业标准,自动识别关键信息并生成合同草稿,提高合同起草质量,节省企业起草合同所需时间;自动分析合同内容,为业务部门审核合同提供有效建议,提高审核效率,降低合同执行潜在风险;可以基于已完成的合同审核意见及修改意见,确保合同完成,生成最终合同文档。 [4]AIGC落地方式与路径播报编辑目前企业/机构端在使用相关的AIGC能力时,主要有五种方式:直接使用、Prompt、LoRA、Finetune、Train。 [4]直接使用顾名思义,直接使用基础大模型厂商发布的产品服务,通过接口调用方式嵌入自身业务或系统当中。Prompt通过提示工程,通过微调少量参数,引导预训练语言模型做特定下游任务。利用文本对话方式操控语言大模型,引导生成结果。LoRA仅训练低秩矩阵(low rank matrics),使用时将LoRA模型的参数注入基础大模型,在不修改大模型的前提下,改变模型的生成风格。所需的训练资源比训练基础大模型要小很多,非常适合社区使用者和个人开发者。FineTuneFinetune是应用或利用迁移学习的一种方式。对基础大模型进行微调,以适应特定任务。当数据集相似,但数据量又很少的情况下,微调省去大量计算资源和计算时间,提高了计算效率,甚至提高准确率。具体来说,微调是一个过程,它采用已经针对一项给定任务训练过的模型,然后调整或微调模型以使其执行第二个类似任务。 [11]Train调用数据、算力、算法从头训练大模型,从头开始训练大模型。除非特殊领域和特定要求,一般商业公司不会从头开始训练基础大模型。 [4]AIGC商业模式播报编辑目前AIGC主要的商业模式为MaaS(Model as a service),MaaS是一种云与大模型深度绑定后的新商业模式,以云为基础、模型为中心,提供众多预训练基础模型,只需针对具体场景作调整优化,就能够快速投入使用。 [4]MaaS与云计算各层的商业结合,将会引发企业市场一场新的商业模式变革。图片来源:TE智库《企业AIGC商业落地应用研究报告》MaaS由三部分组成,包括基础层、中间核心层和底层扩展层。基础层涵盖了用户的身份信息,如用户姓名和职业等基本信息;中间核心层描述了重要的用户特征,如用户兴趣、偏好、目标等;底层扩展层包含带有用户特征的个性化知识,包括通过语义关系分析和推理得到的用户兴趣、偏好和个性化的模型网络。这个平台可作为独立的服务平台,插入到云计算中,具体位置在PaaS层和SaaS层之间。因此在商业模式上可以是MaaS+IaaS、MaaS+PaaS、MaaS+SaaS。MaaS+IaaSMaaS开发人员设计的所有MaaS配置文件模板都存储在IaaS层中,也就是说用IaaS层的数据库喂给MaaS。这意味着MaaS的质量也取决于IaaS层数据库的质量,其中包括关系型数据库、NewSQL、数据仓库和数据湖等对数据的处理。MaaS+PaaSMaaS主要针对PaaS的构建和开发模式产生巨大影响,缩短PaaS的开发周期。原来PaaS层的服务主要依赖与在某一领域的专业深耕,垂直化PaaS的价值得以放大。而MaaS的介入,在理论上使得通用PaaS服务成为可能,并且PaaS服务对象直接赋能最终B端客户,不再局限交付团队。MaaS+SaaS这是目前AIGC与企业业务结合最具想象力的商业模式,SaaS+MaaS能为每个终端用户,输出针对自己业务的个性化服务。客户可以直接将需求传递给系统,它会自动调用功能、展示结果。区别在于,通过MaaS平台搭建出的SaaS软件会展现出更个性化的工具,其效果可能要好过PaaS+SaaS的模式。最后,SaaS的订阅模式也会因此发生改变。收费模式数据调研发现,中国企业用户在AIGC的付费模式期望方面开始出现明确的方向。对MaaS的收费模式主要分为三类:订阅收费、按内容产出量收费、定制模型开发收费。 [4]图片来源:TE智库《企业AIGC商业落地应用研究报告》AIGC供给侧能力评估模型判断一个组织或机构在AIGC时代的商业化潜能,可以从四个维度加以验证:团队、创新、市场、生态。 [4]图片来源:TE智库《企业AIGC商业落地应用研究报告》团队——结构与战力(Team-Structure& ability)创新——资源与保障(Innovate-Resources& security)市场——机会与密度(Market-Opportunity& density)生态——连接与协作(Ecological -Cooperation& collaboration)AIGC发展存在的问题播报编辑法律法规完善程度低目前AIGC相关的法律法规不完善是主要问题,想要实现对AIGC技术的有效发挥,必须对其相关的法律法规进行完善。就当前的AIGC技术在目前的应用来看,其缺乏完善的安全性标准,没有明确AIGC技术服务、内容传播与技术应用各相关方面的法律和社会责任。其次,缺乏完善的AIGC技术相关立法,与分级分类的监管手段,AIGC技术的安全性难以得到保障。数据要素问题突出在AIGC技术的使用中,没有明确划分公有数据和专有数据的使用界限,使基础大模型训练的数据合规性、安全性、权属产生问题。例如,专有数据的泄露可能会导致用户数据安全的问题,同时数据要素也很难有效的发挥出自己的价值。技术保密性问题技术保密性是AIGC的首要问题。比如,在与AIGC交互的过程中,企业的专有资源被泄露等。如果技术保密性不足就可能严重影响到信息资源的所有者。完善措施播报编辑法律准入随着AIGC技术的不断发展,AI应用的领域日益广泛,为了更好地规范市场发展,建议逐步完善保障AIGC良性发展的法律法规体系,建立法律准入体系。开展针对AIGC模型市场准入方面的法律法规研究,从而明确AIGC技术服务、内容传播与技术应用各相关方面的法律和社会责任。同时,鼓励立法研究的多方参与、监管手段的分级分类、行业治理的公私合作。数据服务产业链纳入统一管理体系数据是AIGC发展的三大根基之一,加强数据要素安全,是AI技术安全落地的基础。首先,可以加强各级单位对于数据要素的治理,分级分层建立数据要素安全标准,如网络安全等级保护、数据分类分级管理、合规管理体系的搭建以及安全事件的防范等方面建立完善的解决方案。技术标准统一和完善技术是AIGC发展的核心,加强技术的独立可控是AIGC发展的重要手段。可以在基础大模型阶段开始实施技术标准、业务标准的制定,从起步阶段完善产业链体系的标准化。同时加强数据归集、算力统筹、算法开源等平台和基础能力建设等;同时优化AIGC技术的发展环境,通过技术创新、理念创新,进一步适应新的发展环境,提高技术的应用价值,是未来AIGC技术的发展重点。社会影响播报编辑2023年12月,AIGC入选2023年十大科技热词。 [12]新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号 京公网安备110000020000关于AIGC - AIGC是什么?AIGC的发展历程 | AIGC工具导航
IGC - AIGC是什么?AIGC的发展历程 | AIGC工具导航 AIGC热门工具 AIGC写作平台 AI写作工具 AI论文写作 AI论文查重 AI聊天 AI提示词 AI内容检测 AI公文 AI问答 AI阅读 AI搜索 AI小说 AIGC绘画平台 AI绘画工具 AI绘画提示 AI绘画社区 AI绘画模型 AI-3D生成 AI图形工作站 AI图片审核 AI搜索图片 AI素材 AI绘本 AIGC视觉平台 AI设计工具 AI图像处理 AI图像扩展 AI商品图 AI一键抠图 AI标志设计 AI空间设计 AI服装设计 AI字体设计 AI头像/艺术照 AI艺术二维码 AIGC视频平台 AI视频生成 AI数字人 AI视频后期 AI口播视频 AI动作捕捉 AI换脸 AI博主 AI视频模型 AI字幕翻译 图片转视频 AIGC音频平台 AI语音生成-文转音 AI语音识别-音转文 AI语音合成 AI语音降噪 AI音乐创作 AI音乐鉴赏 AIGC办公平台 AI办公工具 AI制作PPT AI翻译 AI思维导图 AI会议助理 AI文档处理 AI总结摘要 AI制作简历 AI公益应用 AIGC学习平台 AIGC免费课程 AIGC专题课程 AIGC精选专栏 AI运营启发 京东AI好书推荐 prompt学习 AIGC企业平台 AI企业服务 AI数字员工 AI人力资源 AI电子合同 AI法律服务 AI金融事务 AI算力平台 AI行业协会 AI官方活动 AIGC运营平台 AI营销工具 AI电商增长 AI行业门户 AI流量优化 AI舆情分析 AI数据分析 AI国际导航 全球大学AI 大陆大学AI AIGC开发平台 AI编程工具 AI开发课堂 AI开发框架 AI开放平台 AI开发者社区 AI低(无)代码编程 AI-SQL数据库 AI训练模型 AI 大模型平台 AI大语言模型 AI视觉大模型 AI视频大模型 AI语音大模型 AI多模态大模型 AI教育大模型 AI医学大模型 AI法律大模型 AI行业大模型 AI海外大模型 AI 智能体平台 ChatGLMS AI提示语 AIGC服务平台 AI基础设施 AI应用接口API AI中文研究机构 AI海外研究机构 AI生命科学 AI游戏应用 AI安全技术 AIGC元宇宙 AIGC工具提交 首页资讯学院账号 AI热榜 福利社 AI论文写作 关于AIGC AIGC即AI Generated Content,利用人工智能技术来生成内容,是继UGC、PGC之后的新型内容生产方式,AI写作、AI绘画、AI作曲、AI剪辑、AI动画、AI交互等都属于AIGC的分支。结合人工智能的演进沿革,AIGC的发展历程大致可以分为三个阶段: 早期萌芽阶段(1950s-1990s),受限于当时的科技水平,AIGC仅限于小范围实验。1957 年,莱杰伦·希勒和伦纳德·艾萨克森完成历史第一支由计算机创作的弦乐四重奏《伊利亚克组曲》。1966年,约瑟夫·魏岑鲍姆和肯尼斯·科尔比开发了世界第一款可人机对话的机器人Eliza。80年代中期,IBM创造了语音控制打字机Tangora。 沉淀积累阶段(1990s-2010s),AIGC从实验性向实用性逐渐转变。2006年,深度学习算法、图形处理器、张量处理器等都取得了重大突破。2007年,世界第一部完全由人工智能创作的小说《1 The Road》问世。2012年,微软公开展示了一个全自动同声传译系统,可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。 快速发展阶段(2010s至今),深度学习模型不断迭代,AIGC突破性发展。2014年,对抗生产网络GAN出现。2021年,CLIP模型出现;OpenAI推出DALL-E,主要应用于文本与图像交互生成内容。2022年,深度学习模型Diffusion扩散化模型的出现。 新模型下的AIGC所向披靡 过去,互联网的内容都是由用户生成、上传,AI只能协助人类完成一部分最简单、最基础的工作,无法独立生成内容,更不用提优质内容了。但这一状况也因Diffusion扩散化模型的开源应用而被打破,AIGC成为了继UGC之后的又一大内容生成方式。 相较于UGC,AIGC的最大不同是新技术驱动了机器智能创作内容,这使得AIGC具有独特的技术特征,包括数据据量化、内容创造力、跨模态融合、认知交互力等,也正是这些独有的技术能力,让AIGC成为“不可替代”的新一代内容生成方式。 让我们期待,未来AIGC给我们带来的更多精彩! ABOUT AIGC AIGC refers to AIgenerated Content, which uses artificial intelligence technology to generate content. It is a new way of content production after UGC and PGC. AI writing, AI painting, AI composing, AI editing, AI animation and AI interaction all belong to the branches of AIGC. Combined with the evolution of artificial intelligence, the development of AIGC can be roughly divided into three stages: In the early embryonic stage (1950s — 1990s), AIGC was limited to small-scale experiments due to the scientific and technological level at that time. 1957. Legeren Hiller and Leonard Isaacson complete history’s first computer-composed string quartet, the Illillac Suite. In 1966, Joseph Weizenbaum and Kenneth Colby developed the world’s first conversational robot, Eliza. In the mid-1980s, IBM created Tangora, a voice-controlled typewriter. In the stage of precipitation accumulation (1990s — 2010s), AIGC gradually changed from experimental to practical. In 2006, breakthroughs were made in deep learning algorithms, graphics processors, tensor processors, and more. In 2007, 1 The Road, the world’s first novel written entirely by artificial intelligence, was published. In 2012, Microsoft publicly demonstrated a fully automatic simultaneous interpretation system that can automatically generate Chinese speech from English speakers through speech recognition, language translation, speech synthesis and other technologies. In the rapid development stage (2010s till now), deep learning model has been iterated continuously, and AIGC has made a breakthrough. In 2014, the adversarial production network GAN emerged. In 2021, CLIP model appeared; OpenAI launched DALL-E, which is mainly used for text and image interaction to generate content. In 2022, the deep learning model Diffusion model appeared. The AIGC under the new model was invincible In the past, content on the Internet was generated and uploaded by users. AI could only assist human beings to complete some of the simplest and most basic tasks, and could not independently generate content, let alone quality content. But this situation is also broken by the open source application of the Diffusion model, and AIGC becomes another big content generation mode after UGC. Compared with UGC, the biggest difference of AIGC is that the new technology drives the machine intelligence to create content, which makes AIGC has unique technical characteristics, including data quantization, content creativity, cross-modal fusion, cognitive interaction, etc. It is these unique technical capabilities that make AIGC an “irreplaceable” new generation of content generation. Let’s look forward to more exciting AIGC for us in the future! 讯飞星火认知大模型-免费使用!免费AI写作:星火内容运营大师触手AI:免费AI绘画平台热门文章 OpenAI 正在推出一种新的视频生成模型,它的名字叫 Sora 3周前 7.6K 联想 MarTech 智能营销平台斩获 “2023 年度最佳 AIGC 营销平台 ” 奖 1个月前 6K IT桔子周报:一级市场投融资案例精选 1个月前 6K 北京商报:又有14个国产AI大模型获网算备案,众多科技巨头齐入AIGC赛道! 1个月前 5.9K 人民日报海外版:2024 AIGC应用十大趋势发布——智能化应用将出现爆发式增长 1个月前 5.5K AIGC工具导航,一个聚合全球优质AI工具的生成式AI工具集合平台,包括AI写作、AI绘画、AI设计、AI办公、AI视频、AI语音、AI音乐、AI论文、AI简历、AI数字人、文本转语音等,还包括Chato、触手AI、AIPPT、ChatPPT等常用AI工具! 按下Ctrl+D或⌘+D 感谢收藏AIGC.CN 政策法规 管理办法 算法备案 反诈中心 资源申请 破冰计划 广告扶持 互推计划 关于我们 联系我们 免责声明 联系删除 国家反诈中心APP 国家反诈中心APP二维码 Copyright©2023-2024 AIGC工具导航 AIGC学院 津ICP备2022006237号-2津公网安备12011002023007号 12377违法和不良信息举报中心 站内搜索站外搜索AI搜索引擎AI图片广场 站内搜索搜索站内工具站外搜索搜索更多内容Bing百度360搜狗神马AI搜索引擎PhindAndiPerplexityKuaiSouAI图片广场文心一格无界AImage.spaceOpenArtkrea.ai 热门推荐: 免费GPT4.0免费AI绘画免费AI写作万字长文:AIGC技术与应用全解析 - 知乎
万字长文:AIGC技术与应用全解析 - 知乎首发于AIGC切换模式写文章登录/注册万字长文:AIGC技术与应用全解析智驱力人工智能人工智能解决方案专家一、简介近期,短视频平台上火爆的“AI绘画”,在各大科技平台上刷屏的智能聊天软件ChatGPT,引起了人们广泛关注。人工智能潜力再次被证明,而这两个概念均来自同一个领域:AIGC。AIGC到底是什么?为什么如此引人关注?AIGC能产生什么样的应用价值? 本文将重点关注三个方面:1、AIGC核心技术与原理 2、AIGC典型应用场景 3、AIGC落地产品形态二、AIGC是什么?AIGC全称为AI-Generated Content,直译:人工智能内容生成。即采用人工智能技术来自动生产内容。那么,AIGC采用了什么人工智能技术?可生成什么内容?对以上两个问题进行回答,首先,从技术层面AIGC可分为三个层次,分别为:1、智能数字内容孪生:简单的说,将数字内容从一个维度映射到另一个维度。与生成有什么关系呢?因为另一个维度内容不存在所以需要生成。内容孪生主要分为内容的增强与转译。增强即对数字内容修复、去噪、细节增强等。转译即对数字内容转换如翻译等。该技术旨在将现实世界中的内容进行智能增强与智能转译,更好的完成现实世界到数字世界映射。例如,我们拍摄了一张低分辨率的图片,通过智能增强中的图像超分可对低分辨率进行放大,同时增强图像的细节信息,生成高清图。再比如,对于老照片中的像素缺失部分,可通过智能增强技术进行内容复原。而智能转译则更关注不同模态之间的相互转换。比如,我们录制了一段音频,可通过智能转译技术自动生成字幕;再比如,我们输入了一段文字,可以自动生成语音,两个例子均为模态间智能转译应用。【应用】:图像超分、语音转字幕、文字转语音等。2、智能数字内容编辑:智能数字内容编辑通过对内容的理解以及属性控制,进而实现对内容的修改。如在计算机视觉领域,通过对视频内容的理解实现不同场景视频片段的剪辑。通过人体部位检测以及目标衣服的变形控制与截断处理,将目标衣服覆盖至人体部位,实现虚拟试衣。在语音信号处理领域,通过对音频信号分析,实现人声与背景声分离。以上三个例子均在理解数字内容的基础上对内容的编辑与控制。【应用】:视频场景剪辑、虚拟试衣、人声分离等。3、智能数字内容生成:智能数字内容生成通过从海量数据中学习抽象概念,并通过概念的组合生成全新的内容。如AI绘画,从海量绘画中学习作品不同笔法、内容、艺术风格,并基于学习内容重新生成特定风格的绘画。采用此方式,人工智能在文本创作、音乐创作和诗词创作中取得了不错表现。再比如,在跨模态领域,通过输入文本输出特定风格与属性的图像,不仅能够描述图像中主体的数量、形状、颜色等属性信息,而且能够描述主体的行为、动作以及主体之间的关系。【应用】:图像生成(AI绘画)、文本生成(AI写作、ChatBot)、视频生成、多模态生成等。从生成内容层面AIGC可分为五个方面:1、文本生成基于NLP的文本内容生成根据使用场景可分为非交互式与交互式文本生成。非交互式文本生成包括摘要/标题生成、文本风格迁移、文章生成、图像生成文本等。交互式文本生成主要包括聊天机器人、文本交互游戏等。【代表性产品或模型】:JasperAI、copy.AI、ChatGPT、Bard、AI dungeon等。2、图像生成图像生成根据使用场可分为图像编辑修改与图像自主生成。图像编辑修改可应用于图像超分、图像修复、人脸替换、图像去水印、图像背景去除等。图像自主生成包括端到端的生成,如真实图像生成卡通图像、参照图像生成绘画图像、真实图像生成素描图像、文本生成图像等。【代表性产品或模型】:EditGAN,Deepfake,DALL-E、MidJourney、Stable Diffusion,文心一格等。3、音频生成音频生成技术较为成熟,在C端产品中也较为常见,如语音克隆,将人声1替换为人声2。还可应用于文本生成特定场景语音,如数字人播报、语音客服等。此外,可基于文本描述、图片内容理解生成场景化音频、乐曲等。【代表性产品或模型】:DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。4、视频生成视频生成与图像生成在原理上相似,主要分为视频编辑与视频自主生成。视频编辑可应用于视频超分(视频画质增强)、视频修复(老电影上色、画质修复)、视频画面剪辑(识别画面内容,自动场景剪辑)。视频自主生成可应用于图像生成视频(给定参照图像,生成一段运动视频)、文本生成视频(给定一段描述性文字,生成内容相符视频)。【代表性产品或模型】:Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen video等。5、多模态生成以上四种模态可以进行组合搭配,进行模态间转换生成。如文本生成图像(AI绘画、根据prompt提示语生成特定风格图像)、文本生成音频(AI作曲、根据prompt提示语生成特定场景音频)、文本生成视频(AI视频制作、根据一段描述性文本生成语义内容相符视频片段)、图像生成文本(根据图像生成标题、根据图像生成故事)、图像生成视频。【代表性产品或模型】:DALL-E、MidJourney、Stable Diffusion等。三、AIGC的核心技术有哪些?1、基础模型模型名称提出时间应用场景1、深度变分自编码(VAE)2013年图像生成、语音合成2、生成对抗神经网络(GAN)2014年图像生成、语音合成3、扩散模型(Diffusion Model)2015年图像生成4、Transformer2017年语言模型5、Vision Transformer(ViT)2020年视觉模型(1)变分自编码(Variational Autoencoder,VAE)变分自编码器是深度生成模型中的一种,由Kingma等人在2014年提出,与传统的自编码器通过数值方式描述潜空间不同,它以概率方式对潜在空间进行观察,在数据生成方面应用价值较高。VAE分为两部分,编码器与解码器。编码器将原始高维输入数据转换为潜在空间的概率分布描述;解码器从采样的数据进行重建生成新数据。VAE模型如上图所示,假设有一张人脸图片,通过解码器生成了多种特征,这些特征可以有“微笑”,“肤色”,“性别”,“胡须”,“眼镜”,“头发颜色”。传统的自编码器对输入图像编码后生成的潜在特征为具体的数值,比如,微笑=0.5,肤色=0.8等,得到这些数值后通过解码器解码得到与输入接近的图像。也就是说该张人脸的信息已经被存储至网络中,我们输入此人脸,就会输出一张固定的与该人脸相似的图像。我们的目标是生成更多新的与输入近似的图像。因此,我们将每个特征都由概率分布来表示,假设“微笑”的取值范围为0-5,“肤色”的取值范围为0-10,我们在此范围内进行数值采样可得到生成图像的潜在特征表示,同时,通过解码器生成的潜在特征解码得到生成图像。(2)生成对抗网络(Generative Adversarial Networks,GAN)2014年 Ian GoodFellow提出了生成对抗网络,成为早期最著名的生成模型。GAN使用零和博弈策略学习,在图像生成中应用广泛。以GAN为基础产生了多种变体,如DCGAN,StytleGAN,CycleGAN等。GAN模型GAN包含两个部分:生成器:学习生成合理的数据。对于图像生成来说是给定一个向量,生成一张图片。其生成的数据作为判别器的负样本。判别器:判别输入是生成数据还是真实数据。网络输出越接近于0,生成数据可能性越大;反之,真实数据可能性越大。如上图,我们希望通过GAN生成一些手写体来以假乱真。我们定义生成器与判别器:生成器:图中蓝色部分网络结构,其输入为一组向量,可以表征数字编号、字体、粗细、潦草程度等。在这里使用特定分布随机生成。判别器:在训练阶段,利用真实数据与生成数据训练二分类模型,输出为0-1之间概率,越接近1,输入为真实数据可能性越大。生成器与判别器相互对立。在不断迭代训练中,双方能力不断加强,最终的理想结果是生成器生成的数据,判别器无法判别是真是假。以生成对抗网络为基础产生的应用:图像超分、人脸替换、卡通头像生成等。(3)扩散模型(Diffusion Model,里程碑式模型)扩散是受到非平衡热力学的启发,定义一个扩散步骤的马尔科夫链,并逐渐向数据中添加噪声,然后学习逆扩散过程,从噪声中构建出所需的样本。扩散模型的最初设计是用于去除图像中的噪声。随着降噪系统的训练时间越来越长且越来越好,可以从纯噪声作为唯一输入,生成逼真的图片。一个标准的扩散模型分为两个过程:前向过程与反向过程。在前向扩散阶段,图像被逐渐引入的噪声污染,直到图像成为完全随机噪声。在反向过程中,利用一系列马尔可夫链在每个时间步逐步去除预测噪声,从而从高斯噪声中恢复数据。前向扩散过程,向原图中逐步加入噪声,直到图像成为完全随机噪声。前向扩散反向降噪过程,在每个时间步逐步去除噪声,从而从高斯噪声中恢复源数据。反向扩散扩散模型的工作原理是通过添加噪声来破坏训练数据,然后通过逆转这个噪声过程来学习恢复数据。换句话说,扩散模型可以从噪声中生成连贯的图像。 扩散模型通过向图像添加噪声进行训练,然后模型学习如何去除噪声。然后,该模型将此去噪过程应用于随机种子以生成逼真的图像。下图为向原始图像中添加噪声,使原始图像成为随机噪声。添加噪声下图为从噪声中恢复的原始图像的变种图像。生成图像应用:在扩散模型(diffusion model)的基础上产生了多种令人印象深刻的应用,比如:图像超分、图像上色、文本生成图片、全景图像生成等。如下图,中间图像作为输入,基于扩散模型,生成左右视角两张图,输入图像与生成图像共同拼接程一张全景图像。生成全景图像产品与模型:在扩散模型的基础上,各公司与研究机构开发出的代表产品如下:DALL-E 2(OpenAI 文本生成图像,图像生成图像)DALL-E 2由美国OpenAI公司在2022年4月发布,并在2022年9月28日,在OpenAI网站向公众开放,提供数量有限的免费图像和额外的购买图像服务。如下图,左图像为原始图像,右图像为DALL-E 2所生成的油画风格的变种图像。DALL-E 2生成的变种图像Imagen(Google Research 文本生成图像)Imagen是2022年5月谷歌发布的文本到图像的扩散模型,该模型目前不对外开放。用户可通过输入描述性文本,生成图文匹配的图像。如下图,通过prompt提示语“一只可爱的手工编织考拉,穿着写着“CVPR”的毛衣”模型生成了考拉图像,考拉采用手工编织,毛衣上写着CVPR,可以看出模型理解了提示语,并通过扩散模型生成了提示语描述图像。“一只可爱的手工编织考拉,穿着写着“CVPR”的毛衣”Stable Diffusion(Stability AI 文本生成图像,代码与模型开源)2022年8月,Stability AI发布了Stable Diffusion ,这是一种类似于DALL-E 2与Imagen的开源Diffusion模型,代码与模型权重均向公众开放。通过prompt提示语“郊区街区一栋房子的照片,灯光明亮的超现实主义艺术,高度细致8K”,生成图像如下,整体风格与内容锲合度高,AI作画质量较高。“郊区街区一栋房子的照片,灯光明亮的超现实主义艺术,高度细致8K”(4)Transformer2017年由谷歌提出,采用注意力机制(attention)对输入数据重要性的不同而分配不同权重,其并行化处理的优势能够使其在更大的数据集训练,加速了GPT等预训练大模型的发展。最初用来完成不同语言之间的翻译。主体包括Encoder与Decoder分别对源语言进行编码,并将编码信息转换为目标语言文本。采用Transformer作为基础模型,发展出了BERT,LaMDA、PaLM以及GPT系列。人工智能开始进入大模型参数的预训练模型时代。Transformer模型(5)Vision Transformer (ViT)2020年由谷歌团队提出,将Transformer应用至图像分类任务,此后Transformer开始在CV领域大放异彩。ViT将图片分为14*14的patch,并对每个patch进行线性变换得到固定长度的向量送入Transformer,后续与标准的Transformer处理方式相同。以ViT为基础衍生出了多重优秀模型,如SwinTransformer,ViTAE Transformer等。ViT通过将人类先验经验知识引入网络结构设计,获得了更快的收敛速度、更低的计算代价、更多的特征尺度、更强的泛化能力,能够更好地学习和编码数据中蕴含的知识,正在成为视觉领域的基础网络架构。以ViT为代表的视觉大模型赋予了AI感知、理解视觉数据的能力,助力AIGC发展。Vision Transformer(ViT)2、预训练大模型虽然过去各种模型层出不穷,但是生成的内容偏简单且质量不高,远不能够满足现实场景中灵活多变以高质量内容生成的要求。预训练大模型的出现使AIGC发生质变,诸多问题得以解决。大模型在CV/NLP/多模态领域成果颇丰,并如下表的经典模型。诸如我们熟知的聊天对话模型ChatGPT,基于GPT-3.5大模型发展而来。计算机视觉(CV)预训练大模型自然语言处理(NLP)预训练大模型多模态预训练大模型微软Florence(SwinTransformer)谷歌Bert/LaMDA/PaLMOpenAI的CLIP/DALL-EOpenAI的GPT-3/ChatGPT微软的GLIPStability AI的Stable Diffusion(1)计算机视觉(CV)预训练大模型FlorenceFlorence是微软在2021年11月提出的视觉基础模型。Florence采用双塔Transformer结构。文本采用12层Transformer,视觉采用SwinTransformer。通过来自互联网的9亿图文对,采用Unified Contrasive Learning机制将图文映射到相同空间中。其可处理的下游任务包括:图文检索、图像分类、目标检测、视觉问答以及动作识别。Florence overview(2)自然语言处理(NLP)预训练大模型LaMDALaMDA是谷歌在2021年发布的大规模自然语言对话模型。LaMDA的训练过程分为预训练与微调两步。在预训练阶段,谷歌从公共数据数据中收集了1.56T数据集,feed给LaMDA,让其对自然语言有初步认识。到这一步通过输入prompt能够预测上下文,但是这种回答往往不够准确,需要二次调优。谷歌的做法是让模型根据提问输出多个回答,将这些回答输入到分类器中,输出回答结果的安全性Safety,敏感性Sensible,专业性Specific以及有趣性Interesting。根据这些指标进行综合评价,将评价从高分到低分进行排列,从中挑选出得分最高的回答作为本次提问的答案。LaMDA对话系统原理图ChatGPTChatGPT是美国OpenAI公司在2022年11月发布的智能对话模型。截止目前ChatGPT未公开论文等技术资料。大多数的技术原理分析是基于InstructGPT分析。ChatGPT与GPT-3等对话模型不同的是,ChatGPT引入了人类反馈强化学习(HFRL:Human Feedback Reinforcement Learning)。ChatGPT与强化学习:强化学习策略在AlphaGo中已经展现出其强大学习能力。简单的说,ChatGPT通过HFRL来学习什么是好的回答,而不是通过有监督的问题-答案式的训练直接给出结果。通过HFRL,ChatGPT能够模仿人类的思维方式,回答的问题更符合人类对话。ChatGPT原理:举个简单的例子进行说明,公司员工收到领导安排任务,需完成一项工作汇报的PPT。当员工完成工作PPT制作时,去找领导汇报,领导在看后认为不合格,但是没有清楚的指出问题在哪。员工在收到反馈后,不断思考,从领导的思维方式出发,重新修改PPT,提交领导查看。通过以上多轮反馈-修改后,员工在PPT制作上会更符合领导思维方式。而如果领导在第一次查看时,直接告诉员工哪里有问题,该怎样修改。那么,下一次员工所做的PPT很大概率还是不符合要求,因为,没有反馈思考,没有HFRL,自然不会做出符合要求的工作。ChatGPT亦是如此。ChatGPT训练过程图ChatGPT能够回答出好的问题与它的“领导”所秉持的价值观有很大关系。因此,你的“点踩”可能会影响ChatGPT的回答。ChatGPT的显著特点如下:ChatGPT特点1)主动承认错误:若用户指出其错误,模型会听取,并优化答案。2)敢于质疑:对用户提出的问题,如存在常识性错误,ChatGPT会指出提问中的错误。如提出“哥伦布2015年来到美国时的情景”,ChatGPT会指出,哥伦布不属于这一时代,并调整输出,给出准确答案。3)承认无知:对于非常专业的问题或超出安全性范围,如果ChatGPT不清楚答案,会主动承认无知,而不会一本正经的“胡说八道”。4)支持连续多轮对话:ChatGPT能够记住先前对话内容,并展开多轮自然流畅对话。(3)多模态预训练大模型CLIP(OpenAI)2021年美国OpenAI公司发布了跨模态预训练大模型CLIP,该模型采用从互联网收集的4亿对图文对。采用双塔模型与比对学习训练方式进行训练。CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。简单说,CLIP将图片与图片描述一起训练,达到的目的:给定一句文本,匹配到与文本内容相符的图片;给定一张图片,匹配到与图片相符的文本。怎样进行训练?首先,采用Text-Encoder与Image-Encoder对文本与图像进行特征提取。Text-Encoder采用Text Transformer模型,Image-Encoder采用CNN或Vision Transformer(ViT)。其次,这里对提取的文本特征和图像特征进行对比学习。对于一个包含N个文本-图像对的训练batch,将N个文本特征和N个图像特征两两组合,CLIP模型会预测出N^2个可能的文本-图像对的相似度,这里的相似度直接计算文本特征和图像特征的余弦相似性(cosine similarity),即下图所示的矩阵。这里共有N个正样本,即真正属于一对的文本和图像(矩阵中的对角线元素),而剩余的N^2-N个文本-图像对为负样本,那么CLIP的训练目标就是最大N个正样本的相似度,同时最小化N^2-N个负样本的相似度。最后,训练模型,优化目标函数。完成训练,输入文本经模型预测输出匹配图片;输入图片经模型预测输出匹配文本。有什么应用?1)跨模态检索:如搜索中文本搜索图片、文本搜索视频,图片搜索文本等。2)跨模态内容生成:文本生成图片(DALL-E 2,Stable Diffusion等)、图片生成标题、图片生成描述等。CLIP模型结构Stable Diffusion(Stablility AI)Stable Diffusion是英国伦敦 Stability AI公司开源的图像生成扩散模型。Stable Diffusion的发布是AI图像生成发展过程中的一个里程碑,相当于给大众提供了一个可用的高性能模型,不仅生成的图像质量非常高,运行速度快,并且有资源和内存的要求也较低。Stable Diffusion从功能上来说主要包括两个方面:1)利用文本输入来生成图像(Text-to-Image)2)对图像根据文字描述进行修改(输入为文本+图像)具体原理是怎样实现?下面以文本生成图片进行分析。如下图:Stable diffusion=Text Encoder+Image Generator1) Text Encoder(文本特征提取)我们知道,文本与图片为两个不同模态。要建立文本与图片之间的匹配需要多模态模型,因此,需利用多模态预训练模型中的Text Encoder提取文本特征(与CLIP中的Text Encoder功能一致。)之后,文本特征向量与随机噪声一并输入Image Generator。输入:文本;输出:77*768向量(77个token,每个token 768维)。Stable diffusion原理图2)Image Generator(图像生成)Image Generator=Image Information Creator+Image DecoderStable diffusion原理图A:Image Information Creator(独家秘方,领先的关键)Image Information Creator=UNet+Scheduler相比之前的模型,它的很多性能增益都是在这里实现的。该组件运行多个steps来生成图像信息,通常默认为50或100。Stable diffusion原理图整个运行过程是step by step的,每一步都会增加更多的相关信息。Stable diffusion原理图整个diffusion过程包含多个steps,其中每个step都是基于输入的latents矩阵进行操作,并生成另一个latents矩阵以更好地贴合「输入的文本」和从模型图像集中获取的「视觉信息」。将这些latents可视化可以看到这些信息是如何在每个step中相加的。Stable diffusion原理图由上图可以看到,图像从噪声中生成的全过程,从无到有,到每一步的变化,生成细微差异的图像。B:Image DecoderImage Decoder对处理过的信息矩阵进行解码,输出生成图像。输入:处理过的信息矩阵,维度为(4, 64, 64)输出:结果图像,各维度为(3,512,512)Stable Diffusion是一款功能强大、免费且开源的文本到图像生成器。不仅完全开放了图片版权,甚至开放了源代码,并允许用户免费使用该工具,允许后继的创业者们使用开源框架构建起更加开放而强大的内容生成大生态。“Stable Diffusion最初采用4000台A100的显卡训练,这些显卡价值不菲(每台价格一至两万美元),很难想象他们有着怎样的财力,抱着怎样的理念,或者说为人们做贡献的精神去把这个东西放出来的。它的价值之高,对业界的影响之大,说是AI革命都不过分。”四、AIGC的应用场景有哪些?1、AIGC在传媒行业应用AI在媒体行业架构如上图为AI在媒体行业应用架构,包括生成、审核、分发运营、创新应用以及媒资管理。以上架构总体上分为两部分:AI内容生成(AIGC)与AI内容分析。AIGC在媒体行业能做什么?采集环节编辑环节播报环节语音转文本画质修复AI数字人(AI合成主播)写作机器人画质增强智能播报机器人AI视频剪辑视频字幕生成视频封面生成图文转视频(1)采集环节借助语音识别技术将语音实时转换为文本,压缩稿件生产过程中的重复性工作,提高内容生产效率。采用智能写作机器人,提升新闻资讯写作的时效性。(2)编辑环节采用AIGC技术对视频画质修复与增强,提升视频质量。此外,可利用AIGC技术对视频场景识别,实现智能视频剪辑。如人民日报社利用“智能云剪辑师”并能够实现自动匹配字幕、人物实时追踪与画面抖动修复等功能。2022冬奥会期间,央视视频通过AI智能内容剪辑系统,高效生产与发布冰雪项目视频集锦内容。(3)播报环节AI合成主播开创了新闻领域实时语音及人物动画合成的先河,只需要输入所需要播发的文本内容,计算机就会生成相应的AI合成主播播报的新闻视频,并确保视频中人物音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。AI合成主播2、AIGC在影视行业应用前期创作中期拍摄后期制作剧本创作虚拟场景生成画质修复画质增强AI视频剪辑人脸替换、人声替换在前期创作阶段,AIGC可通过对海量剧本进行学习,并按照预定风格生成剧本,创作者可进行二次筛选与加工,激发创作灵感,缩短创作周期。在中期拍摄阶段,可通过人工智能合成虚拟场景,将无法实拍或成本过高的场景生成出来,提升视听体验。比如,在拍摄前,进行大量场景素材收集与建模制作虚拟场景,演员在绿棚中进行拍摄,根据实时人员识别与抠图技术,将人物嵌入至虚拟场景中进行融合,生成最终视频。在后期制作阶段,可结合AIGC技术对视频画质进行增强,若视频中出现“劣迹艺人”等敏感人员可通过“人脸替换”、“人声替换”对视频进行编辑。此外,制作者可利用AI技术自动对视频片段进行剪辑,缩短视频预告片、片段集锦的制作时间。3、AIGC在电商行业应用在商品展示环节:AIGC生成3D模型用于商品展示和虚拟适用,提升线上购物体验;在主播打造环节:打造虚拟主播,赋能直播带货;在交易场景环节:虚拟商城构建,智能聊天机器人,赋能线上和线下秀场加速演变,为消费者提供全新的购物场景。4、AIGC在娱乐行业应用全民娱乐:在图像内容生成应用(人脸美妆、融合;黑白图像上色、图像风格转换、人像属性变换)社交互动:虚拟主播、虚拟网红、聊天机器人、聊天互动游戏。5、AIGC在其他行业应用在教育行业:AIGC为教育工作者提供了丰富的教学工作与内容素材。比如,在通过数字人生成技术,可对历史人物进行生成并与之对话,提升课堂互动。再比如,通过ChatGPT生成创意性教学方案,提供更加广泛的授课思路。在工业行业:将AIGC技术融合工业设计软件CAD,Solidworks中,通过文本输入提示语生成,特定样式的机构模型供设计者参考。比如“设计一款卫星太阳能电池板可伸缩折翼机构”通过AIGC模型生成3D设计机构。AIGC在内容生成行业的突破,将提升内容创作者,设计师,工程师,教育工作者等各行业人员工作效率与质量。同时,将加速企业数字化与智能化进程。五、AIGC的产品形态有哪些?AIGC产业生态体系1、基础层(模型服务)基础层为采用预训练大模型搭建的基础设施。由于开发预训练大模型技术门槛高、投入成本高,因此,该层主要由少数头部企业或研发机构主导。如谷歌、微软、Meta、OpenAI、DeepMind、Stability.ai等。基础层的产品形态主要包括两种:一种为通过受控的api接口收取调用费;另一种为基于基础设施开发专业的软件平台收取费用。2、中间层(2B)该层与基础层的最主要区别在于,中间层不具备开发大模型的能力,但是可基于开源大模型等开源技术进行改进、抽取或模型二次开发。该层为在大模型的基础上开发的场景化、垂直化、定制化的应用模型或工具。在AIGC的应用场景中基于大模型抽取出个性化、定制化的应用模型或工具满足行业需求。如基于开源的Stable Diffusion大模型所开发的二次元风格图像生成器,满足特定行业场景需求。中间层的产品形态、商业模式与基础层保持一致,分别为接口调用费与平台软件费。3、应用层(2C)应用层主要基于基础层与中间层开发,面向C端的场景化工具或软件产品。应用层更加关注用户的需求,将AIGC技术切实融入用户需求,实现不同形态、不同功能的产品落地。可以通过网页、小程序、群聊、app等不同的载体呈现。总结:基础模型与预训练大模型的发展,促使AIGC迎来质变期与大规模应用期,未来随着核心技术演进、产品形态丰富、场景应用多元化、生态建设的日益完善,AIGC将充分释放应用价值与商业潜力。参考文献:人工智能内容生成(AIGC)白皮书(中国信息通讯研究院&京东探索研究院)AIGC发展趋势报告2023(腾讯研究院)Denoising Diffusion-based Generative Modeling: Foundations and Applications(Google Brain& NV)从CHAT-GPT到生成式AI(Generative AI):人工智能新范式,重新定义生产力(中信建投证券)https://jalammar.github.io/illustrated-stable-diffusion/Edited by Lucas Shan 编辑于 2023-06-03 20:17・IP 属地山东AIGC应用ChatGРТ人工智能赞同 60927 条评论分享喜欢收藏申请转载文章被以下专栏收录AIGC分享 AIGC 有价值
AIGC:从入门到精通 - 知乎
AIGC:从入门到精通 - 知乎切换模式写文章登录/注册AIGC:从入门到精通呈现ChxAI生成内容(AIGC,人工智能生成内容)是一种新型的内容创作方式,它继承了专业生产内容(PGC,Professional-generated Content)和用户生成内容(UGC,User-generated Content)的优点,并充分发挥技术优势,打造了全新的数字内容生成与交互形态。随着科技的不断发展,AI写作、AI配乐、AI视频生成、AI语音合成以及最近非常热门的AI绘画等技术在创作领域引起了广泛讨论。本文将介绍AIGC的基本概念、技术实现、优势与不足、潜在问题以及未来发展方向,并结合一些比较热门的AIGC相关模型、产品或者应用,深入探讨AIGC技术的应用价值。一、AIGC的基本概念AIGC(AI-Generated Content,AI生成内容)是指基于生成对抗网络(GAN)、大型预训练模型等人工智能技术的方法,通过对已有数据进行学习和模式识别,以适当的泛化能力生成相关内容的技术。类似的概念还包括合成式媒体(Synthetic media),它主要指基于人工智能生成的文字、图像、音频等媒体内容。AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。例如,通过输入关键词、描述或样本,AIGC可以生成与之相匹配的文章、图像、音频等。近年来,随着AIGC技术的不断发展,一些热门的AIGC相关模型、产品或者应用也逐渐崭露头角。例如:AlphaGo:由DeepMind公司开发的围棋人工智能程序,使用了深度学习和强化学习等AIGC技术,在2016年击败了人类顶尖的围棋选手李世石,引起全球关注。此后,AlphaGo又以不同的版本继续刷新人工智能的历史。在2017年,AlphaGo Zero和AlphaGo Master分别以100:0和60:0的比分战胜了之前的AlphaGo版本,并在同年与世界第一的围棋选手柯洁进行了三局对决,结果是AlphaGo Master以3:0完胜柯洁。在2018年,DeepMind公司推出了更先进的AlphaZero程序,它不仅可以玩围棋,还可以玩国际象棋和西洋跳棋,并在自我对弈中超越了所有人类或机器所创造的棋类程序。OpenAI Five:由OpenAI公司开发的Dota 2人工智能团队,使用了深度学习、强化学习等AIGC技术,2019年成功地战胜了世界顶尖的Dota 2战队OG,展示了AIGC技术在实际应用中的强大能力。此后,OpenAI Five又以OpenAI Dota 2 as a Service (DAAS) 的形式向公众开放,让任何人都可以和它对战或者观看它的比赛。同时,OpenAI公司也在不断推出更多基于自然语言生成技术NLG的AIGC产品,例如OpenAI Codex和OpenAI DALL-E。OpenAI Codex是一个可以根据自然语言描述生成代码的程序,它可以帮助开发者快速编写各种应用。OpenAI DALL-E是一个可以根据自然语言描述生成图像的程序,它可以创造出各种有趣和惊奇的图像。Unity Machine Learning Agents:由Unity Technologies公司推出的人工智能工具包,用于开发具有智能性的游戏和虚拟环境。该工具包使用了深度学习、强化学习等AIGC技术,使游戏和虚拟环境具有自主学习和决策能力。(这个例子可以替换为更新更广泛的AIGC相关产品或应用,例如ChatGPT、Stable Diffusion、Synthesia等。)除了Unity Machine Learning Agents,还有许多其他的AIGC相关产品或应用,它们都展示了生成式技术在不同领域的创造力和潜力。ChatGPT:由OpenAI公司开发的基于自然语言生成技术NLG的人工智能聊天平台,它可以根据用户的输入和上下文生成流畅、有趣和合理的对话。ChatGPT不仅可以用于娱乐、教育和社交目的,还可以用于协作创作,例如生成Stable Diffusion等图像生成平台所需的描述词12。Stable Diffusion:由Stability AI公司开发的基于深度学习和强化学习等AIGC技术的图像生成平台,它可以根据用户提供的文字提示和风格类型,以及用户对中间结果的反馈,生成独特、高质量和逼真的图像。Stable Diffusion不仅可以用于艺术创作34,还可以用于游戏开发、广告设计等领域。Synthesia:由Synthesia公司开发的基于深度学习和强化学习等AIGC技术的视频合成平台,它可以根据用户提供的文字或音频输入,以及用户选择或上传的人物形象,生成逼真、同步和定制化的视频。Synthesia不仅可以用于娱乐、教育和社交目的5,还可以用于商业演示、培训视频等领域。 这些AIGC产品或应用都是利用了生成式技术来实现内容创造,并且都具有高度互动性和可定制性。它们为用户提供了更多选择、更多灵感和更多可能性。这些AIGC模型、产品或者应用不仅引领了AIGC技术的发展方向,也展示了AIGC技术在游戏、计算和内容生成领域的广泛应用前景。二、AIGC的技术实现AIGC技术的实现涉及多个方面,包括机器学习、计算机视觉、自然语言处理、优化算法等。下面将对其中几个主要技术进行简要介绍。 机器学习 机器学习是AIGC技术的核心之一。它是一种通过数据训练模型来实现自主学习和智能决策的方法。在AIGC中,机器学习可以被用于创建智能代理,例如游戏角色、机器人等,使它们能够根据不同的游戏状态和用户输入自动地进行决策和行动。机器学习的主要方法包括监督学习、无监督学习、半监督学习和强化学习。 计算机视觉 计算机视觉是另一个重要的AIGC技术。它可以使计算机理解和解释视觉信息,例如图像和视频。在AIGC中,计算机视觉可以被用于游戏中的自适应图形、虚拟现实和增强现实等方面,以及对玩家的行为进行跟踪和分析。计算机视觉的主要方法包括特征提取、图像分类、目标检测和语义分割。 自然语言处理 自然语言处理是另一个重要的AIGC技术。它使计算机能够理解和生成自然语言。在AIGC中,自然语言处理可以被用于游戏中的对话系统、自动生成任务和剧情等方面,以及对玩家输入的语言进行分析和处理。自然语言处理的主要方法包括语音识别、文本分类、情感分析和文本生成。 优化算法 优化算法是AIGC技术中的重要组成部分。它可以使计算机自动优化策略和行动,从而提高游戏和计算系统的效率和性能。在AIGC中,优化算法可以被用于解决强化学习中的探索与利用、高维状态空间等问题,以及在数据分析和决策中进行优化和搜索。优化算法的主要方法包括遗传算法、粒子群算法、蚁群算法和模拟退火算法。 除了上述主要技术之外,AIGC技术还涉及多个其他技术和工具,例如神经网络、深度学习、强化学习等。这些技术和工具相互配合,构成了AIGC技术的核心框,使得游。三、AIGC的优势与不足AIGC(AI生成内容)具有一些明显的优势和不足,这些可以在以下方面进行概述:优势:1. 自动化和效率:AIGC技术能够自动地生成大量的内容,从而提高生产效率。相对于传统的人工创作方式,AIGC可以在短时间内生成大量内容,节省了人力资源和时间成本。2. 创意扩展和多样性:AIGC可以为创作者提供新的创意扩展空间。通过学习和分析大量数据,AIGC能够产生与传统创作方式不同的、创新的内容,从而丰富了创作的多样性。3. 大规模个性化和定制化:AIGC技术可以根据用户的需求和偏好生成个性化的内容。通过分析用户数据和行为模式,AIGC能够提供定制化的体验,满足用户的特定需求。4. 可扩展性和灵活性:AIGC技术可以应用于各种媒体形式,如文字、图像、音频和视频等。它可以适应不同领域和应用场景的需求,具有较高的可扩展性和灵活性。不足:1. 缺乏独创性和创造力:尽管AIGC可以生成大量的内容,但其中可能缺乏真正的独创性和创造力。由于AIGC是通过学习已有数据和模式生成内容,它可能无法创造出完全新颖和独特的创意。2. 潜在的道德和伦理问题:AIGC的应用也引发了一些道德和伦理问题的关注。例如,AIGC可能被用于制造虚假信息、滥用版权或侵犯隐私等问题,需要谨慎使用和监管。3. 依赖于数据质量和训练样本:AIGC的质量和效果很大程度上依赖于用于训练的数据质量和训练样本的多样性。如果训练数据存在偏差或不足,AIGC生成的内容可能存在问题或质量欠佳。4. 人工参与和监督的需求:虽然AIGC具有自动化生成内容的能力,但人工参与和监督仍然是必要的。人类创作者在指导、编辑和审核生成的内容方面发挥着关键作用,确保内容的准确性、合法性和质量四、AIGC的潜在问题除了技术问题和安全问题外,AIGC技术的普及也可能对社会产生一些潜在影响,如劳动力市场的变化、社会秩序的变化等。首先,AIGC技术的普及可能导致一些岗位的消失,特别是那些需要重复性工作的岗位。例如,自动化的制造流程可能导致工厂工人的数量减少。虽然AIGC技术的发展也将创造新的就业机会,如AIGC软件开发人员等,但是需要关注的是是否会出现技能不匹配的问题。其次,AIGC技术的广泛应用也可能导致社会秩序的变化。例如,使用AIGC技术的自动化决策系统可能会对人类的生活方式产生影响,使人们更加依赖机器决策而非个人判断。此外,AIGC技术可能还会影响人类的社交互动模式,例如自动回复系统可能会取代人类的互动。最后,AIGC技术如果滥用,也可能对人类造成潜在威胁,如信息操纵、数据泄露等。例如,虚假信息可能会被AIGC技术扩散得更快,从而引起社会恐慌。此外,AIGC技术也可能被黑客利用来攻击其他系统,从而造成安全风险。这些问题需要得到重视,我们需要制定相应的技术政策和法规,以确保AIGC技术的健康发展,同时避免对人类造成不必要的负面影响。五、AIGC的未来发展AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用。AIGC技术是一个非常重要的人工智能技术,其核心技术包括机器学习、计算机视觉、自然语言处理等多个方面。AIGC技术的应用领域非常广泛,包括游戏开发、数据分析、计算机图形学、自动控制等多个领域。虽然AIGC技术具有很多优势,但也存在一些技术问题和潜在问题,需要得到重视和解决。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。我们需要制定相应的技术政策和法规,以确保AIGC技术的健康发展,为我们提供更加智能、高效、灵活的游戏和计算系统,同时也为人类社会的发展提供重要的技术支持。编辑于 2023-05-29 19:44・IP 属地北京AIGCAIGC应用赞同 8223 条评论分享喜欢收藏申请
一次性搞懂什么是AIGC!(一篇文章22个基本概念) - 数英
一次性搞懂什么是AIGC!(一篇文章22个基本概念) - 数英
热门:
素材资源
下载
娱乐幽默
方法论
数据
趋势创新
盘点榜单
营销
社会化
运营
文章全部文章项目职位人企业
首页
文章
全部
头条
精选
热文
特色专栏
项目
全部
每周项目精选
每月项目精选
海外项目精选
近期热门项目
近期最多收藏
全球奖库
招聘
全部
创意/设计
文案/策划
客户/市场
运营/产品
技术/制作
人
指数
课堂
数英奖
最新收录
头条
热文
精选
人气作者文章
一次性搞懂什么是AIGC!(一篇文章22个基本概念)
原创
赞52
收藏92
评论
举报
2023-06-01
扫描,分享朋友圈
本图由Midjourney生成在未来的天平上,人工智能生成内容AIGC(Artificial Intelligence Generative Content)像磁石一样,正在重新塑造内容创作的布局。想象一下,当机器能够认知我们的常识,当艺术被赋予新的定义,当创造力不再是人类的专利,广告营销行业定将迎来一场生产变革巨浪。数英将持续保持对AIGC领域的关注,通过资讯分享、科普认知、方法总结和深度访谈等,和大家一起,多方位走进AIGC的世界。本期内容,我们将梳理22个AI基础概念,带你搞清楚。关于AIGC往期内容:1、全球巨头21条金句观点,AI是否能替代人类?2、AI 爆火3个月了,广告圈应该关注啥?3、同一个主题“妈妈”,30 张AI 绘画作品分享 (附完整提示词)4、专访SOULO:首支全AI制作短片幕后揭秘,大胆操盘后的分享以ChatGPT、Midjourney为首的AIGC软件出现至今,不过短短半年时间,已经从方方面面浸入到人们的生活里,与此同时,大量专业术语涌入我们视野。AI、AIGC、AGI、Bing AI,ChatGPT……这些字母缩写到底是什么?有什么区别?和广告营销有什么关系?本文将尽可能用最直白通俗的语言,结合广告营销案例,帮你搞清楚互联网上常见的AI术语。一、基本概念/理论1、AI 工作原理AI,全称Artificial Intelligence,人工智能。顾名思义,让机器发展出像人一样的智能,可以看到、听到、思考、判断,然后根据经验作出决策。而AI之所以能够走向现实生活,影响到多个行业领域的生产工作,离不开三个重要技术的支撑:深度学习、神经网络以及生成式对抗网络(GAN)。1)神经网络神经网络是一种模拟人脑神经元连接的算法模型。你可以把神经网络想象成一个大脑。就像大脑由许多神经元相互连接构成,神经网络也由许多"节点"或"神经元"通过"链接"相互连接。这些链接就像我们大脑中的神经连接,可以传递和处理信息。2)深度学习如果说神经网络像一个普通大脑,深度学习则是一个更加“聪明”的大脑。在这个“大脑”里,神经元被组织成许多层,这就像大脑的不同区域处理不同的任务一样。每一层都在学习和处理数据的不同特征或部分。这就使得深度学习能够处理非常复杂的问题,比如识别图像或理解自然语言。3)生成式对抗网络(GAN)GAN技术可以说是推动这次AIGC热潮的关键技术,有了它,AI才能够生成逼真的图像、音频和文本。你可以把GAN的工作原理想象成是一个艺术家和艺术评论家的竞赛。艺术家(生成器)的工作是创造看起来真实的艺术作品,而艺术评论家(判别器)的任务是判断这个作品是否真的来自真正的艺术家,还是来自我们的AI艺术家。艺术家(生成器)开始时可能不太擅长制作逼真的作品,而评论家(判别器)也可能并不擅长识别真伪。但是,随着他们不断的竞争,艺术家的作品变得越来越逼真,评论家的判断能力也越来越强。在这个不断生成和对抗的过程中,AI逐渐学会了如何创作看起来非常真实的作品。2、AI大模型/预训练大模型AI大模型是一种机器学习模型。它可以学习和处理更多的信息,比如图像、文字、声音等,也可以通过训练,完成各种复杂的任务。比如智能语音助手和图像识别软件都会用到AI大模型。这里的「预训练」,可以理解为像学生学习知识一样,机器也需要通过学习和训练来获取相关的知识和技能,来完成各种任务。AI预训练大模型可以通过不同领域的大量训练,掌握知识和技能。由OpenAI公司开发的模型GPT就是一种大型语言模型,也是预训练模型的一种,它能够自动生成各类文本,比如新闻报道、小说,也可以回答问题、写文章、进行对话。GPT是目前自然语言处理领域最为先进的自然语言生成模型之一。3、开源开源可以被理解为分享和合作的一种方式。在计算机编程中,当一个项目是开源的,意味着它的源代码是公开的,任何人都可以查看,修改和分享。想象你正在做一份蛋糕,如果你将蛋糕的配方公开,让所有人都可以制作这个蛋糕,甚至可以根据自己的口味对配方进行修改和优化,那么这个蛋糕的配方就可以被认为是"开源"的。4、自然语言处理(NLP)自然语言处理(NLP)就像是教计算机理解和使用人类语言的一种技术。举个例子,当你对手机说:“打开天气应用,查看明天的天气。”这就涉及到了自然语言处理。你的手机需要理解你的指令——这是什么意思,你想做什么,然后才能执行正确的动作。自然语言处理需要用到很多开源的工具和软件,它们能够帮助研究员处理语言数据,大大降低开发的门槛,让自然语言处理技术的进步的速度变快。5、AIGC是指由AI自动创作生成的内容( AI Generated Content),即AI接收到人下达的任务指令,通过处理人的自然语言,自动生成图片、视频、音频等。打个通俗点的比方,AIGC就像一支马良神笔,拥有的无尽创造力。这支笔的特别之处在于,是由AI打造的。来自AI的理解力、想象力和创作力的加持,它可以根据指定的需求和样式,创作出各种内容:文章、短篇小说、报告、音乐、图像,甚至是视频。AIGC的出现,就像是打开了一个全新的创作世界,为人们提供了无尽的可能性。从用户生成内容(UGC),到专业生成内容(PGC),再到现在的人工智能生成内容(AIGC),我们看到了内容创作方式的巨大变革和进步。6、AIGC和Chat GPT的关系AIGC是AI大模型,特别是自然语言处理模型的一种重要应用;ChatGPT则是AIGC在聊天对话场景的一个具体应用。可以把AIGC看作是一个大的范畴,而ChatGPT是其中一个类别的小应用。7、AIGC可以生成的内容AIGC可以生成的内容很多,具体的种类和范围可能随着技术的发展而不断扩大。目前,一些常见的AIGC内容包括:文字:最基本的AIGC内容,可以与人类进行实时对话,生成不同风格的文字,诗歌、故事,甚至计算机代码等。图像:可以由文字或者图片,直接生成各种类型的图片。可以辅助人类进行绘画设计和发散想象力,大致可以分为图像自主生成工具和图像编辑工具两类。视频:可以通过文字描述,生成一段情节连贯的视频。比如广告片、电影预告片、教学视频、音乐视频等。也可以当作视频的剪辑工具。音频:可以生成逼真的音效,包括语音克隆、语音合成、文本生成特定音,音乐生成、声音效果等。游戏:游戏的剧情设计、角色设计、配音和音乐、美术原画设计、游戏动画、3D模型、地图编辑器等都可以让AIGC帮助完成。虚拟人:可以生成虚拟明星、虚拟恋人、虚拟助手、虚拟朋友等。指存在于非物理世界(如图片、视频、直播、一体服务机、VR)中,并具有多重人类特征的综合产物。二、常见的AIGC应用(一)常用软件8、ChatGPTChatGPT是由OpenAI开发的一款大型预训练语言模型,就像一个会聊天的机器人。它可以理解你说的话,并给出回答。这个机器人在互联网上读了很多书、文章,学到了很多知识,所以可以回答各种问题,甚至进行深入的讨论。不过,ChatGPT的理解与人类不同,人类理解事物时,有意识、经验和情感等多个层次的参与,而ChatGPT只是通过分析和模拟大量的文本数据来"学习"如何合理地回应。9、MidjourneyMidjourney是由美国旧金山的一家独立研究实验室创立的图片类AIGC应用程序,我们可以通过语言描述来生成图片。比如,输入一个苹果,它就会为你生成出一张苹果的图片。10、Stable Diffusion图片生成类AI大模型,可以在给定的任何提示词下生成图像,并支持根据关键词和图片检索。与Midjourney相比,生成图像的结果更可控。11、Bing AIBing AI就是搭载了GPT-4的Bing浏览器,它能够更好地理解用户意图,提供更加智能化、个性化的搜索和服务体验。12、文心一言文心一言是百度全新一代知识增强大语言模型,能够与人对话互动、回答问题、协助创作,具备更强的中文理解能力。13、文心一格文心一格是百度基于文心大模型的文生图系统,搭建的图片生成类AI大模型,可以根据用户输入的指令提示,生成相应的图片。(二)AIGC在广告营销中的运用随着AIGC的浪潮在现实中涌动,多个行业迎来了自我更迭的新机遇,广告行业也开始拥抱AIGC。我们可以从文本应用、图片应用、视频应用、市场分析的四个层面,探寻与AI共事的进击之路。14、文本应用当ChatGPT走进大众视野时,我们看到不少人感叹它强大的表达能力和迅猛的反应能力,无论向它抛出什么样的问题,它都能对答如流,甚至对于同一命题,也能给出许多不同的答案。这样蓬勃的新力量,正被更多品牌看见。今年4月,户外运动品牌The North Face以重回山野为主题,对ChatGPT进行了发问,令人惊喜的是,ChatGPT给予了10000个答案。The North Face《用AI给出10000个重回山野的理由》点击查看项目详情15、图片应用AIGC的出现,不仅提速人们在绘图工作中的效率,更解锁了绘画创作的更多可能性,带来一些在艺术审美上的灵感。不得不说,AI的想象力、审美力和创作力,已然被更多人所见。今年4月,飞猪旅行就使用了AI技术生成了一组世界风景图,并将画面投放至地铁广告里,来往的人都能一睹AI眼里的世界。飞猪旅行《玩得比想象更酷》:用AI生成的世界风景图16、视频应用以往,制作广告的工作流是贯穿线上线下,线上对接脚本,线下注重执行,尤其是现场拍摄,一些不可抗力的因素会影响到计划进度。如今,随着AIGC的横空出世,内容生产的工作流正发生着不小的改变,创作者可以选择纯在线上完成广告任务。即向AI发生任务指令,再通过线上的一些调试,便能形成一支广告片。就在最近,飞书发布了一支广告片《探》,便是纯由AI完成的。飞书《探》:用AI生成画面的广告17、其他营销应用AI不仅仅能够提供创意内容,还能帮助品牌与商家优化媒介投放和客户管理系统。事实上,国内许多To B企业早就应用了AI技术,辅助客户优化营销效果。比如,阿里妈妈发布的序列化智能投放技术,就是借助AI技术帮助商家实现合理投放;巨量引擎则使用了与GPT相同的transformer技术,帮助客户高效提升ROI。三、AI的未来,机遇和挑战共生18、多模态AI在许多专家领袖对于AI的预言中,多模态AI是一个高频关键词。多模态AI,即能够处理和理解多种类型数据(例如图像、文本、音频等)的人工智能。目前的AI技术大多只能处理文字数据,而多模态能够理解更多类型的信息。比如,你在看一部没有字幕的外语电影,而你并不懂这种语言。如果有一个多模态AI,它可以同时理解电影中的视觉和听觉信息,然后把这些信息转化为你能理解的语言,为你提供实时的字幕。这就是多模态AI的应用场景之一,它可以处理并理解多种类型的信息,以帮助我们更好地获取和理解信息。19、AGIArtificial General Intelligence,即“人工通用智能”,这是另一个与AI未来相关的高频词汇。它指AI能够在所有领域中,像人类一样学习各种知识,完成各种任务。AGI是人工智能的一种理想状态,也可以说是AI研究的终极目标,即让机器拥有与人类等同的智能。现在的AI技术,虽然在特定任务上表现出超越人类的能力(如围棋、图像识别等),但它们仍然只是“窄”AI,仅限于特定任务。虽然研究者们对实现AGI的未来充满了希望,但这是否能在未来的某个时刻实现,以及何时能够实现,现在还不得而知。四、AI领域新兴职业20、提示词工程师提示词工程师像是AI模型的导演,负责设计和优化指导AI行动的语言提示。他们了解AI模型的工作原理,并使用这些知识来优化语言提示,从而引导AI模型产生更好的结果。他们的工作可以涵盖多种任务,比如提升AI对问题的理解,优化AI的回答,甚至引导AI生成全新的内容。这项工作更偏向语言艺术和人工智能的交叉领域。21、提示词艺术家提示词艺术家是AI的艺术合作者,用创意和技巧指引AI创建出吸引人的艺术作品。他们可能会使用像Midjourney这样的图片生成模型,通过提供特定的提示词或语句,来生成新奇和独特的文本或图像内容。他们需要有深厚的艺术素养,同时也需要对AI模型的工作原理有一定的理解,以便能够精确地指导模型产生预期的艺术作品。22、人工智能训练师人工智能训练师就像是AI模型的教师,他们主要关注如何训练和优化AI模型。他们为AI模型提供训练数据,监督学习过程,并调整模型参数以改善其性能。这些工作主要涉及到机器学习和深度学习的知识,需要对AI技术有深入的理解。关于AIGC,你还有那些想要了解的问题?请在评论区留言告诉我们~
本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本内容为作者独立观点,不代表数英立场。本文禁止转载,侵权必究。
本文系数英原创,未经允许不得转载。授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。
扫描,分享朋友圈
收藏 92
52
相关推荐
全球巨头21条金句观点,AI是否能替代人类?
同一个主题“妈妈”,30张AI绘画作品分享(附完整提示词)
专访SOULO:首支全AI制作短片幕后揭秘,大胆操盘后的分享
AI爆火3个月了,广告圈应该关注啥?
预测:AI广告行业的16个重构
参与评论
文明发言,无意义评论将很快被删除,异常行为可能被禁言
登录后参与评论
参与评论
文明发言,无意义评论将很快被删除,异常行为可能被禁言
800
发布
推荐评论
暂无评论哦,快来评论一下吧!
全部评论(0条)
作者
Grace
编辑数英 DIGITALING
她关注的人
她的文章 更多
她的项目 更多
近期精选文章更多
更多
猜您可能喜欢
AIGC
AI
人工智能
热点
榜单盘点
行业动态
近期最多收藏
近期最多赞
点击查看更多
数英App扫一扫登录
个人登录
该用户邮箱不存在,请重试!
请输入密码!
登 录
忘记密码?新用户立即注册
数英App扫码,安全登录
打开数英App扫一扫登录
密码登录新注册
资料更新成功!
查看人才库取消
私信
还可以输入300字发布
查看我认领的项目
关闭
查看收藏夹
举报
您为什么要举报此信息?
广告欺诈
淫秽色情
侵权
骚扰、辱骂、歧视
反动、政治敏感
违法犯罪
其它
请输入举报内容
提交取消
关于
关于我们
合作伙伴
手机客户端
加入我们
联系
联系我们
商务合作
广告刊例
投稿
相关信息
帮助中心
意见反馈
用户协议
版权声明
联系客服
关注微信,一起数字进行时
手机扫一扫,下载数英APP
手机扫一扫,下载数英APP
数英网 DIGITALING © 2024沪ICP备13019248号-4沪公网安备31010702001522号
最近大火的AIGC是什么?有什么应用场景和产品? - 知乎
最近大火的AIGC是什么?有什么应用场景和产品? - 知乎首页知乎知学堂发现等你来答切换模式登录/注册产品经理最近大火的AIGC是什么?有什么应用场景和产品?关注者65被浏览126,544关注问题写回答邀请回答好问题添加评论分享33 个回答默认排序网易云商营销事半功倍,增长一步到位 关注AIGC燎原,人们站在风口。据艾媒咨询预测,到 2023 年,中国 AIGC 核心市场规模将达到 79.3 亿元,到 2028 年更是将达到 2767.4 亿元。有人观望,有人投身其中,AIGC在哪个行业落地?AIGC有哪些使用场景?AIGC生成哪些内容?网易云商轻研栏目发起调研,关心大家最关心的问题!在 AIGC 落地的商业领域中,大家最期待的是 AIGC 在办公软件领域的落地,本次调研中有 60.12 % 的人选择该选项。近日,微软宣布将其最新的AI模型 GPT-4 集成进 Office 办公软件中,并将生成式 AI 助手 Copilot 嵌入到微软 365 全家桶中,以实现办公自动化处理,包括 Word 、 Excel 、PowerPoint 、Outlook 和 Teams 等工具套件的升级。此举被业内认为是下一款 AI 超级应用,甚至被评论称为“开启 AI 协同人类办公的时代”。不久之后,百度文心千帆也发布了 AI 结合办公软件,实现了三分钟内完成 ppt 等操作,收费为 0.012元/1000token ,成为用户的智能助手,与金山办公 WPS 一同实现了智能化办公。随着 AI 技术的快速普及和应用,办公行业也能够从中受益。 AI 可以取代简单、复杂的重复性工作,大大提高工作效率,让人们将更多的注意力集中在创造性的工作上。这也将极大地改变未来的生产力和协作工具的形态,并且将对办公工具软件、协同 OA 、 ERP 等领域带来巨大的变化。AIGC 将成为未来职场进阶必备技能在ChatGPT轻研报告(上)报告解读中,我们调研过大家对 AIGC 是否会代替人工的看法,无论从调研结果还是公众共识来看,AIGC 的到来不会替代人,但是会使用 AI 的人将替代不会使用 AI 的人。调查结果显示,已经有 55.12% 的人将 AIGC 应用到工作中,而在职场中,AIGC 则可以帮助使用者成为全能战士。此外, 43.25 % 的人正在学习使用技巧和方法,但是尽管 AIGC 很强大,但如何充分发挥其潜力并不简单。回想第一次使用 ChatGPT 的感受,可能会有些兴奋和紧张。一方面惊叹于 ChatGPT 能够给出与众不同的答案,另一方面则需要快速思考如何提问才能够挖掘出更多的潜力。在这个巨大变革的时代,我们可以通过 AI 得到更好的答案和结果,前提是我们需要准备好问题。《未来简史》一书中提到,随着人工智能的不断发展,人类正在逐渐将决策权交给 AI,直到出现孪生世界,AI 完全理解有关人类世界的所有事情。在这样的世界中,人类可能会变成人神、神人或超人,他们能熟练地使用和驾驭 AI 。因此,随着 AI 应用于各种工作流程之中,未来每个员工都将拥有一个 AI 助手,在不同的工作场景中,协助我们更快地完成任务,减少错误率,提高生产力,节省时间和精力。掌握 AIGC 技能已成为职场进阶必备技能之一,越擅长 AI 应用的人将会拥有更多的优势和加成。此外,有 9.25% 的受访者表示,已经靠 AI 赚到了第一桶金!AIGC 内容时代即将开启文本和图像类型内容最先被 AI 化AIGC 时代的内容生产有两大突破,第一个就是可以分析和归纳语义,给它提供素材和资料,就可以提炼出来结构化的内容。其次是实现了从 0 - 1 的内容生成能力,这点在图片生成上尤为突出。过去,为了生成一张高质量的图片,需要专业的设计师进行手动编辑,这无疑是费时费力的,而且成本也很高。但现在,借助于 AIGC 的技术,我们可以轻松地生成各种各样的图片,这些图片不仅质量高,而且可以在极短的时间内完成。现在,只需要提供指令和要求,即可生成像素级图片,可以说,AIGC的快速发展为内容创作行业带来了巨大的变革和发展机遇。在调研中发现,使用 AIGC 生成的内容中,文本和图像是占比最高的内容形式。在上一期 ChatGPT 轻研解读稿件中,小编试了一下,高度依赖 ChatGPT 和 New Bing 来解读调研报告,真实感受是,AIGC确实已经很强的了,但是从“好用”再到“可用”仍需要人工进行归纳总结。大多数人认为 AI 生成的内容质量很高,创新、准确和生动是其受到认可的主要因素。虽然 AI 生成的能力已经很出色,但在机械感、可信度和准确性方面仍存在局限性,如果进一步提升这些方面的表现,将有利于人们更加认可AI生成内容的质量。AIGC 正在推动各个行业的发展,带来了前所未有的生产力革命。与此同时,我们也需要认真思考如何更好地利用 AIGC ,以最大化地发挥它的潜力,适应这个快速变化的时代。想了解更多AIGC和ChatGPT,可以点击下方链接,欢迎评论区留言讨论!网易云商:不到10%的人熟练使用ChatGPT!揭秘这群高手玩家AIGC + ?= 你最期待的 AI 落地场景 | ChatGPT轻研报告(下)发布于 2023-08-01 17:10赞同 6添加评论分享收藏喜欢收起快乐无止境互联网大厂产品专家。原本可以当医生,却误入互联网的歧途。 关注AIGC(Artificial Intelligence Generated Content),也就是人工智能生成内容。这是继PGC、UGC之后,出现的第三种内容生产方式。简单回顾一下PGC和UGC的发展历程。PGC(Professional Generated Content)专业生成内容,比如最早的新闻门户网站,其实都是官方机构自己写的文章,比较专业,但需要大量人力去生产这些内容。但随着时代演进,发现不对,供求已经不平衡了,再只靠这些专业人士去输出内容,完全赶不上大众消费内容的速度了。但民间有那么多高手,为什么不发动这些人来写有趣的文章呢,还更接地气,能引发共鸣与同理心。于是,UGC(User Generated Content)用户生成内容的内容形态诞生了。继而才会有类似头条、抖音、小红书这样的平台来连接内容供求的两头,内容生产者和内容消费者,通过合理的内容分发机制,让两者都受益。PGC和UGC是从内容生产者的维度去进行划分,而AIGC是从人还是AI生产内容的维度去区别。而人和AI各自的优势在于,人更有创意和情感,而AI更高效和全面。用AI生产内容,无论是文字、图片、视频,只要在合适的指令和框架下,它的效率会更高。但AI生产出来的内容,如果没有人工的润色,千篇一律且往往会出现逻辑混乱,说话刻板,乏味无趣。AIGC应用的场景很多,可以结合自己的工作和生活,不过目前大多是和自媒体相关。通过提示词来生产文章和视频。产品也非常之多,国外的chatGPT、国内的文心一言、kimi chat等,处理图片视频的工具,例如:Midjourney、Heygen、Runway。说到底,AIGC也是生产内容的一种方式,如何利用好AI提高生产效率,同时保证内容质量,才是真正值得去思考的。发布于 2023-12-12 14:27赞同添加评论分享收藏喜欢