文章目录
引爆内容生产力
GPT-4的重大突破便是除了处理文本内容,还可以处理图像内容。用户可以同时输入文本内容和图像内容,GPT-4将根据这些内容生成语言、代码等。在官方演示中,GPT-4只用了2秒左右的时间就完成了网站图片的识别,生成了网页代码,并制作出了相应的网站。除了普通图像,GPT-4还能够处理论文截图、漫画等内容复杂的图像,提炼其中的要点内容。
应用场景:ChatGPT的多场景应用
传媒
能够自动策划、编写新闻,实现新闻自动化采编,帮助传媒企业更加快速、精准地生成内容。
电商
打造虚拟客服,减少成本
影视
分析海量剧本,并通过对分析结果的总结和归纳,为影视创作者提供更符合观众需求的创作思路
ChatGPT也能够按照预设风格自动生成剧本,影视创作者可以对ChatGPT生成的剧本进行筛选、加工和优化,以更好地完善剧本,缩短影视作品的创作周期。
教育
实时生成教育资料,为学生解答学习疑惑,提升了学生学习的自主性。同时还能生成课件
金融
打造虚拟客服
医疗
打造虚拟客服,辅助医院录入电子病历
发展梳理:从PGC到UGC再到AIGC
PGC:企业和平台是内容创作的主体
专家通过专业的方式将信息整合在一起,信息内容具备更高的质量和专业度,这种内容生产方式被称为PGC
UGC:用户成为内容创作主体
UGC这一内容生产方式迎来爆发式增长,逐渐成为内容生产新趋势,内容创作主体也逐渐从企业和平台转变为用户。专业性已经不再是内容创作的主要门槛,非专业人士也能够创作出大众喜闻乐见的内容,互联网迎来了用户创作内容的新时代。
AIGC
AI成为内容创作主体
内容生成:AIGC涵盖多样的内容模态
AI图像:AI绘画趋于普遍
内容生成:AIGC涵盖多样的内容模态,如下图所示:
AI音乐:谷歌AI模型MusicLM实现音乐即兴创作
2023年1月27日,谷歌发布AI内容生成领域的新模型—MusicLM。这是继视频生成工具Imagen Video、文本生成模型Wordcraft之后,谷歌再次推出的内容生成式AI模型,该模型瞄准了音乐创作领域。
技术构成:AIGC实现的关键技术
多模态交互技术实现了文字、语音、视觉、动作4个方面的感官交互,使用户与计算机的交互从单模态走向多模态,为AIGC智能创作赋能。
产业发展面临的挑战
知识产权挑战:数字内容存在版权风险
AIGC开发、应用过程中会涉及知识产权问题,因为AI模型的打造需要依靠海量数据进行模型训练,而这些数据内容往往是受版权法保护的。如果AIGC相关公司擅自收集、使用这些数据,就会造成侵权。
AI视频合成、AI视频创作的内容,如果没有获得原始视频作者的许可,也会造成侵权。例如,一些AIGC应用可以通过AI换脸生成新视频,但如果没有获得人物肖像授权、视频内容授权等,就存在侵权问题。
那么,AIGC发展过程中的版权风险应如何避免?一方面,可以补充、完善版权内容合理使用的情形。例如,公司对作品的使用不损害著作权人的权益,公司就可以自由使用该作品。如果著作权人明确了该作品的使用群体,那么公司需要遵守其规定。
另一方面,可以搭建完善的作品退出机制。例如,公司在将作品添加到自己的训练数据库之前,可以给予著作权人一定的期限,允许其自由选择是否将自己的作品从数据库中删除。如果著作权人反对将作品添加到数据库中,那么公司需要删除相关作品;如果著作权人不反对将作品添加到数据库中,那么公司可以将其作品用于模型训练。
总之,以上两种方法只是未来的两种可行路径,AIGC生成内容的知识产权问题仍在讨论之中。只有解决这个问题,AIGC产业才能够进一步繁荣发展。
市场现状:巨头抢占市场新蓝海
字节跳动:发力AI视频生成
字节跳动在剪映App中搭载了AI视频生成系统,该系统有三大功能:视频自动剪辑、视频属性编辑和文字生成视频。
视频自动剪辑大多应用于直播领域,能够截取主播的有趣片段并发布;
视频自动剪辑大多应用于直播领域,能够截取主播的有趣片段并发布;
视频自动剪辑大多应用于直播领域,能够截取主播的有趣片段并发布;
百度:全栈布局AI技术,以AI虚拟数字人发力
在AI虚拟数字人方面,百度推出的数字人平台—曦灵,能够打造面向各种行业的AI虚拟数字人。截至2023年2月,百度已经打造了几十位AI虚拟数字人,应用于金融、传媒、影视等行业。
谷歌:推出多种AIGC产品
借助AI写作助手(LaMDA Wordcraft)、AI生成图片(AI模型Imagen)、AI生成音乐(AI音乐生成工具MusicLM),谷歌实现了全方面的AIGC产品布局,为其AIGC产业生态的形成奠定了基础。
AIGC+传媒:人机协同,赋能媒体创作
AIGC渗透传媒多环节
如今,AIGC逐渐渗透传媒领域的多个环节,包括采编、传播、互动等,逐渐实现了新闻内容自动生成、虚拟主播自动播报、机器人实时互动。AIGC在传媒领域的应用展现了人工智能的核心优势,进一步推动了媒体工作的智能化、自动化升级。
采编:语音识别转文字工具+新闻内容生成工具+视频剪辑工具
语音识别转文字工具
在采访的过程中,一部具有语音识别转文字功能的智能手机便可充当AI录音笔、AI记事本等工具,从而帮助采编记者提升编稿效率
新闻内容生成工具
今日头条推出一款能够自动生成新闻内容的软件,名为“今日头条自动生成原创软件”。
该款软件能够根据用户实时输入的内容要点和关键字自动生成原创新闻内容,并具备语音识别、文章标题生成、文章内容生成、文章定位标签、关键字匹配及图片批量上传等功能。
视频剪辑工具
剪映和喵影工厂是两个例子
传播:虚拟主播自动播报
以下是虚拟主播在新闻传播环节中的主要应用价值
- 应用范围不断拓展
- 应用场景不断升级
- 应用形态日趋完善
AIGC+影视:智能创作,为影视创作提供新思路
内容生产逐渐进入AIGC时代,众多企业纷纷进入AIGC赛道,影视企业也不例外。AIGC使影视剧本的创作更加智能、高效,其在影视创作领域得到了广泛应用。
剧本数据分析+内容智能生成,形成剧本初稿
在前期创作剧本时,影视企业能够借助AI对海量剧本数据进行整理、分析和归纳,并按照剧本预设风格快速生成剧本内容,缩短剧本创作周期。影视企业通过AIGC创作出来的剧本,更能迎合观众的喜好。
如今,众多国内影视科技公司也开始探索并提供智能剧本内容生成服务。
2022年,DeepMind推出助力剧本创作的大型语言模型系统—Dramatron。该系统能够利用生成式AI对剧本的整体纲要和关键词进行理解和解读,并以分析的结果为依据生成基础剧本。该系统创作剧本的主要优势是以更低的成本生成更加专业化的剧本内容。
2023年2月,新电商大数据营销分析平台“有米有数”结合ChatGPT推出了AI剧本工具,为影视企业在剧本创作方面提供了更多的思路和灵感,为剧本创意的规模化生产提供了更多的可能性。在使用AI剧本工具时,创作者可以通过在剧本创作系统输入剧本主题和关键词,一键生成创意剧本脚本。
AIGC在剧本创作领域的应用不仅降低了影视企业剧本创作的成本,还大幅提升了影视企业剧本创作的效率和质量。
海马轻帆:AI写作实现小说转剧本
将小说改编成剧本是一个复杂且漫长的过程,其中涉及了内容格式、场景、台词的修改及人物角色的戏量统计,往往需要耗费大量的时间和精力,而AIGC改变了这一现状。
以海马轻帆为例,创作者登录海马轻帆网站,进入创作平台的“智能写作”界面,将小说内容复制粘贴至“小说转剧本”的文本框中,便能够一键生成或转换剧本格式。
海马轻帆还上线了角色戏量统计、一键调整剧本格式、剧本智能评估、短剧分场脚本导出、海量创作灵感素材库等功能。
海马轻帆自研算法根据不同剧本的特征,针对场次分析、剧情评价、人物特征及角色关系等多模块搭建了评价指标体系,帮助企业进行剧本的初期筛选,解决了影视企业剧本创作高耗时、低产出的问题。
由海马轻帆AI撰写的微短剧《契约夫妇离婚吧》在快手播放量已经破亿。
如今,海马轻帆已经具备较高的行业渗透率,推动了剧本改编的新变革,帮助剧本创作者更加精准地抓住内容的逻辑、主旨和特色,实现剧本的高效、高质量改编。
AIGC实现角色和场景创作
AIGC实现虚拟演员打造
随着AIGC不断深入发展,影视企业塑造作品角色不再依赖于真人扮演,而是逐渐将注意力转移至虚拟演员打造。
天工异彩通过AI深度学习、AI文本驱动、AI动作捕捉系统实时整理并生成人物表情动作,使白小宇的人物形象更加真实、丰满。
AIGC虚拟场景制作节省影视成本
AIGC在角色互动、场景互动、虚拟化身等方面赋能动画制作,给观众带来临场感更强的观看体验。例如,实验性动画短片《犬与少年》的部分场景就是由AI搭建的,创新了场景搭建的方式。
AIGC已经成为搭建虚拟场景的重要工具,其在搭建3D模型和制作场景特效方面发挥着越来越重要的作用。例如,英伟达推出的AIGC模型—GET3D,具备生成空间纹理的3D网格功能,能够根据深度学习模型和训练模型实时合成具有高保真纹理的复杂场景。
GET3D常被应用于影视剧拍摄过程中虚拟场景的搭建。
智能剪辑,升级后期制作
在视频的后期制作中,AIGC能够基于图像识别技术,自动识别出视频中的内容,搜集和提取符合视频主题的片段,节省收集和整理视频素材的时间。例如,视频中的人物是哪个角色,由哪位演员扮演的,哪里出现了长城的镜头,哪里出现了人物对话,等等。
AIGC能够分析和理解镜头语言,学习剪辑规则,根据剪辑师输入的文本剪辑视频。例如,剪辑师可以在视频剪辑系统中输入“这是一个由远及近的镜头,节奏慢,色调昏暗;视频主角在第5秒入画,第30秒出画,动作是推着自行车在巷子里缓慢地前行;主角神情落寞,情绪低沉,眼角不断流下泪水”。AIGC在对文本内容进行充分的语义理解后,便能够自主学习预先设定好的剪辑规则,对视频进行精剪、拼接和合成,最终生成一段衔接完整的视频片段。
使用Magisto剪辑视频,剪辑师只需要将自己想要剪辑的影片素材、影片风格和背景音乐输入剪辑系统,系统便能够自动生成带有情绪导向的影片。
Premiere Pro也是一款比较受欢迎的视频剪辑软件,其具备精准的视频色彩匹配功能,能够自主识别影片素材的不同色彩,并将色彩进行统一调整和适配。同时,该款软件能够将视频片段进行自动分类和整合,提升剪辑的效率。
内容修复:修复影视内容
老旧影片大多是用胶片存储的,磨损情况较为严重。创业团队不仅需要用AI算法对影片局部进行光线平衡和防抖处理,还需要运用上色算法对影片重新上色,对影片的画质进行升级
内容形式转换:影视内容2D自动转3D
聚力维度专注于AI在2D影片转3D影片领域内的深度应用,给3D影片制作产业的发展注入了新的活力
AIGC+娱乐:边界扩展,带来多重新奇体验
“AI动漫脸”成为破圈利器,引发用户参与
虚拟偶像内容创作,激发粉丝热情
短视频内容创作,为创作者提供创意辅助
虚拟形象创作,连接虚拟世界与现实世界
游戏内容创作,AIGC释放游戏活力
音乐内容制作,更新音乐体验
AIGC+教育:双管齐下,推动教育“数智”转型
在AIGC的助力下,教学主体、教学工具、教学场景走向虚拟化,给学生带来全新的教学体验。
AIGC推动教育智能化变革
智能生成3D场景,实现虚实交互
虚拟校园:虚拟校园即借助3D虚拟现实技术、三维建模等技术,生成与真实校园场景一模一样的虚拟学习环境。
虚拟实验室:虚拟实验室可以满足学生参与各种实验的需求。学生不再受到时间、地域的限制,只要设备安装了虚拟实验室,学生便可以进行操作,提高了学习自由度。
AIGC+工业:工具革新,工业设计模式迭代
英伟达:AIGC赛道不断布局
Omniverse平台:AI实现内容生产
Omniverse平台能够帮助工程师、创作者和设计师构建设计工具、项目和资产之间的连接,在共享空间中实现内容的协作生产。
Omniverse平台的主要应用如下:
Omniverse Avatar:Omniverse Avatar采用了自然语言理解、计算机视觉、语音人工智能和推荐引擎模拟等技术,能够生成交互式人工智能化身。Omniverse Avatar能够创建敏捷的AI助手。
Omniverse Replicator:Omniverse Replicator是一款合成数据生成引擎,主要用于生成训练深度神经网络的物理模拟合成数据。
Omniverse Audio2Face:Omniverse Audio2Face可以根据创作者提供的音轨自动生成3D角色动画,角色类型主要包括电影角色、游戏角色和虚拟数字助手等。创作者可以将Omniverse Audio2Face作为传统的面部动画创作工具,也可以将其作为交互式应用角色的创建工具。
Omniverse Create:主要应用于高级场景的合成,其主要基于USD工作流的大规模场景而构建。支持骨骼动画创作、混合形状搭建、动画剪辑和动画缓存等功能,并具备高级仿真功能,能够对虚拟场景进行立体重塑,使其达到最接近真实的效果。
Omniverse Machinima:主要应用于动画电影的创作,能够将虚拟世界中的角色和场景进行自然的融合,组成更加生动、逼真的动画场景。
Omniverse View:Omniverse View是一款便捷且强大的可视化应用,能够为创作者提供丰富的场景预设素材。例如,创作者想要为动画绘制天气状况,Omniverse View便能够为创作者提供预设的一系列形态的太阳和动态的云等素材。
Magic3D:3D模型智能生成应用
在使用Magic3D时,创作者只需要输入自己想要创建的3D模型特征,如一只伏在树上的绿色毒蜥蜴,Magic3D便能够在40分钟内生成符合提示语特征的3D网格模型,并为模型填充纹理特征。
Magic3D使用Instant NGP的哈希特征编码,节约了高分辨率图像特征的计算成本。其生成的每个3D模型都有无纹理渲染,在生成的过程中往往能够自动删除图像的背景,以更好地专注于实际的3D模型。因此,Magic3D生成的3D模型往往都具备清晰的纹理。
Magic3D的两个阶段:
- 在第一阶段:首先使用eDiff-I作为模型进行文本—图像扩散先验,并通过对Instant NGP的优化生成初始的3D模型;其次计算Score Distillation Sampling的损失,从Instant NGP中提取粗略模型;最后使用稀疏加速结构和散列网络加速结构生成,并根据图像渲染的损耗从低分辨率图像中建模。
- 在第二阶段:研究团队使用高分辨率潜在扩散模型(LDM),不断抽样和渲染第一阶段的粗略模型,并利用交互渲染器对图像进行优化,以生成高分辨率的渲染图像。
创投机遇:找准方向,抓住时代机遇
以产品入局:多角度打造AIGC产品
文字生成:腾讯推出自动化新闻撰稿机器人Dreamwriter
Dreamwriter的写作流程大致包含5个环节,分别是建立数据库、机器学习、写作、审核、分发。
以下是Dreamwriter未来可能拓展的其他应用模式和功能。
- 提供基于互联网的UGC新闻信息服务。在此种模式下,写作机器人能够从微信、微博等UGC平台上搜集新闻素材,并自动组稿,帮助新闻编辑及时挖掘新闻热点。
- 利用语音技术实现新闻信息播报。
- 创新性写作。让读者无法分辨新闻内容是由机器人撰写的,还是由新闻编辑撰写的。
- 读者细分管理。提升读者与平台的交互体验,进一步提升读者的满意度。
视频生成:Meta公司推出文字生成短视频系统Make-A-Video
音频生成:喜马拉雅为创作者提供AI音频合成工具
TTS音色难以演绎小说
基于不断的技术创新,喜马拉雅用TTS合成的AIGC音频已经能够“以假乱真”。如今,TTS技术已经能够输出多种情感、风格的音频,广泛应用于新闻、小说、财经等领域的音频内容创作中。
跨语言合成
这项技术的难点在于A本人只会讲普通话,我们却需要AI模仿A的声音说客家话。
语音转文字技术
许多音频节目不会特意匹配字幕,导致听众很难听清节目讲的是什么。为了解决这个痛点,喜马拉雅将语音转文字技术ASR和能够将超长音频与文本对齐的算法结合,推出了AI文稿功能。
未来图景:未来已来,迎接AI下一个时代
技术趋势:AI技术迭代深化AIGC发展
AIGC技术的发展可以划分为基于规则或模板的前深度学习阶段、基于深度神经网络的深度学习阶段、基于大模型和多模态的超级深度学习阶段
深度学习技术迭代,AIGC内容产出更加智能
前深度学习阶段:前深度学习阶段AIGC生成的内容往往存在刻板、空洞、文本混乱等问题
深度学习阶段:深度学习阶段在网络结构和学习范式上的不断迭代极大地提升了AI算法的学习能力
超级深度学习阶段:在超级深度学习阶段,AIGC的发展主要依赖于两种大模型,分别是视觉大模型和语言大模型
- 视觉大模型增强AIGC内容感知力:以视觉Transformer为代表的新型神经网络以其模型的易拓展性、计算的高并行性和优异的性能正在成为视觉内容生成领域的基础网络框架。同时,基于视觉Transformer完成多种任务感知的联合学习将成为AIGC领域的研究热点。
- 语言大模型提升AIGC认知能力:基于语言的大模型技术能够充分利用无标注文本进行预训练,以赋予文本大模型在零散数据集、小数据集场景下更加稳定的内容理解和生成能力。
多模态技术发展,AIGC模型通用化能力更强
在多模态技术的发展中,预训练模型已逐渐从单一的CV模型或NLP模型,发展到图形图像、音视频、语言文字等多模态、跨模态模型。
而跨模态预训练模型的成熟推动了AIGC内容的高质量产出,跨模态预训练模型具备优异的AI落地能力,能够使AI在安防行业快速落地,并得到有效应用。
MaaS有望成为现实
MaaS(Model as a Service,模型即服务)的产业结构核心路径是从模型到单点工具,再到应用场景,大模型是MaaS的主要基座。
随着预训练模型的兴起,以魔搭社区为代表的模型社区将成为AIGC时代重要的基础设施。魔搭社区将AI模型提供给广大模型开发者,让AI惠及全社会。
参与主体扩散:由B端向C端扩散
To B端的AIGC产品丰富,赋能企业发展
To C端的AIGC工具多样,引发用户多种消费
行业应用赛道拓宽:行业渗透不断提升
生成式AI取得算法突破,AIGC进入了应用爆发期,应用赛道不断拓宽,逐步向金属、机械、银行等行业扩展,打开了全新的成长空间
金属行业:优化行业管理全流程
ChatGPT对金属行业的助力主要表现在4个方面,如下图所示
机械行业:机械设备智能升级
大模型变革生产力工具
大模型可以应用于机械行业的人形机器人中,提升人形机器人的智能程度。
落地场景蔓延:渗透生活的方方面面
数字员工多领域落地,解放人工
AIGC能够持续为数字员工赋能,加快提升数字员工的数智化水平,在内外部沟通时发挥重要作用
数字员工已经在多领域落地。未来,数字员工将会进一步发展,与人类一起迈向智慧水平的新高度和文明发展的新阶段。
AIGC营销多领域落地,自动生成视频
当用户还在为AIGC技术感到新奇时,TikTok已经开始招募AI工程师,试图将AIGC在视频行业落地。TikTok是一个短视频平台,平台中的内容具有复制性。
TikTok如果能将AIGC融入广告业务中,那么广告主可以利用AI生成的创意视频进行大规模营销推广,在实现自身更好发展的同时推动TikTok进一步繁荣。