欢迎体验得助产品
手机号码
欢迎注册得助智能
注册成功
已为您开启免费试用,全部功能任您体验
扫码添加专属客服,即时为您提供服务
注册尚未完成
现在离开将导致注册失败确定要退出吗?
填写时间过长
页面已停止响应
请在30分钟内完成填写
登录成功
请选择您感兴趣的产品
得助大模型平台
模型训练平台
一站式服务简化大模型训推评全流程
智能体平台
高效、低成本构建大模型企业级应用
知识管理
财富助手
为财富顾问提供一站式智能问答服务
知识助手
组合式AI打造大模型企业知识助手
智能客服
全媒体呼叫中心
全渠道全媒体、一站式AI+呼叫中心
语音机器人
外呼大模型加持,听得准确说得自然
文本机器人
即时文本对话,自研知识引擎
智能陪练
大模型拟真,千人千面沉浸式AI对练
智能运营
音视频服务平台
全场景自研AI+RTC实时音视频服务
OCR识别
高精度、高安全的图文检测识别服务
智能RPA
AI+RPA深度融合,赋能企业自动化
多模态防伪
全链路生物数据核验,守卫安全防线
多模态质检
大模型赋能合规,金融级多模态质检
对话式BI
自然语言交互,可视化智能分析数据
企业出海
全媒体呼叫中心(海外版)
企业跨语种无界沟通,赢占国际市场
文本机器人(海外版)
多语言国际服务,跨时区沟通无障碍
语音机器人(海外版)
多语言智能交互助力全球营销与服务
智能质检(海外版)
大模型赋能国际企业多模态质检服务
智能营销
企微SCRM
智能营销服引擎,高效转化私域流量
营销平台
打通营销全链路,赋能企业增速业务
企业直播
打造超低延迟、超稳定的直播平台
其他
通用人力外包
为企业提供多场景、高质量专业服务
线路
安全稳定、应用多场景的线路服务
描述具体需求(选填)
欢迎微信扫码咨询
中关村科金得助智能-小得
产品功能
2024-03-05 15:06:30
作者:科技蓝
阅读量:671
文章目录
2024年开年,Sora的横空出世,给AI界投下一枚重磅炸弹。
这个由美国人工智能公司OpenAI发布的文生视频模型,只需要一段提示文本,就能生成具有多个角色和特定动作类型,且主题和背景基本准确的高清视频。相较于Runway Gen 2、Pika等AI视频生成应用几秒钟连贯性的视频产出,Sora可生成长达60秒的连续、稳定、高品质视频,且提示文本越充分、细节越精确,生成的视频越真实。
不过,出于可能被滥用的担忧,OpenAI表示目前并没有公开发布Sora的计划。模型有限的访问权限只被授予小部分研究人员和创意人士等群体,以便OpenAI获取他们的使用反馈。
目前,官网上已更新了48个Sora生成的演示视频。这些视频清晰且真实的细节和超高的精度不禁引发人们思考:这是否意味着具备人类同等智能或超越人类智能的通用人工智能(AGI)的到来?
对研究AGI意义重大
Sora问世后,360集团创始人周鸿祎发表了看法:Sora的出现让AGI到来的时间提前了。原来估计需要十来年,现在可能只要两三年。他认为,Sora虽然看起来只是个文生视频工具,但实际上是AI认知世界并与之进行交互的里程碑,会给整个产业带来巨大进步。
“实现AGI的技术路线多样,涉及不同的研究方法和应用方向。”中国科学院自动化研究所副总工程师、紫东太初大模型中心常务副主任王金桥向科技日报记者介绍,目前,学术界和工业界广泛讨论的AGI技术路线主要有三条。一是信息智能,即“大数据+自监督学习+大算力”。这种方法依赖大量数据,通过自监督学习算法来训练模型,同时需要巨大的计算能力来处理复杂任务。二是博弈智能。这种技术路线强调在人机交互中通过强化学习的方式训练智能体,使其能进行自主学习和决策。三是类脑智能。这种方法试图通过模仿人脑的运行方式实现AGI。
在王金桥看来,根据官网的演示视频,Sora至少在画质、长视频生成、多镜头一致性、学习世界规律、多模态融合等方面实现突破。
“Sora能引发如此轰动,并不只是因为它生成的视频时间更长、清晰度更高,而是因为它能在一定程度上模拟物理世界中的物体运动和交互。”王金桥说,“这种能力对于AGI的研究具有重要意义,因为它涉及机器对现实世界的深入理解和高度模拟,而这些是实现AGI的核心挑战。”
记者了解到,为了准确模拟物理世界,Sora被投喂了极大规模的训练数据,并使用了扩散模型等先进的算法。“对于AGI而言,Sora让大家看到,规模效应不只在文字模态上成立,在视频模态上也成立。”北京月之暗面科技有限公司(Moonshot AI)联合创始人周昕宇认为,“通过扩展视频生成模型可以建立通用物理世界模拟器。这是实现AGI的必要过程。”
距真正实现AGI仍有距离
虽然进步显著、令人惊艳,但Sora仍然存在一些技术缺陷。
从目前Sora生成的视频来看,它在处理某些细节时可能会出错,例如混淆物体的左右方向。同时,它也无法完全理解复杂的因果关系,或在长时间跨度内保持故事线的高度一致连贯。这些技术缺陷导致生成的视频内容可能出现与逻辑错误,或与常识、真实情形不符的情况。
“Sora模拟真实物理世界的方式,是通过对给定的文字、图像、参考视频进行建模,然后预测想要生成的视频数据的条件概率分布。这与语言模型的原理没有本质区别,同样是在做无损压缩。”周昕宇说,“只要压缩得足够好,就可以模拟出足够真实的物理世界。”
王金桥强调,尽管Sora能够通过学习了解表层的运动和交互关系,但是还没有学习到物理规律的本质。比如,它不知道多大的风能吹灭蜡烛,不了解玻璃掉到地上会碎、掉到地毯上不会碎的本质原因。这也是Sora目前最为人诟病之处。
“从Sora为数不多的公开资料来看,它仍是数据驱动下的拟合,也就是模拟人类所能看到的物理世界。但真实的物理世界远不仅包含人类视觉信息。”北京中关村科金技术有限公司技术副总裁张杰认为,Sora的创意来自大数据量下的概率拟合,它并没有产生新知识,距离“深度模拟真实物理世界”这一目标还有很长的路要走。
中国社会科学院哲学研究所科技哲学研究室主任、研究员段伟文同样表达了审慎的观点。“Sora这种近乎人类的表达实际上是一种基于现有数据和语料的合成智能。”他说,“它给实现AGI找到了一种可行的路径,但距真正的AGI还有很长的距离,且对实现AGI的价值相对有限。”
事实上,实现AGI这一目标可谓道阻且长。王金桥谈到了几大挑战。首先是数据瓶颈。尽管像GPT-4这样的预训练语言模型在数据标注上取得了进展,但数据依然是深度学习中的一个关键限制因素;其次是泛化瓶颈。目前的AI系统往往在特定任务上表现出色,但在面对新任务时难以有效适应;最后是能耗瓶颈。随着AI模型变得越来越复杂,所需的计算资源和能源消耗也越来越大。这对硬件设备提出了更高要求。
或将率先落地传媒领域
Sora的发布不仅推动了技术的发展,也引发了对AI治理和伦理的探讨。
段伟文提到,OpenAI采取了相关手段来阻止不当视频的发布。王金桥进一步解释道, Sora内置的文本提示过滤器可筛选发送给模型的所有提示,阻止对暴力、色情内容、仇恨言论以及名人肖像等敏感或不适当内容的请求。视频内容过滤器能检查生成的视频帧,屏蔽违反OpenAI安全政策的内容。
另外,OpenAI团队可能会定期对Sora进行优化和更新,以改进其过滤机制,确保模型能够更好地识别和处理敏感内容。同时,团队可能会监控系统的使用情况,以便及时发现并解决新出现的问题。
“从技术上看,Sora避免极端暴力、色情、名人肖像等内容出现的方式,主要依靠的是模型的对齐能力。”周昕宇说,“这一点和语言模型的区别不大,也已经有比较多的实践经验。”
据国际数据公司预测,Sora将率先在短视频、广告、互动娱乐、影视制作和媒体等传媒领域得到应用。Sora的诸多能力,可以辅助这些领域的工作者更高效地进行视频创作,加快生产速度,提高产出数量。这将助力相关行业降低成本、提升效率,进一步优化用户体验。
点击免费试用,助力企业服务营销数字化升级>>
在当今这个知识经济时代,对于国企研究院的从业者而言,知识就是核心竞争力。但随着信息的爆炸式增长,海量...
如何高效管理知识资源,提升企业整体运营效率,成为了制造国企亟待解决的关键问题。AI知识库的出现,犹如...
AI知识库让企业服务更智能:自动生成精准答案、1分钟提取百页文档关键信息,客户支持效率提升50%,营...
知识库适用什么样的业务场景呢?可以用在金融投资领域市场数据、客服部门的产品政策、医疗健康领域的医疗诊...
在数字化转型浪潮中,央国企作为国民经济的中流砥柱,正面临知识管理效率提升的迫切挑战。海量业务资料、跨...
央国企作为国民经济的重要支柱,正面临着知识管理效率提升的迫切需求。海量的业务资料、行业经验和政策文件...