智象多模态生成大模型3.0发布,梅涛:AI迈向市场化应用需要跨越两个鸿沟
年末岁尾,AI视频生成赛道的玩家变得更加“激进”:Sora正式发布、谷歌推出Veo 2模型、可灵AI宣布升级……12月28日,在安徽人工智能产业先导区启动活动上,智象未来宣布发布智象多模态理解大模型1.0以及智象多模态生成大模型全面升级至3.0。
据加拿大工程院外籍院士、智象未来创始人兼CEO梅涛介绍,本次智象多模态生成大模型3.0带来了图像和视频生成能力的全面升级,具体包含了画面质量与相关性提升、镜头运动和画面运动更可控以及多场景驱动的优化;理解大模型则通过对物体级别的画面建模以及事件级别的时空建模,实现更精细、准确的图像与视频内容理解。
在现场,梅涛回顾了过去一年人工智能发展的五个标志性事件:首先Sora的出现标志着视觉生成领域取得了重大突然;其次GPT-4o的发布体现大语言模型从单一模态向多模态的跨越;紧接着GPT-o1的推出让大家的关注点从大规模预训练转向推理优化;大模型技术正在促进具身智能快速发展,以及AI正在成为推动科学研究进步的重要力量之一。梅涛也指出当前人工智能技术仍处于快速发展的初级阶段,“在AI迈向市场化应用的过程中,我们需要跨域两个鸿沟。”
除了产品迭代升级,在融资上智象未来近日也释放出了好消息。据报道,智象未来继完成敦鸿资本领投的Pre-A轮融资后,又新获以合肥产投为主的国资基金领投的A轮融资,融资规模共计数亿人民币。
假设Scaling Law持续有效下创业公司的思考
事关大模型,似乎总有吵不完的架:从开源到闭源之争、到大语言和多模态模型谁代表未来,再到Scaling Law是否“撞墙”。
近日OpenAI前首席科学家Ilya在NeurIPS 2024会议指出:Pre-training as we know it will end.what comes next is superintelligence: agentic, reasons, understands and is self aware.(我们所熟知的预训练即将终结,接下来将是超级智能:代理、推理、理解和自我意识。)
演讲结束后,在AI社区很快遭到了不少业内人士的反驳,一是对他判断背后的理由——数据即将枯竭存疑,二是预训练即将结束的判断引起了Scaling Law可能失效的焦虑。
作为AI创业者,梅涛没有给这一问题下结论,而是假设Scaling Law一直有效的情况下,对5年后大模型研发资源进行了预判:模型计算量增加10000倍、算力规模增加10000倍、预训练费用增加250倍、数据增加1000倍、能源需求增加200倍。
在需要如此大规模的投入下,大模型的研发如何持续,创业公司又该如何持续增长?梅涛分享了智象未来的几个方面的思考,第一个思考是未来多模态大模型一定是通往AGI的必经之路,在他想象中,这条通往AGI的路线,是从单一的文本模态过渡到多模态,多模态理解再到多模态生成,最后多模态生成和理解实现统一。
第二个思考是大模型研发正在从一个预训练步入推理优化阶段,梅涛表示在OpenAI的o1发布之前,大模型公司的开销基本花在预训练上,o1推出后很快把推理的优化赋能到大模型上,使得大模型的能力再提升一个台阶。
第三个思考是人工智能还处于快速发展的初级阶段,在迈向市场化应用的过程中,梅涛指出会出现两个“鸿沟”:一是怎么样从模型到专业用户的跨越,他认为今天的AI模型虽然庞大、功能很强,但仍存在概率性的“幻觉”现象。二是如何将服务于专业用户的能力普及至普通用户群体,降低使用大模型的门槛。“我们在不断寻求产品市场的契合点,试图解决用户需求的‘最后一公里’问题。”梅涛也表示基础模型的建设仍要继续投入,这是支撑AI企业持续发展的根基所在。
“高质量的版权数据资产,将成为人工智能企业核心竞争之一。”这是梅涛分享的第四个思考,他阐述道2028年有理由相信大模型会把人类所产生的现有的、现成的数据消耗掉,“面对未来可能出现的数据匮乏情况,我们应当提前布局,思考应对策略。”
基于这些思考,从2023年3月成立之初,智象未来就明确了“1+3+N”的商业化布局。即以1个大模型为基础,通过3条产品线形成市场触点,深度了解用户需求,满足使用场景,服务商业环境。
在大模型方面,目前智象未来已经自主研发了对标OpenAI Sora的全球首个商用的百亿级参数视频生成大模型,相关模型及产品在全球视觉生成式大模型中位居前列。
在数据方面,公司具有国内丰富的多模态版权语料,拥有数十万小时版权视频素材,上万个授权IP,涵盖国内70%影视数据,已形成上亿条AIGC二创素材,在影视、文旅、通信、营销、教育等场景得到广泛应用。
在商业化方面,已累计服务了全球一百多个国家和地区的一千多万个人用户和四万多家企业客户,其中包括中国移动(600941)、中国联通、人民网、央视网、联想、科大讯飞(002230)、商汤、微软、上影、华策、彩讯、捷成世纪等头部企业。
“全家桶”焕新亮相满足多行业的应用需求
智象多模态生成大模型3.0和智象多模态理解大模型1.0正式发布后,理解大模型将进一步服务于理解增强的多模态生成技术,搭配多模态生成大模型实现多模态检索+多模态内容编辑与生成的二创平台系统,进一步降低用户的使用门槛,并且大幅提升基于IP的多模态内容生成效果。
基于模型的升级,智象未来旗下的“全家桶”产品——智象创作工具平台、智象互动营销平台、智象一站式视频平台也焕新亮相。
智象创作工具平台:在全新迭代的版本中,智象创作者平台可以实现与用户的自然语言交互,在原有文生视频的基础上,增加了对视频局部进行语音指令输入的调整。还可以基于用户上传的视频内容,整理成相关的模型输出指令。
智象互动营销平台:针对企业全球化营销推广中,遇到的营销素材迭代周期快、裂变传播素材多、地域营销数据繁杂等行业痛点。智象互动营销平台在原有的全球商品上架、建站素材生成两大解决方案的基础上,推出适用于不同业务场景的一站式营销素材生成方案,能够依据推广数据实时动态迭代呈现效果,对在营销推广中反馈效果良好的优质素材予以快速拆解并分发,同时提供全链路,多维度的海量全球营销数据参考。
基于服装行业单客户年度GMV1000万美元规模来测算,同类素材AIGC生成后下单转化率环比提升15%,投放消耗环比提升10%,全站投放转化率环比提升1.5%。
智象一站式视频平台:此平台不仅能够基于客户需求提供定制化的AIGC视频服务,还将智象多模态大模型的能力与内容产业深度融合。
在社区层面,为创作者提供源源不断的视频制作素材,助力更多版权所有者通过AIGC版权交易获得收益,进而让更多内容产业实现转化与变现。此外,平台还向合作伙伴开放模型API接口,促进技术共享与合作。截至目前,智象一站式视频平台已积累了超过20万小时的版权视频语料。
红杉资本在《AI in 2025:Buiding Blocks Firmly in Place》一文中提到,2025年AI生态系统将发生重大转变,从2023、2024的狂热开始进入更有结构的格局,更强调提供实际价值和合理的投资回报。
未来,梅涛称智象未来将以内容为依托,以AIGC技术为纽带,形成新型的创意产业群,助力客户提升营销内容的创作质量与效率的双向提升。另据艾瑞咨询报告显示,预计2028年,中国AIGC产业规模预计将达到7202亿元,在千亿市场里智向未来,未来可期。
0人
- 每日推荐
- 股票频道
- 要闻频道
- 港股频道
- 突发利好!中国结算宣布:减半收取
- 特斯拉跌幅扩大至7%,四季度车辆交付量低于市场预期
- 大手笔!阿里巴巴,已斥资13亿美元回购股份!还有207亿美元在路上
- 星期五机构一致最看好的10金股
- 楼市信号!北京二手房成交“爆了”
- 分析师:特斯拉交付量将在2025年加速增长 并受益于自主和人工智能时代
- 44家上市公司股票获回购,居然智家回购金额最高
- 机构今日首次关注这11股
- 2025年首份金股名单出炉