广告区域

浩瀚体育自媒体

浩瀚体育自媒体

阿里云李强:可在智能化和全球化方面服务中国汽车行业发展

专题:中国电动汽车百人会论坛2024

  中国电动汽车百人会论坛2024于3月15日-17日在北京举行。阿里云智能集团副总裁、汽车能源行业总经理李强出席并演讲。

  李强表示,阿里云是一家基础设施公司,阿里云可以在两个方面服务和支撑汽车行业发展,分别是智能化和全球化。

  智能化方面,李强表示,人工智能时代,具身智能已经成为了共识,而现在来看,具车智能大概率会发生在具身智能之前,具车智能也大概率会发生在中国车企。

  什么是具车智能呢?李强解释,除了自动驾驶之外,还有大模型上车,这个应用以及大模型在整个车企广泛的推广,能够让人们更快地看到车智能的发展,这一起点或是从To B和To C的一些场景开始起步。

  李强认为,具车智能的关键,甚至起到决定性作用的因素是强大的大基础模型,这个基础模型需要全规格、开源。

  “百度同仁分享了他们的模型,但我们和他们的模型还有一些区别,最核心的区别在于开源”,李强说,阿里的通义模型目前在全社会来看,在开源方面做得是最激进的。

  除了大模型外,李强还强调了云计算的重要性。“一个好的基础大模型在全球最核心的事情就是算力,第二是人才,第三是数据”。

  李强指出,从算力角度来看,阿里云希望能够为所有大模型公司提供异构基础设施。

  “我们未来能够在云计算领域,把多款不同品牌和型号的芯片异构在一起,提供一个大模型所需要的跑一次任务的算力,我们认为这是阿里云最应该去做的。我们也希望能够通过阿里云本身云计算的能力,能够把算力的效率提升”,他说。

  他也透露,其实当前自动驾驶、包括大模型算力,企业对算力的使用实际上效率没有一个能超过50%的,“实际上把一千张卡或者一万张卡连接在一起的时候,我们真正在有效的时间去使用,实际上效率都是不足50%的。阿里云就是应该去做这件事情,来为大家提效”。

  李强说,中国和美国的云计算发展相比较,目前中国上云企业的渗透率只接近40%,而国外接近60%,这20个点的差距很大一部分是靠中国这一代互联网企业的快速发展,70%多的上云占有率支撑了我国30%不到40%的上云数据。

  “未来,云计算将是一个企业的战略,而不是可有可无的事情”,李强说,我们坚定地认为,一切最先进的技术战、一切最先进的技术应用一定是发生在云端。

  在出海和全球化方面,李强认为,最关键的是数据的合规、安全。“中国企业2023年出海排名前10的国家,阿里云的基础设施(数据中心)都有布局”。

  他透露,在很多国家,阿里云采取了双数据中心甚至三个数据中心的保障,能够保证车企数据在当地合规、安全,特别是车联网数据能够符合当地要求,“我们能够支撑这些车企出海,我们也发挥了在当地基础设施的作用”。

  当然,车企出海除了符合安全合规,也要关注生态。李强说,阿里巴巴集团的蚂蚁在30多个国家可以进行支付,高德也在去年上了世界地图覆盖超200个国家,菜鸟在全球有300万平方米的跨境实体线下仓库,也都能够和阿里云一起,和中国车企在海外抱团发展。

  “如果中国汽车产业特别是新能源汽车产业是一片繁茂的森林,我们相信阿里云是其中的一个环节,而且是基础设施环节。我们把自己的事情做好,把AI做好,把公共云优先做好”,他说。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

2024阿里巴巴全球数学竞赛开启报名,首次向AI开放

三言科技 3月14日消息,阿里巴巴今日宣布,2024阿里巴巴全球数学竞赛开启报名。今年赛事首次向AI开放。

2024阿里巴巴全球数学竞赛开启报名,首次向AI开放

据介绍,本届大赛初赛时间为4月13日-14日,参赛的AI模型将与人类选手一同在线上应对初赛试题的挑战。组委会将重点评估AI模型对题目的理解、逻辑推理准确性和问题解决能力。为了确保公平竞赛,避免人类替考的情况出现,参赛者需要在开赛前提交模型代码,供校验复现。最终得分排名前三的AI团队将依次获得奖金10000美元、5000美元、2000美元。

组委会成员、达摩院决策智能实验室的负责人印卧涛表示,引入AI给大赛带来一个新视角,让大家一同见证AI在逻辑思维和解题方面的能力。

AI题材陷入盘整,资金布局热情不减,游戏板块强势吸金

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

  3月12日,“喝酒吃药”行情再起,AI题材陷入盘整,截至收盘,上证指数跌0.41%,深证成指涨0.51%,创业板指涨0.83%,AI相关主题型ETF冲高回落,游戏ETF(159869)收涨0.99%,人工智能AIETF(515070)跌0.1%,云计算50ETF(516630)跌0.44%,数据ETF(516000)跌0.51%。

  资金布局热情不减,昨日,游戏ETF单日 “吸金”超1亿,人工智能AIETF(515070)近10个交易日“吸金”近4亿。此外,云计算50ETF(516630)、数据ETF(516000)近10个交易日也分别获得4719万、3451万的资金流入。

  随着人工智能技术跨越奇点式的爆炸发展,GPT-4、Sora等AIGC模型相继横空出世,不仅推动了内容创作的革新,更在经济发展各领域产生了广泛影响,同时也深刻改变了国际技术发展重心与竞争格局。

  相关分析指出,今年《政府工作报告》对大力推进现代化产业体系建设,加快发展新质生产力提出新要求,要深入推进数字经济创新发展,深化大数据、人工智能等研发应用。随着“人工智能+”行动的深入开展,AI技术的应用场景将会得到极大扩展。

  新一轮AI浪潮来临,多个赛道有望受到催化:

  1)人工智能AIETF(515070):多模态大模型大爆发,AI王者归来

  2)机器人ETF(562500):AI赋能,具身智能浪潮来袭

  3)数据ETF(516000):大模型狂飙,数据要素助力AI新格局

  4)云计算50ETF(516630):AI崛起,算力先行,国产算力扛大旗!

  5)游戏ETF(159869):游戏牵手AI,迎行业生产力变革

  6)恒生科技指数ETF(513180):港股科技龙头,助力AI模型迭代

AI题材陷入盘整,资金布局热情不减,游戏板块强势吸金

全国政协委员周鸿祎:推动大模型向垂直化、产业化落地

专题:稳中求进 发展新质生产力——2024全国两会特别报道

  全国政协委员、360集团创始人兼董事长周鸿祎拟向2024全国两会提交涉及大模型、数字安全等多份提案。大模型在垂直领域大有可为,他建议政府、 央国企率先提供更多应用场景,聚焦“小切口,大纵深”,推动大模型垂直化、产业化落地。“企业用大模型不能冒进,而是要用 AI 逐步改造业务,循序渐进,积小胜为大胜。在实践中要拆分场景具体分析,在业务流程上找准切入点,选择与大模型成熟能力匹配的业务环节切入,切入点虽小,但纵深推进,对业务影响很大,改造收效更大。”

太疯狂!这一板块,又现涨停潮!

转自:证券时报·e公司

今日早盘,A股小幅震荡整理,多空双方围绕上证指数2900点展开争夺,沪深300也在3400点附近徘徊。

值得关注的是,两市成交急剧萎缩,观望情绪再次升温。盘面上,Sora概念、减肥药、短剧游戏、ST等板块涨幅居前,半导体、汽车、酿酒、航空等板块跌幅居前。

Sora概念狂飙

ChatGPT热潮未退,OpenAI发布的首款文生视频大模型Sora,再度点燃了A股的热情。Sora概念今日继续狂飙,板块指数盘中最多涨逾13%。板块内所有个股飘红,会畅通讯、当虹科技、因赛集团、安诺其等均开盘20%一字涨停,并均为连续第2个涨停,此外中文在线、万兴科技、国脉文化等亦强势涨停或涨超10%。

太疯狂!这一板块,又现涨停潮!

太疯狂!这一板块,又现涨停潮!

据艾瑞咨询预测,2023年中国AIGC产业规模仅约为143亿元,到2028年,中国AIGC产业规模将急剧增长到7202亿元,2030年中国AIGC产业规模有望突破万亿元,达到11441亿元。

上市公司近日纷纷公布在视频生成方面的进展。

因赛集团昨日在互动易平台称,公司可以结合Sora等通用大模型丰富自身视频素材库以及提升视频生成效率和品质。在技术方面,公司推出的InsightGPT将持续迭代和升级,不断提升大模型生成的能力和跨模态之间信息互通的精准度,丰富并完善更多功能。

稍早前,因赛集团在与机构交流时透露,其InsightGPT内测版已开放视频智能剪辑功能试用体验。预计2024年2月底前,开放体验图生视频相关营销应用产品;预计2024年3月底前,开发实现文生视频功能;之后在今年二季度推出公测版正式启动商业化。

19日,虹软科技官微宣布,其核心大模型技术引擎——虹软ArcMuse再次升级。而此次升级将支持面向商拍的商业视频自动生成。

据介绍,与Open AI Sora类似,虹软ArcMuse大模型视频生成基于diffusion-transformer技术架构,具备丰富多样的创意力和想象力。通过图像,ArcMuse大模型能够捕捉到商品的细节特征、质感、色彩等方面的精确信息,生成更能展示商品真实面貌的动态商拍视频。

中信建投证券表示,AI仍然是当前科技投资的主线,海外AI大模型和应用保持较快迭代速度,随着Sora、Gemini 1.5 Pro 等大模型的发布,多模态能力显著增强,应用场景进一步拓宽,这将带动算力基础设施的投资,建议关注光模块、ICT基础设施等板块。

减肥药“热辣滚烫”

《热辣滚烫》凭借27.18亿票房成为春节档冠军,有关“贾玲瘦了100斤”话题的热度持续高涨。又恰逢“每逢佳节胖三斤”魔咒高峰期,减肥成为当下人们最关注的事件,淘宝、京东等平台减肥药销量近期呈明显上升趋势。

A股减肥药概念股也“热辣滚烫”大幅走强,板块指数今日盘中再度放量大涨逾6%,半日成交接近昨日全天成交。科源制药20%涨停,常山药业、金凯生科、康惠制药(维权)等亦涨停或涨超10%。

太疯狂!这一板块,又现涨停潮!

在减肥药概念大涨带动下,医药股整体活跃,细分新冠药概念、仿制药、创新药、肝炎概念等板块亦涨幅居前,龙津药业、金花股份等涨停。港股医药板块也跟随逆势走强,中华香港生物科技、恒生创新药等指数领涨,药师帮、药明合联、药明康德(维权)等涨幅居前。

摩根士丹利根据市场需求估算,到2030年,减肥药物的市场规模预计超过540亿美元,有望超过PD-1/PD-L1成为全球市场规模最大的药品。高盛则更加乐观的预计,到2030年,全球抗肥胖药物市场的年销售额可能会增长到1000亿美元左右。

春节期间,美股减肥药“双雄”礼来、诺和诺德股价竞相创历史新高。摩根士丹利预测,礼来有望成为首家市值达到1万亿美元的生物制药公司。

财报显示,诺和诺德的2023年全年收入同比增长31%,营业利润同比增长37%。礼来2023年,替尔泊肽全年整体销售额达到53.39亿美元,同比大增970%,其中2023年11月才获批的减肥药Zepbound就销售了1.76亿美元。

鉴于美股减肥药概念股业绩大增,股价持续暴涨,A股减肥药概念股也受到机构的追捧。有GLP-1自主研发能力的博瑞医药(维权)获得公募大幅加仓,万家基金在去年四季度加仓超过1106万股,招商基金和华安基金分别加仓714万股和380万股。众生药业、诺泰生物在去年四季度也获得公募基金加仓。

招商证券认为,在GLP-1药物产业链中,下游制剂厂商将分享最大份额的产业链价值,其次是中游的CDMO、原料药等,以及上游的供应商、配套耗材等。

责编:彭勃

手机厂商开始在AI领域下重注:OPPO将资源向AI集中 魅族全力投入“明日设备”

  来源:每日经济新闻

  每经记者 王晶    每经编辑 张海妮    

  2024年伊始,一些手机厂商开始在AI领域下重注。

  《每日经济新闻》记者注意到,2月18日上午,OPPO创始人陈明永在一封内部信中称:“2024年是AI手机元年。未来5年,AI对手机行业的影响,完全可以比肩当年智能手机替代功能机。从行业发展阶段来看,AI手机也将成为继功能机、智能手机之后,手机行业的第三阶段。为此,公司已做好充分准备,并专门成立了AI中心,我们的资源将向AI集中。”

  无独有偶,魅族也同时宣布进行战略调整,在All in AI(全方位人工智能)的同时,将停止传统智能手机新项目的开发,全力投入“明日设备”AI For New Generations(面向新一代的人工智能)。“魅族首款AI Device硬件产品将在2024年内正式发布,并与全球顶尖的AI Device厂商展开正面竞争。”

手机厂商开始在AI领域下重注:OPPO将资源向AI集中 魅族全力投入“明日设备”

  手机行业很久没有出现令人眼前一亮的颠覆性创新,直到AI大模型时代来临。当前,包括华为、荣耀、OPPO、vivo、小米等在内的手机厂商,均先后以合作或自研的方式推出各自的手机端侧大模型 视觉中国图

  AI功能成手机发展趋势

  手机行业很久没有出现令人眼前一亮的颠覆性创新,直到AI大模型时代来临。当前,包括华为、荣耀、OPPO、vivo、小米等在内的手机厂商,均先后以合作或自研的方式推出各自的手机端侧大模型。毋庸置疑,手机具备AI功能已然成为主流发展趋势。这是一场围绕用户体验的未来之战,也是争夺下一个市场格局的关键之战。

  过去几年,手机厂商们在诸如影像、快充的硬件上“卷”到飞起,而单纯依赖硬件升级和参数竞争,已无法满足广大消费者多样化、全面化的使用需求和使用体验,在硬件堆砌难以拉动销量增长后,智能手机的创新方向开始转向软件层面。

  《每日经济新闻》记者注意到,从2023年开始,越来越多的手机厂商开始将AI视作一项重要战略,并以接入操作系统的方式将AI大模型落地在终端应用中。

  2023年8月初,华为在开发者大会上发布了HarmonyOS 4操作系统,其中小艺助手融入大模型能力;2023年10月26日,小米发布澎湃OS并正式宣布将AI大模型植入系统;2023年11月,vivo在开发者大会上发布了自研的AI“蓝心”大模型,包括3个不同参数量级的5款自研大模型,其中,端侧70亿参数大语言模型已落地。

  2024年1月,OPPO首款70亿端侧大模型手机在Find X7系列上落地;荣耀则要做平台级AI,用大模型重构底层操作系统,其Magic 6系列成为首批搭载荣耀大模型的产品;三星发布了旗舰Galaxy S24系列,并将AI能力作为此次打造的重点,喊出“开启移动AI新时代”的口号,新机引入了视频AI处理、AI聊天机器人、影像画面处理、通话实时翻译等AI功能。

  “再不布局大模型就没戏了。”2024年1月8日,OPPO高级副总裁、首席产品官刘作虎在接受媒体采访时直言。

  陈明永则认为:“通过AI,我们可以把手机的体验重新做一遍,帮助用户实现更高价值。显然,这轮由大模型支撑的AI技术,正在重构手机行业的未来。”

  魅族称全面迈入AI领域

  除了上述手机厂商外,市场份额已滑落至“Others”(其他)品牌的魅族也突然宣布全面迈入AI领域,甚至不惜停止传统智能手机新项目的开发。

  “从智能手机时代迈入AI时代,魅族站在一个全新的起点上,我们将通过不断创新和努力,力争成为AI科技领域的领跑者,并为用户带来多终端、全场景、沉浸式的融合体验。经过两年的团队磨合、资源配置、产品布局等,魅族目前已具备向AI领域全面转型的能力。”

  按照规划,2024年魅族面向AI时代打造的手机端操作系统将进行系统更新,同时,首款AI Device硬件产品也将在2024年内正式发布。此外,魅族还强调,现有产品正常享有软硬件维护服务。

  2023年11月底,星纪魅族董事长兼CEO(首席执行官)沈子瑜在接受包括《每日经济新闻》记者在内的媒体记者采访时曾表示:“希望2024年的销量要比2023年翻一倍,3年时间能够重回国内中高端市场前五。中高端市场确实很难,但我们先要在中高端市场有一个立足之地。中高端产品才能去做更有科技的东西。”

  令人好奇的是,魅族停止传统智能手机新项目的开发,是否会影响到上述销量目标的达成?魅族首款AI Device硬件产品是否为AI手机?

  对此,一位知情人士向记者透露:“魅族首款AI Device将是AI硬件终端产品,产品形态是手机,但不叫手机,后面所有产品都是基于AI来做。”

  AI大模型席卷手机圈后,对大部分手机用户而言,可能更关心的是,当手机落地端侧大模型能带来哪些便利?

  华金证券指出,AI大模型对手机的提升主要来自两方面,首先,AI大模型可增强手机处理图像、语音、NLP(自然语言处理)等任务的能力,大幅提升手机性能;其次,AI大模型拥有庞大的语言数据库作为训练资源,在算力和算法的支持下,手机可以理解复杂的语意和语境。基于准确的自然语义理解,外加庞大的知识和数据库,手机可以给出准确和快速的回答。随着人机交互愈发频繁,用户画像刻画将更为精确,回答也越发定制化,手机将真正意义上成为专属数字助手。

  又开启新一轮技术竞赛

  荣耀 CMO郭锐曾以打车为例:“比如我和你一直对话,晚上出来吃饭,你说换个地方也行,但是那个地方太远,要不明天,我们改了时间、改了地点,传统情况下要有个秘书看明白、理解后定位,但你把截取的信息往相应的垂域大模型APP(手机软件)拖,这个拖的过程中,前面半截按照传统大模型就在调内核了,会把你的语义全拆出来,了解你的意图,拿意图去找这些意图对应的服务,服务背后才是应用。”

  荣耀认为,AI将快速促进基于意图识别的人机交互(Intentbased UI)普及。

  《每日经济新闻》记者注意到,除了能操作一些比较复杂的语音指令外,端侧AI大模型还可以便捷地实现文章摘要、生成文案/文章、图片处理等。

  比如,在AI大模型加持下,小米的小爱同学拥有文本创作、AI扩图等能力;与荣耀YOYO(荣耀手机智慧助手)沟通给出简短语音提示后,它可以自主从图库中检索素材创作视频,并能主动匹配音乐字幕;OPPO的AI大模型具备语音摘要功能,可以对通话内容进行总结摘要。同时,OPPO还将端侧AI大模型应用于图片后期处理环节上,实现AIGC(生成式人工智能)消除,将日常人们拍照中的杂乱背景、乱入人物进行消除。

  Counterpoint Research(全球市场研究机构)预估,2023年生成式AI智能手机出货量将在4700万部左右,占整体智能手机比重约4%;2024年生成式AI智能手机出货量将超过1亿部,占智能手机比重提升至8%;2027年将超过5亿部,占智能手机比重达到40%;2023~2027年复合成长率达到83%。

  随着技术不断成熟,手机AI大模型或将为手机行业带来新一轮换新潮,与此同时,新一轮技术竞赛也将再度开启。

机器人、GPU、搜索、Agent、文生视频.....这些OpenAI都要做!AI创业还有活路吗?

专题:OpenAI发布首个视频生成模型Sora:输文字出视频

  机器人、GPU、搜索、Agent、文生视频.....这些OpenAI都要做!AI创业还有活路吗?

  来源:华尔街见闻  卜淑情

  OpenAI要革所有人的命?

  2023年,OpenAI凭借聊天机器人ChatGPT成为大模型领域的一哥,2024年大幕拉开之时,这家风头无两的明星初创公司终于揭开了其庞大野心的神秘面纱。

  2月16日凌晨,OpenAI 首个文生视频模型Sora正式亮相,颠覆了全球AI生成视频市场的格局。

  至此,大模型,GPU和人形机器人两大硬件领域,搜索、Agent、文生视频软件领域都能看到OpenAI的身影。

  可以说是,AI世界无处不Open。

  Sora,革了所有同行的命?

  Sora是一款视频生成模型。

  该模型可生成长达一分钟的有运动、多机位视频,生成视频时长较所有同行提升了15倍,效果也完爆Pika、Runway等现有AI视频软件。

机器人、GPU、搜索、Agent、文生视频.....这些OpenAI都要做!AI创业还有活路吗?

  同时,Sora不仅仅是一款简单的视频生成模型,按照OpenAI的说法,它还是一款“世界模型”。

  Sora能够像人类一样对世界有一个全面准确的认知,从而在一定程度上精确模拟真实的物理世界。

  OpenAI相信,这一功能将成为实现AGI的重要里程碑。

  7万亿美元造芯计划,重塑全球半导体产业格局

  “算力之王”英伟达的芯片一直供不应求,在一定程度上制约了OpenAI 的发展。

  为了消除这一障碍,Sam Altman选择亲自下场造芯。

  据媒体上周援引知情人士称,Altman正在与包括阿联酋在内的投资者进行谈判,以筹集数万亿美元资金,旨在提高全球芯片制造能力,更好地推动该公司人工智能发展。

  其中一位知情人士表示,该项目可能需要筹集多达5万亿至7万亿美元的资金。

  这是什么概念?

  去年全球芯片销售额仅为5270亿美元,7万亿美元是这个数字的13倍。

  按照英伟达CEO黄仁勋的说法,7万亿美元能买下全球所有的GPU。

  另据网友测算,这不仅可以买下包括英伟达、台积电、英特尔、三星在内的十八家芯片巨头,以及社交巨头Meta。

  即便如此,这笔投资还剩3000亿美元可用。

机器人、GPU、搜索、Agent、文生视频.....这些OpenAI都要做!AI创业还有活路吗?

  投资人形机器人公司,对标特斯拉擎天柱

  1月底,微软、OpenAI开年被曝预将大笔资金砸向人形机器人初创公司Figure。

  其中,微软计划投资9500万美元,OpenAI跟投500万美元,总计1亿美元。

  媒体消息称,Figure本轮融资额预计达到5亿美元,投前估值将达到19亿美元。

  Figure研发的通用人形机器人Figure 01,在前段时间因会冲咖啡爆火,它还将在今年晚些时候进入宝马“实习”。

机器人、GPU、搜索、Agent、文生视频.....这些OpenAI都要做!AI创业还有活路吗?

  对此,有网友喊话马斯克:

  两款自研Agent软件,将“改变一切”?

  媒体上周报道称,OpenAI正开发两款革命性的Agent软件。

  其中一款能够有效接管客户的设备来自动执行复杂的任务。

  例如,把文档中的数据传输到电子表格中进行分析,或者自动填写费用报告并将其输入会计软件,或者根据一定的预算制定行程或预订机票。

  一位知情人士向媒体透露称,该代理能够自动执行点击、光标移动、文本输入等操作,与人类操作软件无异。

  此前,Altman频频提及过他的愿景——ChatGPT将化身“超级智能工作个人助理”,为全能的AGI(可完成一切人类能完成的任务的通用人工智能)铺路。

  上月曾有一名OpenAI员工在X上发布招聘贴,并表示公司即将推出的新产品能够“改变一切”。

  据悉,该代理产品已经开发了一年多,目前还不清楚具体的发布时间。

  入局搜索市场,谷歌危?

  同样在上周,科技媒体The Information爆出OpenAI正在秘密开发自己的网络搜索产品,该产品将由微软旗下搜索引擎Bing提供支持。

  这一举措意味着,OpenAI将与全球“搜索一哥”谷歌展开更直接的竞争。

  消息传出后,谷歌股价应声下跌。

  而作为搜索市场的万年老二,微软未来或将通过与OpenAI的合作向谷歌展开新一轮进攻。

  Statcounter数据显示,今年1月份,谷歌在全球搜索市场的份额高达91.47%,相比之下,Bing仅占据了3.42%的份额。

  不过,Baird分析师Colin Sebastian认为,OpenAI的搜索产品给谷歌带来的威胁有限,它想打造一个合格的竞品并非易事。

  风险提示及免责条款

  市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

大揭秘:OpenAI公布Sora模型技术原理以及训练细节

  2月16日,北京大学人工智能专业博士@北大AI鱼博士 发微博,从技术角度解读了OpenAI最新发布的Sora:

  OpenAI最新发布的Sora视频生成模型技术报告揭示了其背后的强大训练思路和详细的技术特性。Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。其训练过程获得了大语言模型的灵感,采用扩散型变换器模型,通过将视频转换为时空区块的方式,实现了在压缩的潜在空间上的训练和视频生成。这种独特的训练方法使得Sora能够创造出质量显著提升的视频内容,无需对素材进行裁切,直接为不同设备以其原生纵横比创造内容。Sora的推出,无疑为视频生成领域带来了革命性的进步,其技术细节值得每一位从业者细致研究。

  Sora 详细的技术报告发布了,相关从业者可能都需要看看。里面有 OpenAI的训练思路以及 Sora 详细的技术特性,下面是主要的,详细的可以去看完整内容。

  简单来说 Sora 的训练量足够大也产生了类似涌现的能力。

  技术特点:

  1、三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。

  2、模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力

  3、长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。

  4、与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。

  【训练过程】:

  1、Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。

  3、Sora实际上是一种扩散型变换器模型(diffusion transformer)。

  首先将视频压缩到一个低维潜在空间19中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。

  4、训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。

  5、对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

  6、随着 Sora 训练计算量的增加,样本质量有了显著提升。Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。

  7、针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

  8、与DALL·E 3相似,也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。

  完整报告请访问OpenAI官网查看。

  重点关注:

  1、Sora展现的三维空间连贯性和长期物体持久性,提升了视频内容的真实感。

  2、通过模拟数字世界和与世界互动,Sora能够创造出富有创意的视频内容。

  3、Sora的独特训练方法及其对不同纵横比的原生支持,标志着视频生成技术的一个新时代。

免费、SOTA、中文,微软卷出了新高度

  出品 | 虎嗅科技组

  作者 | 杜钰君

  碾压谷歌的Gemini Pro和阿里的Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。

  继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研究者共同发布了多模态大模型LLaVa(Large Language and Vision Assistant)的1.6版本。与GPT-4V只提供API接口的闭源经营理念不同,LLaVA1.6的代码、模型与训练数据全开源,且在标准评测数据集上跑出了较为亮眼的成绩。

  一、LLaVA1.6:卷上加卷

  LLaVA是一种端到端训练的大型多模态模型,又被称为“大型语言和视觉助手”。LLaVa-1.6是微软LLaVa系列的第三个迭代版本。升级后的LLaVa-1.6可谓buff叠满:SOTA级别的性能,低训练花销,多模态的内容生成能力和再一次将开源大模型卷上了新高度。

  根据LLaVa-1.6官网的标准评测数据集,该模型的表现超越了Qwen-VL-Plus、CogVLM和Yi-VL等一众模型,在大部分数据集上的表现都优于Gemini Pro,在Math-Vista、MMB-ENG等部分数据集上的表现甚至胜于GPT-4V,成为了开源模型中的“性能王者“。

免费、SOTA、中文,微软卷出了新高度

  图片来源:LLaVA-1.6官网的标准评测数据

  在不拘泥于单一模态的内容生成,具有Text-to-Text和Image-to-Text两种模式的同时,LLaVa-1.6的过人之处还在于更低的训练数据成本。LLaVA-1.6能用32个GPU在一天之内完成训练,仅需1.3M条训练数据,其计算和训练数据比其他模型小100到1000倍。

  除了通过对话式AI生成文本外,LLaVA-1.6还可以识别图片信息并转化成文字答案。升级后的LLaVa-1.6对输入图像的分辨率提升到原来的4倍以上,使得模型能够抓住图片的更多细节。目前支持的图像分辨率有672x672、336x1344以及1344x336三种。

  LLaVA模型架构基于大量的图像-文本配对的数据集,将预训练的CLIP视觉编码器与大型语言模型(Vicuna)通过映射矩阵相连接,来实现视觉和语言特征的匹配。根据该模型的研发团队成员Haotian Liu在X平台的介绍,此增强版本建立在其前身的简约设计和数据效率基础上,并通过改进视觉指令数据集和SGLang,提升了“推理、OCR等方面的性能”,意味着人类向AGI(通用人工智能)探索的道路上又迈进了一步。

免费、SOTA、中文,微软卷出了新高度

  LLaVA-1.6的研发团队成员Haotian Liu在X平台发文原文 

  二、更适合中国人体质的GPT-4V

  在奋力追平GPT-4V的同时,LLaVa-1.6也展现出强大的零样本中文能力。

  LLaVa-1.6不需要额外训练便具备杰出的中文理解和运用能力,其在中文多模态场景下表现优异,使得用户不必学习复杂的“prompt”便可以轻松上手,这对于执行“免费(限制文本长度、使用次数等)+付费会员”制的文心一言们而言无疑提出了新的挑战。

  笔者在对LLaVa-1.6模型的demo进行尝试时发现,LLaVa-1.6对古诗词等具有中文语言特色的文本内容理解也较为到位,且能给出中上水平的答案。因而对于有图生文或文生文需求的用户而言,LLaVa-1.6模型不失为更适合中国人体质的GPT-4V。

免费、SOTA、中文,微软卷出了新高度

  图片来源:笔者在文心一格平台的使用截图

  更强的视觉对话能力使得LLaVa-1.6的智能服务可以覆盖更多元的场景、具有更强的常识和逻辑推理能力。

免费、SOTA、中文,微软卷出了新高度

  图片来源:用户在X平台对LLaVA-1.6的试用截图

  在上图的应用场景中,用户发给LLaVA-1.6一张机票,询问与之相关的接机和日程安排。LLaVA-1.6不仅准确的估计了驾驶时间,还考虑到了可能堵车的情况,颇具一个“智能管家”的自我修养。

免费、SOTA、中文,微软卷出了新高度

  图片来源:用户在X平台对LLaVA-1.6的试用截图

  为了促进多模态大模型社区的发展,开发者们开源了LLaVa-1.6的全部代码、训练数据和模型。这无疑有益于人工智能开发的透明度和协作。在较小训练样本和开源的前提下,如果可以基于本地数据训练专业模型,推动解决当前大模型基于云的产品的责任和隐私问题。

  不难发现,轻量化的训练数据是LLaVa-1.6与其他多模态大模型不同的关键一点。一直以来,成本的高企便是横亘在大模型训练面前的一大难题。随着大模型赛道越来越卷,研发者们开始将关注点从性能转向成本,在关注大规模参数量的同时着力降低模型的运算和推理成本,实现模型压缩化和计算高效化。

网易有道子曰2.0大模型发布,CEO周枫:大模型会带来翻天覆地的改变

  新浪科技讯 1月3日下午消息,今日举办的网易有道“子曰”教育大模型创新成果发布会上,网易有道宣布子曰2.0大模型升级发布,同时推出有道速读、新一代虚拟人口语私教、AI家庭教师和有道新一代智能硬件应用。

  据介绍,子曰2.0大模型在教育场景下的知识问答能力进行了升级,拓展到更多的学科和教学领域。扩充了大量的教育数据,模型上下文窗口提升到16k,新增了Agent和检索增强能力。

  依托子曰2.0,有道大模型翻译如期上线,具备篇章级语义理解和指令交互能力。网易执行副总裁、网易有道CEO周枫表示,“大模型就像机械化一样,会给生活带来翻天覆地的改变。”(文猛)