【编者按】2025年5月29日,悟空研究院院长罗晴秋应邀为湖南省委党校“芙蓉计划”高层次人才国际省情研修班全体学员作题为《空间智能:方向与机会》的专题讲座,省委党校主持日常工作的副校长赵凯明主持讲座并与学员探讨交流。本文是赵凯明校长、罗晴秋院长此前向省委、省政府撰写的专题研究报告的部分内容,现结合这次专题讲座的部分PPT分享给有兴趣了解空间领域的朋友们。
应面向“空间智能”构建湖南中长期发展主引擎
——湖南“十五五”规划建言献策
赵凯明 罗晴秋
【摘要】空间智能作为人工智能在三维物理世界中感知、理解和交互的能力,将是“十五五”阶段人工智能创新领域的制高点,是未来最具颠覆性的新质生产力。湖南要打造有全球影响力的科创中心,必须在引领性、突破性、使能性的创新赛道上建立话语权。湖南应面向空间智能领域,以2~3个创新周期组织开展集群式创新工程大会战,突破“空间智能”关键融合技术、关键能力集成、重大工程场景,构建起湖南中长期高质量发展主引擎。
【关键字】空间智能,十五五规划,前沿创新,发展引擎
本文基于湖南现代化产业体系涉及的16个产业门类近3年统计数据,重点结合全球学术数据库、Gartner热度曲线、MIT科技评论、谷歌学术、麦肯锡行业报告等进行数理建模分析,旨在回答未来5~15年湖南应瞄准何种方向进行耐心投资、开展突破性创新工程,以及先手棋从何处落子最具产业链式反应。研究得出的主要结论是:
(1)语言大模型让人类认识了自身的活动、关系与规律,空间大模型则让人类真正认知、理解地球以及人类的角色。实现“空间智能”的路径大体有两条,美国科学家强调“第一人称”技术路径,我国科学家侧重“第三人称”技术路径,都将殊途同归;(2)湖南应在“空间智能”领域以2~3个周期(3+3+N年)开展集群式、原创性创新,掌握人工智能新阶段的核心引擎,构建中长期增长动能,助力现代化产业体系的能级跃迁。
具体分析如下:
一
问题的由来
一是《黑神话·悟空》《哪吒2》的制作采用了什么三维渲染引擎?答案是美国的虚幻引擎(UE5)。计算机视觉领域所说的“引擎”可以理解为三维渲染主程序。三维引擎是构建“数字世界”、“虚拟世界”、“数字孪生”的基础性开发软件,也是“智慧城市”、“智慧战场”领域的开发者底座,它是实景还原计算、端网交互通信、人机耦合操控的底层开发界面,“人机共业”、“数字人”、“数字世界”等概念能否进化为新经济系统,基于云原生部署的三维渲染引擎亦是核心基础设施。
马栏山视频文创产业的底层短板是什么?是自主可控的三维渲染引擎+高性能GPU。(……)
三维渲染引擎方面:我国无自主可控产品(……),三维渲染引擎底座的结构性缺失,(……)长期存在技术代差和生态断层问题。以光线追踪效率为例,国内引擎帧率仅为UE5的35%-50%,能落后UE5约3~5年。国产化进展来看,腾讯GSEngine部分模块自研,但底层仍依赖UE源码授权;华为河图引擎专注AR/VR轻量化渲染,在移动端能效比超Unity 20%,但功能完整性不足。(……)长沙眸瑞科技历经10余年主攻三维图形轻量化引擎赛道取得重大成果,为深圳市CIM平台和国内诸多园区/企业/军工领域的数字孪生平台提供支撑。
高性能GPU方面:(……)三维数字空间的技术控制权争夺,本质亦是大国工业体系与创新生态的对决。从各方研究来看,中国企业在高性能GPU领域的胜负手取决于:能否在光子芯片/量子计算等下一代硬件赛道提前卡位;是否建立“自主标准+开源生态”的双循环体系。只有国产GPU在能效比(性能/瓦特)和开发便捷度(工具链成熟度)两个维度同时达到英伟达CUDA开发生态30%水平时才能触发生态迁移,达到80%水平时才能触发大规模生态迁移。(……)
二是载人飞行汽车、无人飞行器如何实现自主安全飞行?答案是在算力充沛的基础上,须具备高精度空域任务规划与全维度全天候测控能力。(……)
从空间任务规划技术领域来看,美国的主要平台级产品有谷歌的谷歌地球、NASA的World Wind、微软的Bing Maps 3D、Esri的ArcGIS等,特别是美军方承包商AGI公司开发的STK、Insight3D,功能强大。(……)AGI开发的Systems Tl Kit(STK)是一种多物理建模和分析工具,是美国航天、防务和情报分析领域的主要底座,各军种都采用STK进行任务规划、测试评估、空间态势感知(SSA)、武器系统性能分析等任务;谷歌地球是面向科研和互联网端的高性能平台,底层架构依托于谷歌生态的云计算、大数据、三维渲染技术,实现高效地理数据管理和可视化,应用生态涵盖大众浏览、专业分析和开发者创新,广泛影响科研、教育和商业领域。随着AI和AR/VR技术的发展,谷歌地球有进一步拓展其作为“数字地球”核心引擎的潜力。我国还没有类似AGI、谷歌地球这样能级的产品平台。(……)
从空间数字化引擎领域来看,计算机辅助设计(CAD)、工程仿真(CAE)、建筑信息模型(BIM)领域我国也没有一家真正意义上的自主可控的全栈底座引擎平台。目前,全球空间智能关联性创新技术处于原型或试点阶段(TRL4–6)。随着传感器成本下降和算法优化,未来5年内关键技术(SLAM、3D重建、跨模态融合等)将突破瓶颈,TRL迅速提升;10年后相关技术将进入广泛部署阶段。行业领军企业布局积极:NVIDIA通过Omniverse构建物理仿真平台;DeepMind 发展下一代世界模型(Genie2);Tesla 聚焦端到端感知与决策;李飞飞领衔的World Labs致力打造“大世界模型”用于环境生成与理解,短期内重点突破多源传感与三维感知算法,将空间智能嵌入机器人和车载系统,中期重点结合合成数据和模拟仿真平台提升训练效率,长期形成从数字孪生设计到现实部署的闭环生态,其主要时间节点可能包括:2025年前后达到可商用的交互式3D内容生成与空间问答技术;2028年左右工业和城市级数字孪生平台广泛应用;2030年后普及通用服务型空间智能系统。
三是如何实现国家层面的数字化?2018年7月,英国财政部拨款启动了国家数字孪生计划(NDTP),委托剑桥大学具体实施。次年,英国数字建造中心(CDBB)、国家BIM计划和国家数字孪生计划全面实施,CDBB与英国建筑研究机构(BRE)、制造技术中心(MTC)合作,致力于建设“数字英国”。数字英国的初始目标旨在找到创新的方法,为社会和经济基础设施提供更多能力和更好服务,大幅改善这些资产提供社会服务的方式;中期目标是进一步与数字孪生体(Digital Twins)和物联网(IoT)—传感器、先进数据分析、数据驱动制造和数字经济相结合,支撑国家全面数字转型。2022年3月,CDBB完成使命并关闭,其核心项目(数字孪生中心DT Hub、国际BIM计划和气候韧性示范项目)移交至互联交通创新中心(Connected Places Catapult,加速器计划)。截至2022年,DT Hub拥有超过3500名成员,覆盖1600多个组织,遍及77个国家。显然,英国在实现国家整体数字化的技术路径上采取的是数字孪生方式,连历史建筑也构建BIM级别的孪生体。2022年6月27日,湖北省和住建部为“国家数字建造技术创新中心”、“国家智能设计与数控技术创新中心”揭牌,这可以视为CDBB的中国版实验。
以上三个问题,实质是构建从物理世界到数字世界、智能世界的技术路径,根本归途就是对地球环境的数字化,基于AI和各类引擎实现对万千世界的结构化解构与可视化还原,从而实现更广泛、更包容、更普惠的数字化转型。(……)技术平权同样需要技术制衡。(……)
二
空间智能或是中美AI竞赛下一座“上甘岭”
人工智能大模型的下一站是什么?是空间智能。
“空间智能”(Spatial Intelligence)是人工智能系统通过感知、理解和交互,具备在三维物理世界中进行复杂推理和行动的能力。这种能力不仅包括视觉感知(如识别物体、场景),还包括理解空间关系、动态交互以及基于物理规律的预测和决策,让AI大模型结合计算机视觉、机器学习和多模态学习,从二维数据处理走向三维世界理解,将是全球最具集成化、颠覆式、母体型技术与产业创新。我国科学家李德仁院士将其表述为“时空智能”,泛指通过融合空间(地理位置)、时间(时序变化)、AI(模式识别)和多源数据(遥感、IT、社交等),实现环境感知、趋势预测和自动化决策的能力。
美国华裔科学家李飞飞认为,人类智能可分为语言智能和空间智能两大类,当前人工智能在语言智能(大语言模型)上取得突破,下一步必然向世界模型(World models)演进。英伟达等公司也认为,“空间智能让模型以前所未有的方式理解并与物理世界互动”,其本质就是让AI能将真实世界转换为可计算的空间表示。具身智能(Embodied AI)研究认为,智能应紧密结合感知与运动,与环境互动是智能行为的基础,这与空间智能的方向也是高度一致的。
“空间智能”有极为广泛而丰富的应用场景,通过使用各种空间和业务分析工具,定义小到一条街巷、大到一座城市或一个国家的经济、社会生态系统,集成和输出的包括但不限于对文化、生活方式、劳动力、医疗保健、生活成本、犯罪、经济环境和教育等等的综合性循证评估能力,且它是可视化和动态的。
“空间智能”或将真正意义地为人类构建地球孪生体跨出决定性一步,推动人类进入一个数实融合(数字与现实的融合)和虚实融合(虚拟与现实的融合)的新世界,也将真正诞生基于这个新世界的新型经济体系、新型地缘政治、新型军事关系。据彭博社报道,2024年2月26日,美军第18空降军利用算法战跨职能团队(Maven项目)帮助寻找中东空袭目标,并首次用于实战。
“空间智能”的科研假设,实现路径大体两条:一是主动型智慧孪生空间,一种是场景响应调动型。前者的基础是BIM+CIM+IoT+6G+AGI,形成物理世界的数字孪生体,通过任务来调用,通过第三人称视角以三维实景可视化输出,此类是治理级开发路径;后者是基于泛在传感器组成端-端智联网(AIT)、场域高带宽无时延通信、强大边缘计算与城市大脑调用能力,通过第一人称视角激活与融通特定场景,此类是消费端开发路径。第一条路径只能是国家队来干,第二条路径则可能通过技术路径部分实现商用,通过商用来反向推进技术成熟。不论是哪一种路径,所要面对的前沿创新领域有:通用人工智能(AGI)、高性能GPU+图形渲染引擎、基于数字空间的物址与定位(北斗+IPv6)、高精度空间遥感测控与任务规划管理、空天地一体化通讯与计算(6G等)、算法算力(边缘计算+雾计算+云计算)、Internet3+传感网、Web3。
日前,中国科学院自动化所副研究员杜长德团队在国际专业学术期刊《自然·机器智能》发表的相关论文证实,基于人工智能(AI)技术的多模态大语言模型能够自发形成与人类高度相似的物体概念表征系统,即AI可自发形成人类级认知。人类能够对自然界中的物体进行概念化,这一认知能力长期以来被视为人类智能的核心。当人们看到“狗”“汽车”或“苹果”时,不仅能识别尺寸、颜色和形状等物理特征,还能理解其功能、情感价值和文化意义,这种多维度的概念表征构成人类认知的基石。研究表明,大语言模型并非只模仿人类语言但缺乏内涵理解的“随机鹦鹉”,其内部存在着类似人类对现实世界概念的理解。换言之,AI的“心智维度”与人类殊途同归。
从大模型向“空间智能”演进要突破的关键课题主要有:(1)泛化能力:当前AI系统在特定任务上表现优异,但在开放世界中的泛化能力有限。空间智能要求AI能适应多样化、动态的物理环境。(2)数据需求:三维空间数据的采集和标注成本高,真实世界的多样性难以完全模拟。合成数据和迁移学习可能是解决方案,但仍需突破。(3)实时性与计算:在复杂环境中实时处理多模态数据并进行空间推理需要极高的计算能力,尤其在边缘设备上。(4)物理与常识推理:AI需要理解重力、碰撞等物理规律以及人类行为背后的意图,这涉及符号推理与数据驱动学习的结合。(5)交互性:空间智能不仅是被动感知,还需主动与环境交互(如机器人操作),这要求AI具备长期规划和动态适应能力。
李飞飞团队将突破路径锁定在:(1)多模态大模型:要可以整合视觉、语言和动作数据,朝空间智能迈进,未来的模型可能通过自监督学习从视频或交互数据中提取空间知识。(2)神经渲染与模拟:神经渲染技术(如NeRF、Gaussian Splatting)可生成高保真3D场景,结合物理引擎模拟真实世界动态。(3)具身智能:通过机器人与环境的持续交互,AI可学习空间关系和物理规律,具身智能(Embodied AI)是实现空间智能的重要方向。(4)跨学科合作:空间智能需要结合认知科学(人类如何感知空间)、神经科学(大脑的空间处理机制)和工程学(传感器、计算硬件)。(……)
美国在空间智能领域储备的能力比较全面,包括:(1)软件提供商:Esri-领先的GIS软件提供商,提供强大的空间分析工具;CART-云原生位置智能平台,专注于开发效率和可扩展性 ;Precisely-通过Spectrum Spatial提供企业级位置智能,特别适合大数据环境;Maptive-用户友好的位置智能软件,适用于中小企业和专业团队;谷歌 Maps Platform-提供广泛的位置数据和API,支持多行业应用 Blog。(2)数据提供商:Geospatial Intelligence-提供高分辨率卫星影像,支持环境监测和国防;HERE Technologies-提供高精度地图和位置数据,支持自动驾驶和导航;Maxar Intelligence-专注于卫星数据和地理空间分析。(3)AI与机器学习:Niantic Spatial-开发大型地理空间模型,旨在让机器理解物理世界;NVIDIA-提供AI硬件和软件,支持空间计算。(4)行业特定解决方案:Trimble-专注于建筑和农业的空间智能应用;Hexagon-服务于制造业和基础设施的地理空间分析;reLogic-为房地产和保险行业提供位置智能解决方案。
从商业智能视角看,空间智能是从地理空间数据关系中获取有意义的洞察以解决特定问题的过程。据预测,2025年,基于位置的“空间智能”初级形态其市场规模预计为1024.5亿美元,2032年可能增长至2580.6亿美元,年复合增长率达12.6%。这反映了其在智能城市、自动驾驶等领域的广泛需求。已专注于此的头部科学家包括:李飞飞(提出空间智能愿景,领导斯坦福未来室,推动视觉与机器人研究)、Pieter Abbeel(强化学习与机器人操作)、Yann LeCun(深度学习与视觉感知)、Jitendra Malik(3D视觉与场景理解)等,他们的主攻方向是通用空间智能(从特定任务到开放世界理解)、人机协作(AI与人类在空间任务中的无缝交互)、低成本解决方案(降低数据与计算门槛,推广应用)、跨领域融合(结合神经科学、认知科学提升空间推理)、标准化(空间智能的评测基准与数据集)五个方面。
那么,国内有没有企业在从事这方面的研发、商用?有了起步级的,(……)。
从我国科研与技术储备情况来看:在时空智能(涵盖地理信息、遥感、导航、空间计算等)领域布局了多个国家级科研平台,包括国家实验室、国家工程研究中心、国家重点实验室等。(……)
三
行动建议
各国高校与科研机构积极布局空间智能科研赛道。斯坦福HAI研究所、MIT、CMU等在世界模型和机器人领域加大投入,NYU、耶鲁与斯坦福团队正联合攻关空间智能;我国清华、北大、中科院等机构加快推进计算机视觉与机器人交叉研究,国防科大、浙江大学、深圳大学等显著增加了该领域的资源配置。未来5年,空间智能相关基准显著提升(如MLLM的空间问答能力接近实用水平),无人机/机器人领域出现更强的感知-规划系统;未来10年,室内外全局场景理解、泛用型服务机器人和全自动驾驶等里程碑将实现突破。
从领先突破的机会点来看,谁能在实时三维时空计算(如数字孪生战场)和低空经济GIS(无人机城市管理)领先,谁将主导下一代空间智能生态;谁能在Web端亿级模型实时渲染和低代码三维开发工具上领先,谁将主导下一代空间可视化市场;谁先实现太赫兹空间通信标准化和超低功耗星载AI,谁将主导下一代空间智能基础设施。
(……)充分发挥举国攻坚体制的制度优越性,调动和整合国内外相关领域的一流科研力量,就有可能率先实现技术突破和全栈耦合集成,从而实现后发超赶。(……)具体建议是:
一是建议在长株潭绿心地区布局空间智能+生命科学+类脑智能创新中心,打造“昭山科学城”。(……)
二是精准施策,建设“5+N”高校联合创新机制,逐步提升湖南在“空间智能”领域的首位度、话语权。(……)
三是以湖南16个产业门类的提质扩能为场景,率先应用“空间智能”创新突破的先导性成果。(……)
【作者】赵凯明:中共湖南省委党校(湖南行政学院)分管日常工作的副校长(副院长);罗晴秋:湖南省人大常委会财经咨询专家组成员,悟空研究院院长。