空间构建世界生成

重构 AI 训练的起点

JoinAI ​通过生​成式​世界​建模、​空间​构成​与​训​练​导向​的​系统​能力,​为​具身智能、​自动​驾驶、​工业​视觉​及​未来​ Physical AI​ 场​景​提供​新​一​代​训练​基础​设施。​
今天​,你​我​正站​在​​时代的分界线上。

今天,
AI​不​再​只​停留​在​像素​和​文字,​

它​正​走向​我们​身处​的​「物理​世界」​

看​得​见​世界,​​
摸​得到​边界,​

​不​等​于​真正学​会​世界​

从“看见”到“理解”再到“行动”,
关键在于对空间的真正掌控。



当AI​进入​物理​世界,​​学习​的​方法​也​必须​改变。

它​必须​能够​从​视觉、​空间、​时间​和​交互​信号​中,​学​习物理​世界​的​结构​与​规律​。

物理意义​上​的​高精度​理解​与​控制,
​对​象​级​别​的​灵活​生成、​编辑​与​重构​。

更​重要​的​是​
能够​像​迭代​模型​一样​快速​迭代​空间场​景​,

并​在​此​基础​上​持续​扩展​训练​数据。​



因此

下​一​代​的​物理​AI,​

​只​靠现​有​仿真​技术​已经​不够。

传统仿真

​先定​义​世界,​再​运行​世界

以​人​工搭​建场​景、​规则​和​参数​为​基础,​

通过​引擎​运行​得到​测试​环境、​场​景​结果​或​训练​数据。​​它​的​核心​是显式​构造​与​ s​imulator-centr​i​c ​的​系统​组织​方式。

生​成式​ A​I ​增强​仿​真

​仿​真引擎仍​是​中心,​AI​ ​用于​增强​构​建效率

在​仿真框架​中​引入生​成式​ ​AI,

​以​提升​资产生成、​场​景搭建​或​内容​扩展​的​效率​与​真实感。​本​质​上​仍​是​围绕仿​真器​组织​系统,​只是​引入​了​新​的​增强​工具。

但​可惜​的​是,​即便​是​融入​了​生​成式​AI​的​增强​仿​真,

​它​也​依然​只​是​故​有​路径​上​的​线性​延伸。​

它​当然​可用,​甚至​很​重要,​只​可​惜

​它依然​改变​不​了​「人​工构造」​的​本质。​



既然没有改变本质,也就改变不了瓶颈。

跨本体迁移成本高

传统仿真往往依赖针对特定环境与机器人的 点对点工程适配,导致 迁移成本高、泛化也更脆弱。相比之下,Video-first / World-action 路线更有机会学习更普适的 物理演化规律,从而提升 跨本体迁移 能力。

任务相关性不天然成立

一个 可运行的世界,并不自动等于一个对训练真正有价值的世界。传统仿真擅长构造环境,却不天然回答:哪些 空间关系、交互过程未来状态 最值得模型学习。

Content Gap 仍难弥合

Sim-to-Real ​的​难点​并不​只​在​ 视​觉逼​真度,​更​在​于​对​象​种​类、​交互​模式​与​真实​世界​ ​内容​分​布 ​的​差异。​只​提升​渲染​和​表面​真实感,​并​不​能​自动​弥合 ​Content ​Gap。​

长时程建模仍然薄弱

遮挡追踪、任务阶段切换、异常恢复 等长时程任务中,传统仿真路线更难自然形成连续、稳定的 世界表征。新的 Video / World-model 路线,则更强调对 未来世界状态 的持续预测与建模。

长​尾覆盖​依然​昂贵

依赖手动扩展 3D 资产、规则和参数 来覆盖 长尾场景,成本高且扩展慢。即使加入生成式 AI,只要系统仍以 人工构造 为中心,覆盖开放世界长尾的效率提升仍然有限。

加​了​ AI,​不​等​于​换​了​底层​路线

把生成式 AI 作为 插件 接入旧框架,并不等于改变了系统的本质。真正的区别不在于有没有用 AI,而在于 AI 是 外部增强工具,还是组织 世界表示训练闭环系统核心

生成,不止于一张结果图。
真正重要的,是一个可进入、可浏览、可继续组织的空间表示。
3d generate
只需一句指令,
直接进入空间构成。
 

对象级编辑,

本来就不该是问题。

Before
修改前
After
修改后

Prompt: “add a glass and place it on magzine”

真正有价值的图像数据,

从来不止于图片本身。

Original render
Depth map
Segmentation map
robot_view_camera_params
{ "camera_name": "Robot-View", "timestamp_seconds": 222.375000, "location": { "x": -2.763041, "y": -2.039186, "z": 1.500000 }, "quaternion": { "qw": 0.6509729028, "qx": 0.3388750553, "qy": -0.3136486709, "qz": -0.6025134921 }, "robot view_parameters": { "class_name": "RobotView Parameters", "extrinsic": [ 0.07720405608415604, -0.5718645453453064, 0.816707193851471, -0.0, -0.9970153570175171, -0.04428243264555931, 0.0632418692111969, 0.0, 3.725290742551124e-09, -0.8191520571708679, -0.5735765099525452, -0.0, -1.8197823762893677, -0.4416574239730835, 3.245922565460205, 1.0 ], "intrinsic": { "height": 2160, "intrinsic_matrix": [ 2306.217300415039, 0.0, 0.0, 0.0, 2306.217300415039, 0.0, 2088.0, 1080.0, 1.0 ], "width": 4176 }, "version_major": 1, "version_minor": 0 }, "camera_details": { "sensor_width_mm": 36.0, "sensor_height_mm": 27.0, "focal_length_mm": 19.881183624267578, "sensor_fit": "HORIZONTAL", "fx_pixels": 2306.217300415039, "fy_pixels": 2306.217300415039, "cx_pixels": 2088.0, "cy_pixels": 1080.0 }, "notes": { "coordinate_system": "Extrinsic matrix uses computer vision convention (Y-up, -Z forward)", "extrinsic_format": "Column-major 4x4 matrix (world-to-camera transformation)", "intrinsic_format": "Row-major 3x3 matrix [fx, 0, 0, 0, fy, 0, cx, cy, 1]", "quaternion_order": "WXYZ (scalar first)", "location_units": "Blender units (meters)" } }

真正有价值的视频数据,

也不该止于视频本身。

robot_view_camera_params
{ "camera_name": "Robot-View", "timestamp_seconds": 222.375000, "location": { "x": -2.763041, "y": -2.039186, "z": 1.500000 }, "quaternion": { "qw": 0.6509729028, "qx": 0.3388750553, "qy": -0.3136486709, "qz": -0.6025134921 }, "robot view_parameters": { "class_name": "RobotView Parameters", "extrinsic": [ 0.07720405608415604, -0.5718645453453064, 0.816707193851471, -0.0, -0.9970153570175171, -0.04428243264555931, 0.0632418692111969, 0.0, 3.725290742551124e-09, -0.8191520571708679, -0.5735765099525452, -0.0, -1.8197823762893677, -0.4416574239730835, 3.245922565460205, 1.0 ], "intrinsic": { "height": 2160, "intrinsic_matrix": [ 2306.217300415039, 0.0, 0.0, 0.0, 2306.217300415039, 0.0, 2088.0, 1080.0, 1.0 ], "width": 4176 }, "version_major": 1, "version_minor": 0 }, "camera_details": { "sensor_width_mm": 36.0, "sensor_height_mm": 27.0, "focal_length_mm": 19.881183624267578, "sensor_fit": "HORIZONTAL", "fx_pixels": 2306.217300415039, "fy_pixels": 2306.217300415039, "cx_pixels": 2088.0, "cy_pixels": 1080.0 }, "notes": { "coordinate_system": "Extrinsic matrix uses computer vision convention (Y-up, -Z forward)", "extrinsic_format": "Column-major 4x4 matrix (world-to-camera transformation)", "intrinsic_format": "Row-major 3x3 matrix [fx, 0, 0, 0, fy, 0, cx, cy, 1]", "quaternion_order": "WXYZ (scalar first)", "location_units": "Blender units (meters)" } }
robot_view_camera_params
{ "video_id": "CupMove.mp4", "task": "Robotic Pick and Place", "scene": "Dining room, round wooden table with magazines and decor", "steps": [ { "start_frame": 0, "end_frame": 90, "skill": "Pick", "description": "The robotic gripper descends from above, aligns with the white patterned cup on the table, and closes its jaws to grasp the cup." }, { "start_frame": 90, "end_frame": 180, "skill": "Transport", "description": "The robotic arm lifts the cup vertically, moves it horizontally to the left side of the table, and lowers it towards the surface." }, { "start_frame": 180, "end_frame": 210, "skill": "Place", "description": "The gripper opens to release the cup onto the table surface and the arm retracts upwards to complete the task." } ] }
Physical Info Background

一个可学习的世界, 不会只输出一种数据。

从对象编辑到图像、视频与物理信息,训练接口本来就该是完整的。

Simulaix & Terra

让世界知识进入训练,

就​是​这么​简单。​

Simulaix Demo Interface
一​种​能力,​无限​可能。​
在​不同​ Physical AI​ 场​景里,​
它​会​回答​不同​的​问题,​体现出​不同​的​价值。​

具身操作

第一人称交互,也能成为训练接口。

家庭空间

训练数据,终于可以被主动随心定义。

开放道路

长尾场景,不必再被动等待。

敏感场景

合成数据的价值,也包括隐私保护。

真正​决定​上限​的,​是​非常​规 ​case。​

比如,撸个猫吧。

Physical AI 的边界,

只能是想象力。

当AI从语言世界走向物理世界,

真正的问题不再只是“有没有数据”,

而是有没有一种有效的方式去

构建、表示、生成并持续扩展世界数据。

这正是 JoinAI 在做的事:

为Physical AI构建学习物理世界的基础设施。

不交付数据,只交付效果。

与我们一起探索你的 AI 还有多少可能
JoinAI
用更好的数据,
为每一个人带来更好的AI,直到永远。
JoinAI Logo
 二维码
 二维码
 二维码
Substack
JoinAI (Hangzhou Join Intelligence Technology Co., Ltd.)
Room 448, 4th Floor, Building 4, No. 66 Dongxin Avenue, Binjiang District, Hangzhou, Zhejiang 310000
China | © 2026 JoinAI. All rights reserved.浙ICP备2021040718号-2
隐私政策和Cookie政策