JoinAI | 卓印智能

首页
产品
博客
公司

从空间构建到世界生成

重构 AI 训练的起点

JoinAI 通过生成式世界建模、空间构成与训练导向的系统能力，为具身智能、自动驾驶、工业视觉及未来 Physical AI 场景提供新一代训练基础设施。

今天，你我正站在时代的分界线上。

今天，
AI不再只停留在像素和文字，

它正走向我们身处的「物理世界」

看得见世界，
摸得到边界，

不等于真正学会世界

从“看见”到“理解”再到“行动”，
关键在于对空间的真正掌控。

当AI进入物理世界，学习的方法也必须改变。

它必须能够从视觉、空间、时间和交互信号中，
学习物理世界的结构与规律。

物理意义上的高精度理解与控制，
对象级别的灵活生成、编辑与重构。

更重要的是
能够像迭代模型一样快速迭代空间场景，

并在此基础上持续扩展训练数据。

因此

下一代的物理AI，

只靠现有仿真技术已经不够。

传统仿真

先定义世界，再运行世界

以人工搭建场景、规则和参数为基础，

通过引擎运行得到测试环境、场景结果或训练数据。它的核心是显式构造与 simulator-centric 的系统组织方式。

生成式 AI 增强仿真

仿真引擎仍是中心，AI 用于增强构建效率

在仿真框架中引入生成式 AI，

以提升资产生成、场景搭建或内容扩展的效率与真实感。本质上仍是围绕仿真器组织系统，只是引入了新的增强工具。

但可惜的是，即便是融入了生成式AI的增强仿真，

它也依然只是故有路径上的线性延伸。

它当然可用，甚至很重要，只可惜

它依然改变不了「人工构造」的本质。

既然没有改变本质，也就改变不了瓶颈。

跨本体迁移成本高

传统仿真往往依赖针对特定环境与机器人的点对点工程适配，导致迁移成本高、泛化也更脆弱。相比之下，Video-first / World-action 路线更有机会学习更普适的物理演化规律，从而提升跨本体迁移能力。

任务相关性不天然成立

一个可运行的世界，并不自动等于一个对训练真正有价值的世界。传统仿真擅长构造环境，却不天然回答：哪些空间关系、交互过程与未来状态最值得模型学习。

Content Gap 仍难弥合

Sim-to-Real 的难点并不只在视觉逼真度，更在于对象种类、交互模式与真实世界内容分布的差异。只提升渲染和表面真实感，并不能自动弥合 Content Gap。

长时程建模仍然薄弱

在遮挡追踪、任务阶段切换、异常恢复等长时程任务中，传统仿真路线更难自然形成连续、稳定的世界表征。新的 Video / World-model 路线，则更强调对未来世界状态的持续预测与建模。

长尾覆盖依然昂贵

依赖手动扩展 3D 资产、规则和参数来覆盖长尾场景，成本高且扩展慢。即使加入生成式 AI，只要系统仍以人工构造为中心，覆盖开放世界长尾的效率提升仍然有限。

加了 AI，不等于换了底层路线

把生成式 AI 作为插件接入旧框架，并不等于改变了系统的本质。真正的区别不在于有没有用 AI，而在于 AI 是外部增强工具，还是组织世界表示与训练闭环的系统核心。

生成，不止于一张结果图。

真正重要的，是一个可进入、可浏览、可继续组织的空间表示。

只需一句指令，

直接进入空间构成。

对象级编辑，

本来就不该是问题。

修改前

修改后

Prompt: “add a glass and place it on magzine”

真正有价值的图像数据，

从来不止于图片本身。

robot_view_camera_params

{ "camera_name": "Robot-View", "timestamp_seconds": 222.375000, "location": { "x": -2.763041, "y": -2.039186, "z": 1.500000 }, "quaternion": { "qw": 0.6509729028, "qx": 0.3388750553, "qy": -0.3136486709, "qz": -0.6025134921 }, "robot view_parameters": { "class_name": "RobotView Parameters", "extrinsic": [ 0.07720405608415604, -0.5718645453453064, 0.816707193851471, -0.0, -0.9970153570175171, -0.04428243264555931, 0.0632418692111969, 0.0, 3.725290742551124e-09, -0.8191520571708679, -0.5735765099525452, -0.0, -1.8197823762893677, -0.4416574239730835, 3.245922565460205, 1.0 ], "intrinsic": { "height": 2160, "intrinsic_matrix": [ 2306.217300415039, 0.0, 0.0, 0.0, 2306.217300415039, 0.0, 2088.0, 1080.0, 1.0 ], "width": 4176 }, "version_major": 1, "version_minor": 0 }, "camera_details": { "sensor_width_mm": 36.0, "sensor_height_mm": 27.0, "focal_length_mm": 19.881183624267578, "sensor_fit": "HORIZONTAL", "fx_pixels": 2306.217300415039, "fy_pixels": 2306.217300415039, "cx_pixels": 2088.0, "cy_pixels": 1080.0 }, "notes": { "coordinate_system": "Extrinsic matrix uses computer vision convention (Y-up, -Z forward)", "extrinsic_format": "Column-major 4x4 matrix (world-to-camera transformation)", "intrinsic_format": "Row-major 3x3 matrix [fx, 0, 0, 0, fy, 0, cx, cy, 1]", "quaternion_order": "WXYZ (scalar first)", "location_units": "Blender units (meters)" } }

真正有价值的视频数据，

也不该止于视频本身。

robot_view_camera_params

{ "video_id": "CupMove.mp4", "task": "Robotic Pick and Place", "scene": "Dining room, round wooden table with magazines and decor", "steps": [ { "start_frame": 0, "end_frame": 90, "skill": "Pick", "description": "The robotic gripper descends from above, aligns with the white patterned cup on the table, and closes its jaws to grasp the cup." }, { "start_frame": 90, "end_frame": 180, "skill": "Transport", "description": "The robotic arm lifts the cup vertically, moves it horizontally to the left side of the table, and lowers it towards the surface." }, { "start_frame": 180, "end_frame": 210, "skill": "Place", "description": "The gripper opens to release the cup onto the table surface and the arm retracts upwards to complete the task." } ] }