Engineering Foundation Model 不能只靠 CAD 文件训练。真正的数据单元应该是 engineering episode:geometry、semantic tag、mesh、material、boundary condition、solver provenance、convergence log、field output、QoI、uncertainty、validation data 和设计决策。
The Well、PDEBench、PhysiX、DoMINO 以及 2026 年 physics foundation model benchmark 都说明,数据规模之外,物理 regime、时间尺度、初始条件复杂度、OOD split 和工程指标同样关键。
- B-rep/CAD、mesh 与 feature tag。
- 边界/初始条件 provenance。
- 材料、制造、solver、mesh 和收敛信息。
- 场输出与 drag、温度、位移、反力等 QoI。
- multi-fidelity、uncertainty 与 validation evidence。
- 基于 regime 的 OOD split,而不只是随机划分。