AI 시뮬레이션에서 정확도를 말하는 법

AI 시뮬레이션에서 “정확도 95%” 같은 표현은 대부분 부족합니다. 공학 문제에서는 무엇을 기준으로, 어떤 경우에서, 어떤 오차가 제품 결정에 영향을 주는지를 따져야 합니다. 평균 오차가 낮아도 위험 영역에서 틀리면 쓸 수 없습니다.

1. metric을 분리합니다

결과장은 여러 방식으로 평가됩니다. L2 error, peak error, boundary flux error, integral quantity, QoI error는 서로 다릅니다. bracket 문제에서는 최대 응력 위치가 중요할 수 있고, 열 문제에서는 특정 부품의 peak temperature가 중요할 수 있습니다.

2. validation set의 분포

검증 데이터가 쉬운 형상에 몰려 있으면 실제 설계에서 성능이 떨어집니다. geometry complexity, material, load magnitude, boundary condition, mesh resolution, operating regime별로 validation split을 나눠야 합니다. OOD case를 따로 둬야 모델의 경계를 볼 수 있습니다.

3. decision threshold

제품 판단에는 임계값이 있습니다. 최대 온도 80도 이하, 변위 2 mm 이하, safety factor 1.5 이상처럼 명확한 기준이 있어야 합니다. 모델 오차가 이 기준 근처에서 얼마나 큰지가 평균 오차보다 중요할 때가 많습니다.

4. 권장 표현

“정확하다”보다 다음처럼 말해야 합니다. “알루미늄 bracket 선형 정적 케이스 420개 validation set에서 tip displacement MAE 0.08 mm, 95th percentile 0.21 mm였고, 2 mm threshold 근처 30개 케이스 중 3개는 full CAE 재검토가 필요했다.” 이런 표현이 제품 회의에서 쓸 수 있는 정확도입니다.

5. 정확도 보고서의 최소 표

항목	나쁜 보고	좋은 보고
데이터	validation set에서 좋음	train 1,800 / validation 420 / OOD 120, geometry family 분리
field	오차 낮음	von Mises field relative L2 median 4.8%, 95th 12.6%
QoI	peak stress 잘 맞음	max displacement MAE 0.08 mm, hotspot distance median 3.2 mm
threshold	대부분 pass/fail 맞음	2 mm margin 10% 이내 케이스는 자동 승인 금지
uncertainty	confidence 높음	material scatter와 boundary uncertainty 포함/미포함 구분

6. 평균 오차가 위험한 이유

제품 설계에서는 대부분의 영역이 안전하고 작은 영역만 위험한 경우가 많습니다. field 전체 평균 오차는 낮아도 fillet root, contact edge, thin rib root 같은 작은 위험 영역을 놓치면 판단은 틀립니다. 따라서 hotspot recall, threshold-near-case error, false pass rate를 별도로 봐야 합니다.

7. regime별 정확도

정확도는 regime별로 분리해야 합니다. 같은 모델이라도 작은 변형 선형 영역에서는 잘 맞고, 접촉이 열리는 순간부터 틀릴 수 있습니다. 낮은 Reynolds 수에서는 괜찮고 separation이 강한 유동에서는 틀릴 수 있습니다. 물리 foundation model benchmark가 평균 점수만으로 범용성을 말하기 어렵다고 지적하는 이유도 이 때문입니다.

8. 제품 결정용 표현

제품 회의에 들어가는 표현은 “model score”보다 “decision state”여야 합니다. 예를 들어 “green: threshold와 충분히 멀어 screening 통과”, “yellow: threshold 근처라 full CAE 필요”, “red: validation envelope 밖”처럼 말해야 합니다. 정확도는 모델 자랑이 아니라 다음 행동을 정하는 언어입니다.

9. uncertainty를 report에 넣는 법

AI 시뮬레이션의 uncertainty는 하나의 confidence badge로 끝내면 안 됩니다. 입력 uncertainty, numerical uncertainty, model-form uncertainty, surrogate uncertainty를 분리해 적어야 합니다. 예를 들어 재료 탄성계수가 ±8% 흔들리는 문제와 AI surrogate 자체가 OOD에서 흔들리는 문제는 다른 해결책이 필요합니다.

threshold 근처에서는 uncertainty band가 pass/fail 결정을 뒤집을 수 있습니다. 따라서 report에는 best estimate만 아니라 BE+U, 즉 best estimate plus uncertainty 형태의 범위를 남기는 것이 좋습니다. 이 방식은 제품 팀이 “통과처럼 보이지만 불확실성이 margin보다 크다”는 상황을 이해하게 해줍니다.

참고 자료: Bias-aware Physics Foundation Model Benchmark, PDEBench.

AI 시뮬레이션에서 정확도를 말하는 법

읽기 전에 보는 검토 지도

Question

Inputs

Gate

Output