자율셔틀 CF 평가, 뭐가 약점인가 (대표성, 누적오차, 통합점수)

 

자율셔틀 CF 평가, 뭐가 약점인가 (대표성, 누적오차, 통합점수)
자율셔틀 CF 평가, 뭐가 약점인가 (대표성, 누적오차, 통합점수)


자율셔틀(AS)의 추종주행(Car-Following, CF)을 “현장 데이터로 보정하고, 여러 모델을 같은 잣대로 비교한다”는 시도는 생각보다 어렵습니다. 이 논문은 AS 전용 CF 연구 공백을 정면으로 겨냥했고, ML·전통모형을 한 데이터로 학습/보정한 뒤 정확도·안정성·유사성을 묶어 평가하는 프레임워크까지 제안했습니다. 다만 실무에서 바로 ‘정답 모델’을 고르기엔, 데이터 대표성과 재귀 시뮬레이션 누적오차, 그리고 Z-score 통합점수의 공정성 문제가 함께 정리될 필요가 있습니다.

대표성: “레이크 노나 4,000초”로 결론을 얼마나 믿어도 될까

사용자 비평의 핵심 중 하나는 “XGBoost가 최상”이라는 결론의 일반화 가능성입니다. 논문은 Lake Nona(Orlando, Florida)에서 수집한 자율셔틀(AS)과 선행 HDV의 동기화된 궤적 데이터를 사용하고, 정제 후 유효 데이터가 약 4,000초 수준이라고 명시합니다. 또한 4일 이상의 운행에서 얻었지만, 센서 탐지 범위 내에서 ‘유효한 car-following 구간’만 남겼고, 관측 간격이 2초를 넘으면 구간을 분할해 결측/누적오차를 줄였다고 설명합니다. 즉 “현장 데이터 기반”이라는 장점과 동시에, “특정 지역·특정 운영환경·특정 플랫폼에서 추출된 짧은 유효 구간”이라는 한계가 동시에 존재합니다.

여기서 중요한 지점은, 데이터가 적다는 사실 자체보다 “적은 데이터가 어떤 방향으로 모델 순위를 왜곡할 수 있는가”입니다. 논문은 Kalman filter로 GPS 노이즈를 줄였고, process noise covariance Q와 measurement noise covariance R을 구체 값으로 제시합니다(Q의 대각 원소 0.1, 0.01, 0.001 / R=0.5). 이는 재현성 관점에서 좋은데, 동시에 ‘필터 설정이 모델 비교 결과에 미치는 영향’이 평가 프레임워크 안에 섞일 여지가 있습니다. 필터가 과도하면 가속도 진동이 줄어 안정성(FFT, CV)이 좋아 보일 수 있고, 부족하면 반대로 노이즈가 모델 성능으로 오인될 수 있습니다. 논문은 수치 설정의 의도를 “position은 작은 변화 허용, velocity는 중간, acceleration은 최소 변동”으로 설명하지만, 이 선택이 다른 사이트/센서/운영 속도대에서도 동일하게 적합하다는 근거는 제한적입니다.

따라서 사용자 제안처럼 최소한의 “대표성 보강 실험”이 들어가면 결론의 설득력이 크게 올라갑니다. 실무적으로도 다음 3가지만 추가돼도 메시지가 단단해집니다. 첫째, 날짜/시간대/혼잡도 구간별로 분할 검증을 해 “같은 장소에서도 조건이 바뀌면 순위가 유지되는지”를 보이는 방식입니다. 둘째, 노선(정차·출발 이벤트 빈도)이나 속도대(저속/중속) 별로 구간을 나눠, 모델이 잘하는 상황과 못하는 상황을 분리하는 방식입니다. 셋째, 가능하다면 외부 사이트 검증(다른 지역 혹은 다른 셔틀 플랫폼)을 1회라도 추가해 “이 프레임워크가 특정 데이터셋 튜닝의 산물이 아니다”라는 인상을 주는 방식입니다. 논문도 스스로 “특정 운영환경 데이터라 일반화가 제한될 수 있다”고 한계를 인정하고 있으므로, 결론 톤을 사용자 비평처럼 “본 데이터/환경에서 가장 균형적이었다”로 낮추고, 대신 “조건별 유불리 지도”를 전면에 두는 편이 학술적으로도 안전합니다.

이 지점에서 독자가 바로 적용할 수 있도록, ‘대표성’ 관점의 체크리스트를 제안합니다.

동일 플랫폼이라도 정차 이벤트(신호, 정류장)가 많은 구간과 적은 구간을 분리해 평가했는지 확인하는 것이 좋습니다.

센서 노이즈/필터링 설정(Q, R)이 바뀌어도 모델 순위가 유지되는지 민감도 분석을 하는 것이 좋습니다.

“유효 CF 구간” 정의(선행차 탐지 범위, 최소 지속시간 60초 조건 등)가 결과를 얼마나 바꾸는지 보고해야 합니다(논문은 60초 이상 트립만 포함한다고 밝힙니다).

대표성 논의를 정리하면, 이 논문은 “AS 현장 데이터 기반 ML CF”라는 희소한 공백을 채웠지만, 데이터의 외연이 아직 좁아서 결론을 강하게 확정하기보다는 “프레임워크+조건부 결론” 형태로 가져가는 것이 더 공정합니다. 이 방향이 오히려 실무자에게도 유용합니다. 왜냐하면 실무자는 ‘절대 1등 모델’보다 ‘내 목적과 내 환경에서 안전한 선택지’가 필요하기 때문입니다.

대표성 리스크 요인 실무/연구 보강 방법
단일 지역(Lake Nona)·특정 운영환경 날짜/혼잡도/속도대 분할 검증 + 외부 사이트 1회 검증
Kalman filter(Q, R) 설정 의존 Q, R 변화에 대한 순위 민감도 분석(안정성 지표 포함)
유효 CF 구간 정의(탐지 범위, 60초 이상 트립) 구간 정의 변경 실험 + 결과 보고(분할 기준의 영향 공개)

누적오차: 가속도 예측을 적분하면 “모델 성능”이 아니라 “드리프트 내성”을 뽑게 됩니다

사용자 비평에서 특히 날카로운 부분이 “가속도 예측 → 속도/위치 적분”이 재귀적으로 진행될 때 생기는 누적오차 문제입니다. 논문은 모든 모델이 동일하게, 입력(Δv, Δs, a_f,t−1, v_f,t−1)으로 다음 시점 가속도 a(t)를 예측하고, 그 가속도를 표준 운동학 방정식으로 적분해 follower의 speed와 position을 업데이트한다고 명확히 밝힙니다. 즉 모델 평가는 본질적으로 “1-step 가속도 회귀의 정확도”와 “multi-step 재귀 시뮬레이션에서의 누적 드리프트”가 섞인 결과입니다.

이 구조에서 자주 발생하는 착시는 다음과 같습니다.

어떤 모델은 순간 가속도는 잘 맞지만 아주 작은 편향이 지속되어 position에서 크게 떠밀리는 드리프트가 생길 수 있습니다.

반대로 어떤 모델은 순간 반응성이 둔해 가속도 단기오차가 커도, 결과적으로 ‘부드럽게’ 따라가며 장기 position은 덜 흔들릴 수 있습니다.
논문이 “LSTM/CNN이 장기 position 안정은 잡지만 단기 응답성이 떨어진다”는 식의 해석을 제시하는데, 이것이 ‘시계열 모델의 본질적 장점’일 수도 있고, ‘재귀 적분에서 편향이 누적되는 방식’이 모델마다 달라 생기는 현상일 수도 있습니다. 실제로 논문은 sequential 모델(LSTM, Transformer)이 temporal dependency와 positional stability를 더 잘 잡는 경향이 있음을 정리하면서도, 데이터 희소성과 노이즈가 복잡 모델에 불리할 수 있다고도 말합니다. 이 상반된 진술은 “재귀 누적오차가 성능 비교에 섞였을 가능성”을 더 강하게 시사합니다.

따라서 사용자 제안처럼 평가를 “one-step”과 “multi-step”으로 분리하는 것이 핵심 보강 포인트입니다. 논문 프레임워크가 이미 error(점별), stability(진동), similarity(분포/정렬)를 다루고 있으므로, 이를 다음처럼 재구성하면 메시지가 명확해집니다.

one-step 평가: a(t) 예측 자체의 MAE/RMSE/MSE 중심으로 “순간 반응성”을 봅니다. 논문도 학습 손실로 가속도 MSE를 썼고, Table 1의 error prediction이 바로 이 성격입니다.

multi-step 평가: speed/position까지 적분한 뒤 DTW/EMD/K–S 같은 similarity와 Theil U, FFT, CV 같은 안정성 지표를 보되, 이 값이 “드리프트+진동”의 합이라는 점을 해석에 반영합니다.

여기에 한 가지를 더하면, 사용자 비평의 “드리프트 보정 variant”가 의미 있게 들어갑니다. 예를 들어 position 비교에서 구간별 정렬(세그먼트 시작점 재정렬)이나 평균 편향 제거(구간 평균 오프셋 제거)를 한 뒤에도 모델 순위가 유지되는지 보여주는 것입니다. 이것은 특정 모델이 “사실은 constant bias가 작은 것뿐”인지, 아니면 “동역학 자체를 잘 재현하는지”를 가르는 데 도움이 됩니다. 논문은 stability 지표 중 Theil U를 bias(B), variance(V), covariance(C)로 분해하는 장점이 있으므로, 이 분해 결과를 “누적오차의 원인” 분석에 더 적극적으로 연결하면 해석력이 올라갑니다(지금도 Table 1에 Theil U 분해가 설명돼 있습니다).

또 하나의 현실적인 쟁점은 입력 피처의 단순성입니다. 논문은 입력을 Δv, Δs, a_f(t-1), v_f(t-1)로 제한하고, 이를 “car-following dynamics의 essential aspects”로 설명합니다. 그러나 사용자 비평대로 CF 맥락에서는 리더 가속/급감속, jerk, headway 변화율, 정지·출발 이벤트(신호·정류장) 등이 누적오차의 양상을 크게 바꿀 수 있습니다. 피처가 단순하면, 시계열 모델이 가진 ‘시간적 문맥 활용’ 이점이 충분히 발휘되지 못하고, 오히려 트리 기반(특히 XGBoost)이 상대적으로 유리해질 수 있습니다. 실제로 논문 결과 해석은 “트리 기반이 비선형 상호작용을 잘 잡아서 가속도 예측과 안정성에서 강하다”는 쪽에 무게가 실려 있습니다. 그 말이 틀렸다기보다, “피처가 단순할수록 트리 기반이 유리한 실험 디자인”이 될 수 있다는 점을 같이 밝혀야 공정합니다.

결국 누적오차 문제는 “모델이 못했다”가 아니라 “평가 설계가 무엇을 측정했는지”의 문제입니다. 이 논문이 제안한 multi-criteria 자체는 유용하지만, 재귀 적분을 포함한 평가에서 ‘드리프트 내성’이 성능에 섞일 수 있음을 분리 보고하면, 사용자 비평처럼 실무 활용성(시뮬레이션용 CF 선택)이 훨씬 높아집니다.

Z점수: 통합 점수는 편하지만, “가중치·중복·분포”를 숨기기 쉽습니다

사용자 비평이 가장 중요한 지점을 짚은 부분이 바로 통합 점수, 즉 Z-score 기반 multi-criteria 프레임워크의 공정성과 해석가능성입니다. 논문은 Table 1의 지표들을 error prediction, trajectory stability, trajectory similarity로 묶고, 각 지표를 Z-score로 정규화한 뒤(식 (1)), “낮을수록 좋다”로 스케일을 맞추고, 항목 평균으로 점수를 계산합니다(식 (2)). 그리고 acceleration/speed/position의 Z-score를 다시 평균해 최종 순위를 제시합니다. 또한 Figure 3에서 XGBoost와 FNN이 가장 낮은 overall Z-score(즉 가장 좋음)로 나타나고, SVM/IDM이 가장 나쁘다고 정리합니다.

이 방식의 장점은 분명합니다.

지표가 많아도 “같은 단위”로 비교할 수 있습니다.

error(점별), stability(진동/편향), similarity(분포/정렬)를 함께 보면서 단일 지표 함정을 피합니다.

실제로 Figure 1(페이지 28)에서 모델별로 MAE/RMSE/MSE가 좋은데 FFT나 CV가 나쁜 경우(IDM처럼)가 눈에 띄고, 반대로 특정 모델은 similarity가 좋아도 error가 애매할 수 있음을 보여줍니다. 이런 상황에서 통합 프레임워크는 의사결정에 도움을 줍니다.

하지만 “의사결정에 도움이 된다”와 “공정하고 일반화 가능하다”는 다른 문제입니다. 사용자 비평의 우려를 논문 구조와 연결해 더 분명히 정리하면, 위험은 크게 3가지입니다.

첫째, 가중치 문제입니다. 논문은 기본적으로 평균을 사용하므로 사실상 동등 가중치입니다. 그런데 실무에서 CF 모델 선택 목적은 다릅니다. 승차감(진동/가감속 변화)을 우선하면 stability에 더 가중을 줘야 하고, 용량/추종 효율을 우선하면 error나 trend alignment(Theil 관련)에 더 가중을 둘 수 있습니다. 따라서 “XGBoost가 최상”은 “동등 가중치에서”라는 조건부 결론이어야 합니다. 논문이 practical applications에서 시뮬레이션 적용을 강조하는 만큼, 가중치 시나리오(예: 안정성 2배, 유사성 2배)를 최소 2~3개 제시하는 것이 공정합니다.

둘째, 지표 중복(상관) 문제입니다. Table 1의 error metric은 MAE/RMSE/MSE로 구성되어 있는데, 이들은 서로 강하게 연동되는 경우가 많습니다. 연동되는 지표를 동시에 평균하면 사실상 error를 2~3번 세는 효과가 생길 수 있습니다. stability도 FFT, CV, Theil U(및 B/V/C)처럼 서로 관련성이 있을 수 있습니다. 해결책은 복잡하지 않습니다. “축약 세트”를 하나 더 제시하면 됩니다. 예를 들어 error는 RMSE 하나만, stability는 FFT와 Theil U만, similarity는 DTW와 EMD만 쓰는 축약 버전을 만들어도, 통합 점수의 해석가능성이 좋아집니다. 그리고 축약 버전에서도 XGBoost/FNN 우위가 유지되는지 보여주면, 결론은 훨씬 강해집니다.

셋째, Z-score의 분포 안정성 문제입니다. 표본이 작거나 분포가 비대칭이면 Z-score는 한두 개 극단값에 흔들릴 수 있습니다. 논문은 유효 데이터가 약 4,000초이고, 여러 세그먼트로 쪼개서 평가합니다. 이때 “모델별 지표 분포가 얼마나 정규성에 가까운지, 극단값이 얼마나 있는지”가 통합 점수에 큰 영향을 줄 수 있습니다. 그래서 최소한 박스플롯/분포 요약(평균±표준편차만이 아니라 사분위 등)을 제시하거나, Z-score 대신 robust scaling(예: median과 IQR 기반)을 대안으로 비교해도 좋습니다. 논문이 “일반화 가능한 방법론”을 주장하는 만큼, Z-score의 취약 케이스를 최소 1회라도 인정하고 보완안을 붙이는 것이 안전합니다.

여기에 사용자가 제안한 Pareto front(다목적 최적)를 같이 제시하면 ‘통합 점수’의 단점을 크게 줄일 수 있습니다. 예를 들어 (1) error score, (2) stability score, (3) similarity score를 3축으로 놓고, 지배(dominance) 관계를 표시하면 “XGBoost는 error·stability가 강하지만 similarity는 중간” 같은 논문 해석이 시각적으로 더 납득됩니다(논문도 트리 기반은 temporal continuity 한계로 similarity가 약할 수 있다고 설명합니다). 즉 통합 점수는 순위를 주되, Pareto front는 트레이드오프를 설명합니다. 둘을 함께 쓰면 실무자는 “내 목적에 맞는 타협점”을 고를 수 있습니다.

마지막으로 안정성 지표 산출 투명성 이슈도 연결됩니다. Table 1은 FFT, CV, Theil U의 개념을 설명하지만, 실제 계산에서 어떤 신호(가속/속도/위치) 기준으로 어떤 전처리(윈도잉, detrend, 구간 길이 정규화)를 했는지 상세가 부족하면 재현성이 떨어질 수 있습니다. 이는 곧 통합 점수의 공정성 문제로 이어집니다. 논문이 코드/모델을 공개 저장소로 제공한다고 밝힌 만큼, 본문이나 부록에 “FFT 설정(구간 길이, 주파수 해상도), CV 정의(정규화 기준), Theil 분해 적용 방식”을 고정값으로 명시하면, 프레임워크 자체의 신뢰도가 크게 올라갑니다.

정리하면, Z점수 통합은 ‘비교’에 강하지만 ‘설명’에 약해지기 쉽습니다. 사용자의 비평처럼 가중치 민감도, 지표 축약, Pareto front, 산출 투명성까지 보강하면, 이 논문의 가장 큰 장점(통합 평가 프레임워크)이 오히려 더 빛납니다. 그리고 그때 “XGBoost가 최상”은 ‘강한 주장’이 아니라 ‘검증된 조건부 주장’이 되어 리뷰어 관점에서도 안전해집니다.


이 논문은 AS CF라는 연구 공백을 겨냥해 ML·전통모형을 같은 데이터로 보정하고, 정확도·안정성·유사성을 통합 비교한 점이 분명한 성과입니다. 다만 대표성, 재귀 적분 누적오차, Z점수 공정성 보강이 더해지면 “XGBoost 최상”이 아니라 “조건별 최적 선택”으로 더 설득력 있게 완성됩니다.

자주 묻는 질문 (FAQ)

Q. 자율셔틀(AS) CF 모델에서 왜 가속도 a(t)를 예측 대상으로 두나요? A. 논문은 전통모형(IDM, ACC)이 가속도 방정식 형태를 쓰는 점과, RF·XGBoost 같은 회귀기가 “입력→단일 타깃” 학습에 적합하다는 점을 이유로 듭니다. 다만 a(t) 예측을 적분해 speed/position을 만들면 누적오차가 섞이므로 one-step과 multi-step 평가를 분리해 해석하는 것이 안전합니다.

Q. XGBoost가 1등이라는 결론을 바로 시뮬레이션에 적용해도 되나요?
A. 본 데이터(Lake Nona, 정제 후 약 4,000초 유효 구간)와 동일/유사 조건에서는 참고 가치가 큽니다. 그러나 지역·노선·혼잡도·플랫폼이 바뀌면 순위가 달라질 수 있으므로, 최소한 조건 분할 검증(시간대/정차 이벤트/속도대)과 가중치 민감도(안정성/유사성 강조)를 함께 보고 적용하는 것이 권장됩니다.

Q. Z-score 기반 통합 점수를 더 공정하게 만들려면 무엇을 추가하면 좋나요?
A. (1) 목적별 가중치 시나리오, (2) 상관 높은 지표를 줄인 축약 버전, (3) Pareto front로 트레이드오프를 병행 제시, (4) FFT·CV·Theil 산출 설정을 명시하는 방식이 현실적입니다. 이렇게 하면 단일 순위가 숨기는 정보를 드러내면서도 의사결정은 더 쉬워집니다.

[출처]
https://arxiv.org/html/2602.11517v1

댓글 쓰기

0 댓글

이 블로그 검색

신고하기

프로필