아날로그 KAN, 하드웨어로 옮기기 (스플라인, 오차, 매핑)

아날로그 KAN, 하드웨어로 옮기기 (스플라인, 오차, 매핑)
아날로그 KAN, 하드웨어로 옮기기 (스플라인, 오차, 매핑)


FE(IGZO, N-type only)에서는 디지털을 늘리기 어렵다는 전제가 현실적입니다. 이 논문은 KAN을 “완전한 신경망 하드웨어”라기보다, Bezier spline을 아날로그 ABB로 조립해 함수근사를 수행하는 접근으로 풀어냅니다. 다만 KAN의 핵심인 학습–하드웨어 매핑, 지표 다양화, 코너/분포 검증이 보강되면 주장과 제목의 간극이 크게 줄어듭니다.

스플라인: Eq.4 선택이 ‘하드웨어 수학’으로 설득됩니다

이 논문의 가장 강한 지점은 문제–해법 매칭이 “FE 제약”에 맞춰 단단하게 잡혀 있다는 점입니다. 저자들은 FE가 큰 피처 사이즈와 제한된 소자 타입(IGZO 기반 N-type transistors)에 묶여, 디지털 함수근사(특히 LUT나 고정소수점 곱셈기 기반)가 면적·전력·설계 복잡도에서 부담이 커진다고 전제합니다. 그래서 함수근사를 디지털로 “정확하게” 하기보다, 아날로그에서 “충분히 근사하고 시스템에서 흡수”하는 방향으로 설계를 선택합니다.

그 선택을 단단하게 만드는 장치가 “generic하고 systematic한 ABB→spline→KAN” 빌딩블록 관점입니다. 논문은 KAN을 Kolmogorov-Arnold representation theorem에서 출발해, KAN layer가 basis function과 spline을 더한 형태로 정의되고(식 (1)), spline은 Bezier splines의 선형 결합으로 표현된다고 정리합니다(식 (2)). 그리고 본 구현의 핵심을 “spline의 아날로그 구현”으로 좁혀, 2차 Bezier spline을 선택합니다. 고차 spline이 더 정확할 수 있지만, FE에서 하드웨어 리소스가 급격히 늘어나는 현실을 고려해 2차로 타협하는 논리가 깔끔합니다.

여기서 사용자가 칭찬한 핵심은 Eq.3 대신 Eq.4로의 변환입니다. 2차 Bezier spline의 표준형은
B(x)=P0(1−x)^2 + 2P1(1−x)x + P2 x^2 (식 (3))인데, 논문은 이를 전개형으로 단순화해
B(x)=P0 + (P1−P0)2x + (P0−2P1+P2)x^2 (식 (4))로 바꿉니다.
이 “수학적 형태 선택”은 실제 하드웨어 비용으로 곧바로 연결됩니다. 논문은 Eq.3을 회로로 그대로 구현하면 subtractions 2개, multiplications 3개, squaring 2개, additions 2개로 총 9개 블록이 필요한 반면, Eq.4는 multiplications 2개, squaring 1개, additions 2개로 총 5개 블록이면 된다고 명시합니다.
즉, 이 논문은 “정확도가 아니라 비용”을 최적화하는 FE 맥락에서, 수학식을 바꾸는 것이 곧 면적/전력 설계 전략이 되는 전형적인 ‘하드웨어 수학’ 사례를 제공합니다.

ABB 설계도 FE 제약과 일관됩니다. 논문은 Resistor-Transistor Logic(RTL) 전략으로 inversion, subtraction, addition, multiplication, squaring ABB를 제시합니다. 특히 multiplication은 Gilbert cell을 기반으로 하되 N-type only로 변형하고, 정확도를 개선하기 위해 Vdd − A 보정 subtraction을 추가했다고 설명합니다. squaring은 입력 범위가 제한됨을 이용해 multiplication을 더 단순화해 Vdd − A 보정을 제거하고 Vbias로 대체해 면적·전력을 줄였다고 합니다.
이 흐름은 “FE에서는 범위를 알고 최적화하면 이긴다”는 실전적 메시지를 줍니다.

또한 논문은 입력 범위를 [-0.5, 0.5]로 정규화해(= [−Vdd/2, Vdd/2]) 모든 ABB가 동일한 동작 범위에서 설계되도록 고정합니다. 이 때문에 spline 구현에서도 제어점(control points) P0, P1, P2의 차이값 범위가 제한됩니다. 예컨대 (P1−P0)2가 [-0.5,0.5]에 들어야 하므로 P1−P0 ∈ [−0.25,0.25]이고, 유도 과정을 통해 P2−P1 ∈ [−0.75,0.75] 범위를 제시합니다.
이 부분은 장점과 한계를 동시에 갖습니다. 장점은 “회로가 가능해지는 설계 조건”을 논문이 명확히 적어준 것입니다. 한계는 “학습된 KAN 파라미터가 이 제약을 만족해야 한다”는 뜻이기도 합니다. 즉, 이 논문이 정말로 ‘KAN 하드웨어’까지 주장하려면, 이 입력/계수 범위를 학습 과정에서 어떻게 자연스럽게 만족시키는지(정규화, 스케일링, 제약 최적화)가 이어져야 합니다. 현재는 “Pi를 입력 전압으로 준다”는 선언에서 멈추기 쉬운데, 바로 여기서 제목이 기대하는 KAN의 범위와 실제 기여(아날로그 spline/ABB)의 간극이 생깁니다.

결국 스플라인 파트는 매우 설득력이 높습니다. Eq.4 선택과 ABB 조립 구조는 FE에서 곧바로 재사용 가능한 지식입니다. 논문의 다음 설득 단계는 “스플라인을 KAN으로 확장하는 순간 발생하는 저장·프로그래밍·가중합 정확도” 문제를 더 구체적으로 끌고 오는 것입니다.

오차: NMPE는 시작점이고, 구간/분포 지표가 설득을 완성합니다

사용자 비평처럼, 이 논문이 좋은 이유는 오차를 숨기지 않는 태도입니다. 논문은 ABB 단위 오차를 Normalized Mean Percentage Error(NMPE)로 제시합니다. 예를 들어 INV 2.66%, SUB -4.7%, ADD -4.23%, MUL -6.99%, SQR -7.93%로 블록별 오차의 방향(underestimate/overestimate)까지 설명합니다(Table III). 그리고 이 오차가 spline로 조립될 때 단순 누적이 아니라 일부 상쇄될 수 있음을 관찰하며, 세 가지 시나리오(P0,P1,P2 값 설정)에서 full spline NMPE를 비교해 최대 -7.58%까지 나온다고 제시합니다(Table IV). 여기에 더해 post-layout에서 parasitic 때문에 -6.34%였던 케이스가 -7.58%로 악화되는 것도 그림(Fig.6)으로 보여줍니다.

이 구성은 “회로 오차 → 시스템 오차”의 연결고리를 독자가 따라가게 만든다는 점에서 교육적으로도 좋습니다. 특히 FE에서는 post-layout 이후 오차가 커지는 사례가 흔하므로, 이 지점을 숨기지 않고 공개한 것은 신뢰를 높입니다.

다만 오차 지표가 NMPE 하나로 지나치게 수렴하는 문제는 여전히 남습니다. NMPE는 평균적 성격이 강해, 함수근사에서 가장 위험한 “특정 구간의 급격한 튐(worst-case)”을 가릴 수 있습니다. spline은 특히 구간 경계나 곡률이 큰 구간에서 문제가 생기기 쉬운데, 논문은 2차 spline을 쓰고 입력 범위도 좁아서 겉보기 평균은 좋아 보일 수 있습니다. 그러다 실제 응용에서 입력 분포가 치우치거나, 특정 구간의 오차가 다운스트림 임계판정(예: threshold-based event detection)을 바꾸면 시스템은 쉽게 망가질 수 있습니다.

따라서 가장 효율적인 보강은 “NMPE를 버리고 다른 지표로 바꾸기”가 아니라, NMPE를 유지하되 최소 2개의 보조 지표를 추가하는 것입니다.

구간별 최대오차(worst-case error)입니다. 입력 범위 [-0.5,0.5]를 여러 bin으로 나눠 최대 절대오차를 제시하면, 어느 구간이 위험한지 바로 보입니다.

단조성/형상 보존(monotonicity/shape preservation)입니다. 특정 목표 함수가 단조여야 하는 구간에서 아날로그 근사가 단조를 깨면, 평균 오차가 작아도 시스템이 실패할 수 있습니다.

또 하나는 분포 기반 보고입니다. 논문은 27ºC, Vdd 1.0V, Vin ramp(-0.5→0.5, 10ms)라는 단일 조건에서 결과를 제시합니다(IV-A).
FE는 공정/온도/저항 편차에 민감하므로, 최소한 TT/FF/SS 같은 코너 또는 Monte Carlo로 NMPE와 최대오차의 p50/p95/p99 정도라도 보여주면 “쓸 수 있는가”의 답이 훨씬 선명해집니다. 특히 MUL과 SQR에서 큰 음의 편향(-6.99%, -7.93%)이 나온 이유가 회로 동작점에 얼마나 민감한지, 그리고 그 편향이 코너에서 악화되는지 완화되는지가 중요합니다.

사용자 비평의 또 다른 포인트는 디지털 비교의 공정성입니다. 논문은 PragmatIC PDK로 standard cell library를 만들고, Synopsys Design Compiler로 합성한 8-bit fixed-point digital spline(6-bit decimal, 1 signed bit)을 baseline으로 삼습니다.
그리고 하드웨어 비용 비교에서 analog spline area 0.073 mm², power 238.5 µW vs digital spline area 9.111 mm², power 266.735 µW로, 면적 125× 감소와 전력 10.59% 절감을 제시합니다(Table II).
이 수치는 임팩트가 큰데, 공정한 비교를 만들려면 “디지털도 FE에서 근사 최적화된 대안(LUT, mixed-signal, approximate arithmetic)을 쓸 수 있다”는 반론을 미리 흡수하는 설명이 필요합니다. 논문도 관련 연구 [13], [14]가 LUT 기반 co-optimization을 썼지만 FE에서는 복잡해 제외했다고 말합니다.
그럼에도 독자는 “그럼 디지털이 최적화되면 격차가 얼마나 줄어드나?”를 묻게 됩니다. 이 질문에 완답을 하지 않더라도, 비교의 스코프를 명확히 해두면 설득력이 유지됩니다. 예를 들어 “동일 공정, 동일 정밀도(8-bit), 동일 기능(단일 spline), 합성 기반 baseline”이라는 조건을 표로 박아두면, 독자는 이 결과를 과대해석하지 않고 ‘FE에서 합성 기반 디지털은 매우 비싸다’는 사실로 받아들이게 됩니다.

아래 표는 논문이 이미 제시한 핵심 수치를 “설득력을 올리는 보고 포맷”으로 재배치한 예시입니다.

항목 논문에서 제시한 값/방식 보강하면 설득이 커지는 지점
하드웨어 비용 비교 Analog spline 0.073mm²/238.5µW vs Digital 9.111mm²/266.735µW (Table II) 비교 스코프(합성 baseline, 8-bit fixed-point, 단일 spline) 표준화 + 디지털 최적화 가능성 범위 명시
오차 지표 NMPE 중심(ABB Table III, full spline Table IV, post-layout Fig.6) 구간별 최대오차 + 단조성/형상 보존 + 코너/몬테카를로 분포(p95/p99)
오차–시스템 영향 -7.58% 노이즈를 spline에 주고 KAN 성능이 x²<1%, eˣ<5% 악화(Fig.7) 노이즈 유형을 bias/입력의존 비선형/랜덤 변동으로 분리한 스트레스 테스트

정리하면, 이 논문은 오차를 정직하게 보여주고(post-layout까지), KAN이 일정 수준의 오차에 둔감할 수 있다는 가능성도 시뮬레이션으로 연결합니다(Fig.7). 다만 “FE에서 배치 가능”까지 주장하려면, 평균 지표(NMPE) 외에 worst-case·단조성·분포(코너/몬테카를로)까지 보고 포맷을 확장하는 것이 가장 빠른 보강입니다.

매핑: ‘Pi를 입력 전압으로 준다’에서 ‘학습–프로그램–운용’으로 넘어가야 합니다

사용자 비평에서 가장 중요한 약점 지적은 “KAN 구현 범위가 사실상 아날로그 spline + 저항 MAC 소개 수준”이라는 점입니다. 논문은 KAN을 구성할 때 splines를 여러 개 만들고, 이들의 weighted sum을 analog MAC으로 수행할 수 있다고 설명합니다. 구체적으로 각 spline 출력에 직렬 저항을 달고 병렬로 묶어 합을 만들며, 저항값으로 가중치를 조절한다고 제시합니다(Fig.4). 이 설명은 방향성은 맞지만, KAN의 핵심 요구사항인 (i) spline의 개수/구간 확장, (ii) 학습된 계수(Pi)의 저장/프로그램, (iii) 가중합의 정확도와 드리프트 관리가 구체화되지 않으면 “아날로그 KAN”이라는 타이틀이 과대하게 느껴질 수 있습니다.

논문도 스스로 이 경계를 어느 정도 인정합니다. “Pi를 입력으로 취급하면 하드웨어는 training process와 Pi 값과 독립이며, retraining 시 재설계가 아니라 입력만 업데이트하면 된다”고 말합니다.
하지만 바로 그 문장이 ‘매핑의 빈칸’을 드러냅니다. 실전 시스템에서 Pi 입력 전압은 어디에서, 어떤 비용으로, 어느 안정도로 제공되는지 결정해야 합니다. Pi는 곧 “학습 결과”이고, FE 장치에서는 이 값을 저장하고 업데이트하는 방식이 시스템의 면적·전력·신뢰성을 결정합니다. 그래서 “학습–하드웨어 매핑”을 한 단계만 구체화해도 논문의 메시지가 확 달라집니다.

가장 현실적인 보강은 옵션을 3가지로 나누고, 각각의 트레이드오프를 짧은 표로 제시하는 것입니다.

외부 DAC 기반 Pi 제공입니다. 가장 단순하고 정확하지만, FE 단독 자율성은 떨어집니다. 센서 패치가 항상 DAC/MCU와 붙어야 한다면, 이 논문이 겨냥한 “FE에서 디지털이 비싸다”는 전제와 다시 충돌할 수 있습니다.

프로그래머블 저항/저항 네트워크 기반 Pi 매핑입니다. 논문이 이미 저항 MAC을 사용하므로, 저항을 프로그램 가능한 형태(예: 다단 저항 선택, 레이저 트림, OTP 패턴)로 만들면 일관된 설계 언어를 유지할 수 있습니다. 다만 업데이트 가능성(재학습 반영)은 제한될 수 있습니다.

capacitor 저장(sample-and-hold) 기반 Pi 유지입니다. 업데이트는 쉽지만 누설/드리프트로 인해 장기 안정성이 문제입니다. FE가 “장기 베이스라인” 응용을 겨냥할수록(웨어러블/센서) 이 방식은 유지보수 부담이 됩니다.

이 세 옵션을 다 풀어 쓰지 않아도, “Pi는 입력이다”를 “Pi는 시스템 자원이다”로 바꾸는 순간, 제목과 기여가 정렬됩니다. 또한 앞서 지적한 입력 범위 제약([-0.5,0.5], P1−P0 범위 등)을 학습 쪽에서 어떻게 맞출지 연결해야 합니다.
예를 들어 학습 시 spline control points를 정규화하거나, (P1−P0), (P0−2P1+P2)의 범위를 제약으로 넣어야 하는데, 그러면 KAN의 표현력과 수렴성이 영향을 받을 수 있습니다. “하드웨어가 요구하는 제약을 학습이 얼마나 자연스럽게 만족하는가”는 KAN 하드웨어 논문에서 피할 수 없는 질문입니다. 지금 논문은 이 질문을 미래 과제로 넘기고 있는데, 최소한 “이 제약을 만족시키기 위한 학습 측 스케일링/정규화 아이디어” 한두 문단만 들어가도 완성도가 크게 올라갑니다.

또한 KAN이 오차에 둔감하다는 주장도 스트레스 테스트의 종류를 늘리면 더 단단해집니다. 논문은 -7.58%의 “고정 노이즈”를 spline에 적용해 x²와 eˣ 근사에서 오차 증가가 제한적이라고 보여줍니다(Fig.7).
하지만 하드웨어 오차는 보통 세 가지로 나뉩니다.

bias(상수 편향)

입력 의존 비선형 왜곡(구간에 따라 오차가 다르게 커짐)

랜덤 변동(공정/온도/시간에 따라 흔들림)
KAN이 정말로 “하드웨어 오차에 둔감”하다고 주장하려면, 이 세 가지를 분리해 실험해야 합니다. 특히 spline은 구간별 왜곡에 취약할 수 있으므로, “bias에는 강하지만 입력의존 왜곡에는 약하다” 같은 결과가 나와도 이상하지 않습니다. 이런 식의 결과는 오히려 논문을 약하게 만들기보다, 설계자가 어떤 오차를 우선 억제해야 하는지 알려주어 실용성을 높입니다.

마지막으로, 논문은 voltage domain이 operating range를 제한한다고 인정하고, future work로 current domain 전환을 언급합니다.
이 한 줄은 사실상 “매핑의 핵심”과도 연결됩니다. 전압으로 Pi를 넣는 방식이 드리프트/헤드룸 제약을 크게 받는다면, current domain은 (1) 합산(MAC)의 자연스러움, (2) 넓은 다이내믹레인지, (3) 저항 기반 가중치 구현과의 정합성에서 장점이 있을 수 있습니다. 즉, KAN을 진짜로 ‘네트워크’로 키우려면 domain 선택 자체가 다음 연구의 중심이 될 가능성이 큽니다.

정리하면, 이 논문은 FE에서 가장 힘든 “디지털 대체”를 아날로그 함수근사로 푸는 접근을 매우 깔끔한 ABB→spline 설계로 보여줍니다. 다만 KAN이라는 이름을 온전히 가져가려면, Pi 저장/업데이트와 가중합 정확도, 학습 제약의 반영까지를 “시스템 매핑” 관점으로 한 단계 더 구체화해야 합니다. 그 보강이 들어가면, 현재의 강점(수학적 단순화로 블록 수 절감, 면적 125× 절감, post-layout 오차 공개)이 ‘아날로그 KAN’이라는 큰 주장과 자연스럽게 합쳐질 것입니다.

이 논문은 FE 제약에서 디지털 대신 아날로그 ABB로 Bezier spline을 조립해 함수근사를 구현하고, Eq.4 선택으로 비용을 크게 낮춘 점이 강점입니다. 다만 NMPE 외 지표·코너 분포, 그리고 Pi 저장/학습 제약까지 포함한 매핑이 보강되면 “아날로그 KAN” 주장과 실전성이 더 단단해집니다.

자주 묻는 질문 (FAQ)

Q. Eq.3 대신 Eq.4를 쓰는 것이 왜 그렇게 중요한가요? A. Eq.4는 같은 2차 Bezier spline을 더 적은 연산 블록으로 구현하게 해줍니다. 논문은 Eq.3이 9개 블록이 필요한 반면 Eq.4는 5개 블록(2×MUL, 1×SQR, 2×ADD)로 줄어 면적/전력 절감이 가능하다고 설명합니다.

Q. NMPE가 낮으면 근사가 안전하다고 봐도 되나요?
A. NMPE는 평균 오차 성격이라 유용하지만, 특정 구간의 최대오차나 단조성 붕괴 같은 “최악 구간 실패”를 가릴 수 있습니다. 함수근사는 구간별 튐이 치명적일 수 있으므로, 구간별 최대오차와 단조성/형상 보존 지표를 함께 보는 것이 안전합니다.

Q. ‘Pi를 입력 전압으로 준다’는 말이 실제 시스템에서는 무엇을 의미하나요?
A. 학습된 Pi 값을 어떤 방식으로 저장·업데이트할지(외부 DAC, 프로그래머블 저항, capacitor 저장 등)와 그 비용/드리프트가 시스템의 실전성을 좌우한다는 뜻입니다. 이 매핑을 구체화하면 KAN 하드웨어 주장(재학습 시 입력만 업데이트)이 더 설득력 있게 됩니다.

[출처]
https://arxiv.org/html/2502.01489v1

댓글 쓰기

0 댓글

이 블로그 검색

신고하기

프로필