aKAN 하드웨어, 공정성부터 보자 (RNPU, 혼합신호, 비교범위)

aKAN 하드웨어, 공정성부터 보자 (RNPU, 혼합신호, 비교범위)
aKAN 하드웨어, 공정성부터 보자 (RNPU, 혼합신호, 비교범위)

 

aKAN(analog KAN)을 RNPU로 “물질(in materia) 비선형”을 직접 구현하겠다는 발상은, KAN의 병목이 비선형 엣지 함수라는 점을 정확히 겨냥한 시도입니다. 다만 논문의 시스템 수치(에너지·지연·면적)는 혼합신호 주변회로와 시간 다중화 검증에 민감하므로, 장점은 살리되 주장 범위를 더 엄밀히 고정하는 읽기가 필요합니다.

RNPU: ‘엣지 비선형’의 물리 구현은 강점이지만 병렬 실증이 핵심입니다

이 논문의 가장 강한 지점은 “KAN은 선형 MAC이 아니라 비선형 평가가 비용”이라는 하드웨어 관점을 전면에 세우고, 그 비선형을 RNPU(Reconfigurable Nonlinear-Processing Unit)로 네이티브 구현했다는 점입니다. 논문은 KAN이 학습 가능한 비선형 함수가 엣지에 놓이는 구조이며(그림 1E), MLP/가속기/AIMC가 주로 MAC을 병렬화하는 것과 달리, aKAN은 “비선형을 소자 물리로 처리하고 노드는 합산 위주”로 재배치한다고 설명합니다.

특히 RNPU를 단독으로 쓰지 않고, 여러 RNPU를 병렬로 묶어 하나의 엣지 함수를 구성하는 EP(Edge Processor) 설계가 현실적입니다(그림 1F). 각 RNPU는 6개의 제어 전압과 1개의 출력 게인(총 7개 파라미터)로 특성을 튜닝하고, EP는 그 출력들을 선형 결합해 더 복잡한 비선형을 맞춥니다. 실제로 사인 함수는 단일 RNPU로는 충분히 복잡도를 내기 어려워 2개 RNPU 병렬에서 MSE 1.7×10^-2로 맞췄다고 밝힙니다(그림 2A).

여기까지는 “소자 기반 비선형”의 설득력이 분명합니다. 문제는 이 강점을 시스템 주장으로 끌어올리는 순간, 검증 구조가 논리적으로 취약해질 수 있다는 점입니다. 논문은 현재 측정 셋업이 단일 RNPU만 가능하여, 다중 RNPU 네트워크는 시간 다중화(time multiplexing)로 순차 에뮬레이션한다고 명시합니다. 즉, 학습된 aKAN의 각 RNPU 인스턴스를 동일 물리 소자에 입력/제어 전압을 번갈아 걸어가며 측정하고, 노드 합산과 라우팅/스케일링 bookkeeping은 외부에서 처리합니다.

이 대목이 왜 중요한지 정리하면 다음과 같습니다.

논문이 주장하는 aKAN의 ‘물리 병렬 O(1) 시간’은 배치된 어레이에서 성립합니다.

하지만 시간 다중화 실험은 ‘물리 병렬’이 가져오는 이점(처리량, 크로스토크, 어레이 배선/스위치 매트릭스 손실, 캘리브레이션 비용, 채널 간 편차 평균화 또는 악화)을 직접 보여주지 못합니다.

결과적으로 “소자 1개에서 잘 됨”과 “어레이로 시스템이 됨” 사이에 큰 공학적 간극이 남습니다.

이 간극을 줄이는 가장 빠른 보강은 ‘큰 어레이’가 아니라 작은 어레이(예: 4~16개) 실측입니다. 여기서 꼭 측정해야 할 것은 정확도만이 아니라,

스위칭/라우팅이 들어갔을 때의 신호 열화,

채널 간 편차와 재캘리브레이션 빈도,

크로스토크가 함수 근사/분류 성능에 주는 영향,

병렬화가 오히려 유리해지는 조건(예: 평균화로 노이즈가 줄어드는지)입니다.

이 논문이 이미 “RNPU는 평균 50 nW, 약 1 µm², 본질 응답 10 ns” 같은 매력적인 소자 지표를 제시하고 있으므로, 작은 어레이 실측만 추가되어도 “가능성”이 “경로”로 올라갈 여지가 큽니다.

주장 축 논문이 제시한 근거 독자가 요구할 추가 검증
비선형 표현력 EP에서 다중 RNPU 선형 결합으로 사인/베셀 등 근사, 파라미터-오차 스케일링 제시 어레이 환경에서 동일 성능 유지(편차/크로스토크 포함) 및 worst-case 성능
병렬 O(1) 시간 aKAN은 요소를 병렬 배치하면 지연이 DAC/ADC+RNPU로 결정된다고 서술 시간 다중화가 아닌 4~16 RNPU 병렬 실측으로 지연/처리량/노이즈 스케일링 확인
시스템 실용성 혼합신호 인터페이스 포함 에너지·면적·지연 추정(Fig.5) 주변회로 스펙 스윕 민감도(ADC/DAC/TIA), 라우팅/캘리브레이션 비용 포함 버전

혼합신호: 250 pJ는 ‘코어’가 아니라 ‘주변회로’에 달려 있습니다

논문 초록과 본문은 “대표 워크로드에서 에너지 ∼250 pJ/inference, 지연 ∼600 ns, 디지털 tanh-MLP 대비 10^2–10^3× 에너지 절감, 면적 ∼10× 절감”을 강하게 내세웁니다. 이 수치 자체는 매력적이지만, 논문이 스스로 인정하듯 현재 효율의 지배항은 RNPU 코어가 아니라 혼합신호 주변회로입니다. 핵심은 ‘어느 범위까지 포함한 시스템인가’입니다.

논문은 시스템 비교를 위해 e^(sin(πx1)+x2^2) 근사 작업을 대표 워크로드로 잡고(Fig.2E), aKAN과 디지털 tanh-MLP를 에너지/면적/지연으로 비교합니다. 여기서 aKAN은 RNPU 자체(평균 50 nW, 1 µm², 10 ns) 외에, DAC/ADC/TIA 및 I/V 변환·스케일링이 필요하다고 명시합니다. 그리고 구체 가정으로

10-bit DAC: 2 MHz에서 1.46 µW(제어 전압 및 입력 포트)

12-bit 100 MS/s ADC: 2.6 mW(출력 디지타이즈)

노드당 TIA: 94 µW, 면적은 미보고라 7000 µm²로 보수 추정
을 둡니다.

결과적으로 Fig.5A에서도 “aKAN 에너지는 TIA가 지배”라고 캡션에서 못 박습니다. 즉, 250 pJ는 “RNPU가 매우 싸다”만으로는 유지되지 않고, TIA/ADC의 스펙과 구현에 따라 크게 흔들릴 수 있습니다. 이것은 단점이 아니라, 오히려 논문이 더 강해질 수 있는 지점입니다. 왜냐하면 ‘지배항이 무엇인지’를 알고 있다는 것은 최적화 방향이 명확하다는 뜻이기 때문입니다.

다만 주장 톤은 더 정직해질 필요가 있습니다. 논문은 “TIA나 온칩 구현 최적화로 전력 예산이 줄 수 있다”고 말하지만, 리뷰어는 “그럼 얼마나 줄면 결론이 유지되는가”를 묻습니다. 그래서 가장 효율적인 보강은 가정 민감도 분석(sensitivity sweep)입니다. 예를 들어 아래와 같이 스윕하면 논문의 신뢰도가 크게 올라갑니다.

ADC 해상도(예: 8/10/12 bit)와 샘플레이트 변화가 에너지/정확도에 주는 영향

TIA 전력/면적을 1×, 0.5×, 0.2×로 개선했을 때 전체 에너지와 Pareto 변화

입력/제어 DAC 업데이트 빈도(제어는 1회 세팅, 입력은 샘플마다 변환이라는 논문 모델)의 현실성 범위

“end-to-end(전처리/라우팅 포함) vs 코어-only(RNPU+최소 I/O)” 분리 보고

특히 논문 보충자료는 에너지 추정식을 명시합니다. ETOTAL=EADC+EDAC+ETIA+ERNPU로 두고, P개의 샘플에 대해 DAC 변환 횟수, ADC 변환 횟수, 그리고 TIA/RNPU는 전력×지연(td)로 계산합니다. 이 모델은 단순하고 재현성에 유리하지만, 그만큼 “전력과 지연 가정이 바뀌면 결론도 바뀐다”는 사실을 그대로 드러냅니다. 따라서 민감도 분석은 선택이 아니라 필수에 가깝습니다.

실전 관점의 체크리스트도 같이 제시하면 좋습니다. aKAN을 “엣지 추론”에 쓰겠다면(초록에서 edge inference를 강조), 결국 요구되는 것은 아래 5가지입니다.

필요한 정확도(MSE/분류 정확도)에서 ADC bit가 몇이면 충분한지

그 bit를 만족하는 ADC가 해당 지연/전력으로 가능한지

TIA가 노드 수에 비례로 늘어날 때(노드당 1개 가정) 전력/면적이 폭발하지 않는지

온도/노화 드리프트가 있을 때 재캘리브레이션이 에너지/운영을 얼마나 잡아먹는지

“코어는 빠르지만 I/O가 느리다” 문제를 시스템 레벨에서 어떻게 봉합할지

이 논문은 이미 “현재 병목은 혼합신호 인터페이스”라고 결론에서 강조하고 있으므로, 위 체크리스트를 수치/실험 계획으로 바꾸기만 해도 논문의 완성도가 올라갑니다.

공정비교: 디지털에서 뺀 비용은 aKAN에서도 생깁니다

사용자 비평의 핵심은 “비교의 공정성”입니다. 이 논문은 디지털 baseline으로 16-bit fixed-point tanh-MLP를 NanGate45 Open Cell Library로 구현하고, tanh는 LUT로 처리하며, Verilog 합성으로 전력/면적을 추정했다고 설명합니다. 또한 동일 벤치마크에서 PyTorch로 양자화 네트워크를 학습해 오차(MSE)를 맞춰 비교합니다. 이런 접근은 방향이 좋습니다.

하지만 논문은 동시에 “아키텍처 의존적인 interconnect 및 layer-sequencing control은 제외하고 neuron datapath를 정규화해서 비교한다”고 명시합니다. 이 문장이 공정성 논쟁의 출발점입니다. 왜냐하면 논문은 ‘코어 비교’만 하는 것이 아니라, Fig.5처럼 시스템 레벨 에너지·면적·지연을 결론으로 끌고 가기 때문입니다.

즉, 독자는 이렇게 묻게 됩니다.

디지털에서 제외한 인터커넥트/제어 비용은 실제 SoC에서는 무시하기 어렵습니다.

그런데 aKAN도 실제 어레이로 가면 스위치 매트릭스(그림 1G의 프로그래머블 인터커넥트), 라우팅, 캘리브레이션 회로, 노이즈 마진 확보 비용이 생깁니다.

결국 “한쪽만 뺀 비용”처럼 읽히면 결론의 설득력이 약해집니다.

가장 좋은 해결책은 비교를 2트랙으로 나누는 것입니다.
(1) Core-only 비교 트랙: “디지털은 MAC+LUT(tanh), aKAN은 RNPU+최소 I/O”처럼 서로 핵심 연산의 본질만 비교하되, 둘 다 라우팅/제어를 동일하게 배제합니다. 여기서는 ‘원리’가 드러납니다.
(2) SoC-level 비교 트랙: 디지털은 인터커넥트·시퀀싱·메모리 접근(가중치/활성)까지 포함하고, aKAN은 스위치 매트릭스·캘리브레이션·신호 스케일링·온칩 DAC/ADC/TIA의 현실 구현을 포함합니다. 여기서는 ‘배치 가능성’이 드러납니다.

이 구분이 중요한 이유는, 논문 내부에서도 “aKAN은 O(1) 시간이라 지연이 DAC/ADC와 RNPU로 결정된다”고 말하면서, 디지털은 깊이/폭에 따라 순차 누적이 필요해 500 MHz에서 약 100 ns 지연이 가능하다고 적습니다. 즉 지연은 “항상 aKAN이 우월”이 아니라, 주변회로 때문에 aKAN이 600 ns로 더 길어질 수 있음을 논문 스스로 보여줍니다. 이 사실을 숨기지 않고, “에너지는 유리할 수 있으나 지연은 I/O가 좌우한다”는 트레이드오프를 전면에 두면 오히려 신뢰가 올라갑니다.

또 하나의 공정비교 포인트는 “파라미터 수” 해석입니다. aKAN은 RNPU당 제어 전압 6개+게인 1개로 학습 파라미터가 적어 보이고, Moons/Spirals 같은 장난감 분류에서 적은 파라미터로 높은 정확도를 보입니다(그림 3C, 3A). 하지만 시스템 관점에서 파라미터가 적다고 해서 복잡도가 자동으로 줄지는 않습니다. 그 전압을 원하는 정밀도로 생성·유지하기 위한 DAC/레퍼런스, 드리프트 대응, 재캘리브레이션 절차가 ‘메타 비용’이 될 수 있기 때문입니다. 논문도 “시스템 효율은 현재 비선형 제어 파라미터 수가 아니라 혼합신호 오버헤드가 지배”라고 말합니다.

그래서 공정비교를 완성하려면, 학습 파라미터 수 외에 아래 3개 지표를 추가로 제시하는 것이 좋습니다.

필요한 아날로그 정밀도(비트): 제어 전압과 입력 전압이 몇 비트 수준이면 성능이 유지되는지

재캘리브레이션 빈도/비용: 온도/시간 경과에 따른 성능 변화를 얼마나 자주 보정해야 하는지

안전 여유(노이즈 마진): ADC/DAC 비트 다운 시 성능이 어떻게 붕괴하는지(완만한 열화인지, 문턱 붕괴인지)

마지막으로 벤치마크 선택도 논지 정렬이 필요합니다. 논문은 함수근사(Ref.[14]에서 채택한 타깃 함수)와 Moons/Spirals, 그리고 MAGIC/COD-RNA/Skin Segmentation 같은 데이터셋을 사용합니다. 이는 “엣지 비선형이 강하다”는 메시지를 보여주기엔 좋지만, 엣지 AI의 현실 과제(고차원 입력, 결측/노이즈, 분포 변화, 다중 클래스, 캘리브레이션)의 대표성이 충분한지는 남습니다. 최소한 “중간 규모의 고차원 실데이터 회귀/분류”를 하나만 추가해도, ‘KAN 장점에 유리한 과제 편향’ 논란을 줄일 수 있습니다.

RNPU 기반 aKAN은 KAN의 핵심인 ‘엣지 비선형’을 물질로 구현하고 EP→aKAN으로 확장해 시스템 수치까지 제시한 점이 인상적입니다. 다만 시간 다중화 실험, 혼합신호 가정, 디지털 비교의 제외 항목 때문에 공정성·현실성이 흔들릴 수 있으니, 어레이 실측·가정 민감도·SoC 수준 비교를 추가하면 결론의 설득력이 완성됩니다.

자주 묻는 질문 (FAQ)

Q. aKAN이 말하는 “O(1) 시간 병렬 추론”은 왜 논쟁이 되나요? A. 논문은 aKAN이 요소를 물리적으로 병렬 배치하면 지연이 DAC/ADC 변환과 RNPU 응답으로 결정된다고 설명합니다. 하지만 현재 하드웨어 검증은 단일 RNPU 셋업 제약 때문에 다중 RNPU를 시간 다중화로 순차 에뮬레이션합니다. 병렬 어레이에서의 배선/크로스토크/캘리브레이션 비용이 실측으로 확인되지 않아, ‘병렬 이점’이 그대로 재현되는지 불확실해집니다.

Q. 250 pJ/inference 주장은 무엇에 가장 민감한가요?
A. RNPU 코어(50 nW, 10 ns 등)보다 혼합신호 주변회로가 지배적입니다. 논문은 12-bit 100 MS/s ADC(2.6 mW), 노드당 TIA(94 µW) 같은 가정을 사용하며, Fig.5에서도 TIA가 aKAN 에너지의 지배항이라고 명시합니다. 따라서 ADC/TIA 스펙을 스윕하는 민감도 분석이 결론을 지키는 핵심입니다.

Q. 디지털 MLP 비교에서 “제외한 비용”은 왜 문제가 되나요?
A. 논문은 디지털 baseline에서 interconnect 및 layer-sequencing control을 아키텍처 의존이라 제외하고 neuron datapath를 정규화해 비교합니다. 그런데 aKAN도 실제 어레이 구현에서는 스위치 매트릭스, 라우팅, 캘리브레이션 등 비용이 생깁니다(그림 1G의 프로그래머블 인터커넥트). 시스템 레벨 주장을 하려면 “core-only vs SoC-level”로 범위를 나눠 양쪽을 같은 기준으로 포함/제외해야 공정해집니다.

[출처]
https://arxiv.org/html/2602.07518v1

댓글 쓰기

0 댓글

이 블로그 검색

태그

신고하기

프로필