#Interpretability

2개의 글

2026년 2월 11일· 21 min readThe 2026 AI Agent Deep Dive #

내가 무슨 생각을 하는지 정말 알 수 있을까요?

Anthropic의 Cross-Layer Transcoder는 AI 모델이 '이게 바나나인가요?'와 '이건 바나나입니다'를 완전히 다른 신경 회로로 처리한다는 걸 밝혀냈습니다. MIT Tech Review는 해석 가능성을 2026년 10대 혁신으로 선정했지만, Rice의 정리는 우리가 AI 내부를 완전히 검증할 수 없을지도 모른다고 말합니다.

#interpretability#ai-safety#mechanistic-interpretability#alignment

2026년 2월 8일· 31 min read

해석 가능성의 환상: 우리는 AI의 마음 속을 진정으로 들여다볼 수 있을까?

기계적 해석 가능성은 AI의 블랙박스를 열어젖힐 것이었다. 하지만 AI가 숨는 법을 배운다면? 연구자들이 AI를 이해하려는 것과 관찰자를 속이는 법을 배울 수 있는 모델 사이의 군비 경쟁에 대한 딥다이브.

#AI Deep Dives#AI Safety#Interpretability#Alignment