abstractVision Langauge Model에서 학습된 text representation이 어떻게 작동하는지에 대한 메커니즘이 아직 잘 연구되지 않았으며 이로 인해 일반화 성능 향상에 한계가 있다. 이는 web에서 수집된 데이터처럼 클래스 불균형이 심한 경우 그 한계가 더 두드러진다 (보통 VLM은 web-scale dataset으로 학습됨)Neural Collapse 라는 vision-only model에서 관찰된 현상은 ETF(Equiangular Tight Frame)가 가장 이상적인 representation structure이라고 시사한다 해당 논문은 prompt tuning을 분석하기 위해 NC개념을 처음으로 도입하였고 text-visual representation이 NC조건을 얼..