분류 전체보기 63

Is Large-scale Pretraining the secret to good domain generalization ? ICLR 2025 논문 리뷰

larget -scale 의 pretraining 모델을 쓰고 있는 요즘, 아직도 어떤 게 domain generalization에 기여를 하고 있는지 명확하지 않다해당 논문의 저자들은 web-scale pretrained backbone + source data's new feature 로 dramatically improved 된 것에 대해서 실제 개선이 된건지 or 더 강력해진 pre-training으로 벤치마크의 성능이 높아진 것인지 명확하지 않다는 것을 연구한다이전 학습은 사전 학습 데이터와의 perceptual similarity 와 zero-shot 성능이 연관이 있음을 보였지만 DG에서는 그 효과가 제한적인 것을 발견했다해당 연구자들은 percetually similar data가 사전학습..

논문 리뷰 2025.07.24

Neural Collapse Anchored Prompt Tuning for Generalizable Vision-Language Models 논문 리뷰

abstractVision Langauge Model에서 학습된 text representation이 어떻게 작동하는지에 대한 메커니즘이 아직 잘 연구되지 않았으며 이로 인해 일반화 성능 향상에 한계가 있다. 이는 web에서 수집된 데이터처럼 클래스 불균형이 심한 경우 그 한계가 더 두드러진다 (보통 VLM은 web-scale dataset으로 학습됨)Neural Collapse 라는 vision-only model에서 관찰된 현상은 ETF(Equiangular Tight Frame)가 가장 이상적인 representation structure이라고 시사한다 해당 논문은 prompt tuning을 분석하기 위해 NC개념을 처음으로 도입하였고 text-visual representation이 NC조건을 얼..

논문 리뷰 2025.07.07

Alignment-Uniformity aware Representation Learning for Zero-shot Video Classification 논문 리뷰

이번에 리뷰할 논문은 CVPR 2022에 나온 논문으로 alignment-uniformity 를 동시에 가져가서 zero-shot video classification 에 도움을 주었다는 논문이다 2025 CVPR DG논문에서 이 논문에서 영감 얻은 method가 있어서 리뷰하게 되었다 video classification은 잘 아는 task는 아니지만 generalizability와 unseen class에 대해 어떻게 합성을 진행했는지 궁금하다. abstractzero-shot video classification 연구들은 seen visaul-semantic representation을 alignment 시키는데 집중해서 unseen class에 대한 generalization 성능이 부족하다 =..

논문 리뷰 2025.07.01

CLIPCEIL:Domain Generalization through CLIP via Channel refinement and image-text alignment(neurips 2024) 논문 리뷰

clipceil 논문 리뷰를 해보고자 한다, DG를 하면서 읽은 논문들을 잘 섞어놓은 깔끔한 논문이라고 생각해서,, 리뷰를 하게됐다## abstract해당 논문은 domaindrop 논문에서 motivation을 삼아서 시작한 논문이였는데 (openreview 참고) clip class token의 channel 에서 domain bias, class irrelevant featurer가 섞여있기 때문에 channel refinement + lightweight adapter + image-text aligmenet 강화를 위한 loss 로 generalization 성능을 향상시켰다는 논문이다. domaindrop 논문과 마찬가지로 channel의 domain, class shift별 sensitivi..

논문 리뷰 2025.04.02

What Makes for Good Views for Contrastive Learning?(작성중)

연구실 선배가 하나하나 모아두는것도 도움이 된다고 다시 블로그를 써보라고 추천해주셔서 석사기간중 놓쳤던 블로그를 다시 쓴다 ,,, 원래는 피피티에 올려놨었는데 다시 적기 시작할 것..이건 추천받은 논문인데 내가 지금 쓰는 글쓰기랑 연관이 있어서 읽어두게 되었다 개인적으로 논문들은 저자들에 따라 글의 스타일이 많이 바뀌는데, 이 글의 저자들은 낭만있는 글쓰기를 해서 읽어보는 것도 좋은 것 같다 ㅎㅎ Abstractcontrastive learning이 각광받고 있으나, 다른 뷰를 선택함에 따라 어떤 영향력이 있는지에 대한 연구가 부족하기 때문에 해보았다는 연구(기존 연구의 limitation)view selection이 얼마나 중요한지 theoretical and empirical analysis 를 수행..

논문 리뷰 2025.04.02

Zipit! Merging models from different tasks without Training 논문 리뷰

https://arxiv.org/pdf/2305.03053Motivation : 모델 학습시킬 때 additional task training => catastrophic forgettingWithout adaptation => doesn’t generalizeMerging 방법이 새로운 건 아니지만 disjoint task 들을 merging 할때는 실패할 수 있다하고 싶은 건 differently initialized model + 완전 다른 task 로 학습된 모델들의 merging 을 수행하는 것  [제안]1.Model 들간 shared 하지 않는 feature 들을 zip operation 을 수행2.Partially zipping 으로 multi-head model 과 같은 역할전체 netwo..

논문 리뷰 2024.09.04

Intensity Transformation - Smoothing, First- and Second- Order Derivative

smoothing(Low-pass filter) averaging , smoothing ⇒ noise reduction 위해 사용 low-pass 낮은 주파수 활용 detail 없애기도 box filter kernel 박스안에 모두 1 ⇒ 커널 사이즈 커질수록 blur 해진다 lowpass gaussian filter kernel box filter noise가 부자연스러운 limitations circularly symmetric kernel = 거리차이보정할 수 있어서 gamma 증가할수록 blur low pass filtering + thresholding ⇒ region extraction 가능 shading correction에도 활용 from PIL import ImageFilter impor..

Intensity Transformation - Histogram processing, spatial filtering

Background spatial domain process : g(x,y)(output) = T[f(x,y)(input)] (T : neighborhood processing) 가장 작은 neighborhood 사용 1x1 → T = intensity transformation function ⇒ point processing Basic Intensity Transformation image negative 💡 s = L-1-r s = output, L-1 : 허용 intensity, r = input inverse 효과 Log transformation 💡 s = clog(1+r) r≥0 dinamic range 클 때 ⇒ scale 줄이고 차이비교 ⇒ low frequency도 확인 가능 power..

영상처리 주요 용어 및 transform

spatial Resolution dpi : dot per inch ppi : pixels per inch image interpolation unknown location에 대한 값 estimation nearest neighbor : 바로 옆 이웃 bilinear interpolation : 주변 4개의 점 bicubic interpolation : 주변 16개의 점 Image super-resolution 실제보다 정보량 늘리는 것 pixel 간 basic relationship neighbor과 diagonal neighbor의 관계 boundary global concept 한정된 Region edge local concept intensity가 연속적이지 않은 부분 arithmetic oper..

Digital image fundamental - 인간의 눈 구조에 대한 이해

이미지 처리에 앞서, human visual perception을 이해해야 한다 눈은 3개의 membrane 으로 닫혀있음 : cornea, sclera (outer cover), choroid, retina ( 상이 맺힘) ⇒ 맺힌 상이 light receptor를 통해 들어오게 됨 iris (pupil) : central opening light receptor는 두가지 구조 : cones, rods cones : photopic, bright-light vision 즉 명반응에 관여 rods : scotopic, dim-light vision 즉 암반응에 관여 대부분 rods로 이루어져있고, cone은 조금만 있다. 둘이 볼 수 있는 degree가 달라서 blind spot(맹점)이 생기는데, 이는..