본문 바로가기

전체 글

(43)
[Paper Review] FFHQ-UV: Normalized Facial UV-Texture Dataset for 3D Face Reconstruction (CVPR' 23) 안녕하세요. :) 얼마 전 유명한 Human Face dataset인 FFHQ로부터 uv-texture를 추출한 FFHQ-UV라는 데이터셋이 공개되었습니다. 다양한 방향으로 활용이 가능할 것 같습니다만, 본 리뷰에서는 연구에서 제시하는 texture generation관점에서 서술해보고자 합니다. 그럼 시작하겠습니다 :) 1. Introduction 본 연구는 3D Face Reconstruction을 위한 Public & High Quality & High Fidelity UV-Texture Dataset를 공개했다는 것에 의의가 있다. 실제로 기존에도 비전 및 그래픽스 커뮤니티에서 Face의 3d shape( identity & expression )과 texture를 reconstruction하는 ..
[Paper Review] Plenoxels: Radiance Fields without Neural Networks ( CVPR' 22 Oral ) 최근 NeRF의 renerding 및 training 속도를 높이기 위해서 explicit representation 혹은 hybrid representation ( 더 나아가서 효율적인 자료구조를 함께 ) 사용하고 있습니다. 가장 유명한 것 중 하나가 hash table을 활용하는 InstantNGP일 것입니다. 오늘은 plenoptic volume element를 뜻하는 Plenoxel을 활용해 Rendering을 하는 Plenoxels: Radiance Fields without Neural Networks를 살펴보도록 하겠습니다. 1. Introduction 기존의 NeRF는 Training 과 Rendering에서 모두 extensive computation time을 요구했다. 다양한 연구들에..
[Concept] Diffusion Models ( with. DDPM ) 근래에( 이미 조금 되었지만 ) Generative Model로 연구가 무척 활발히 이루어지고 있는 Diffusion Model에 대해서 살펴보도록 하겠습니다. 본 아티클에서는 Diffusion에 대한 직관부터 DDPM 그리고 DDIM까지 다루고자 합니다. 그럼 시작하도록 하겠습니다. :) 1. Diffusion with Physical Intuition 1.1. Diffusion Destroys Structure Diffusion은 우리가 가지고 있는 데이터 분포를 destroy하기 위해서 사용된다. 상단의 이미지에서 염료의 분포를 probablilty of denstiy funtion 즉 PDF로 생각해볼 수 있다. 즉, 염료의 density는 probablilty density를 나타낸다. 이때 M..
[Paper Review] VideoINR: Learning Video Implicit Neural Representation for Continuous Space-Time Super-Resolution Introduction 비디오는 현실의 continous한 visual data를 discrete한 consecutve frame들로 저장하는 방법이다. High fidelity & frame rate을 가진 video를 저장하는 것은 현실적으로 매우 큰 비용이 들기 때문에, 상대적으로 low resolution & frame rate으로 저장하게 된다. ( = limited spatial resolution & temporal frame rate ) 하지만, 이러한 video가 human에게 보여질 때는 high level 정보를 가지도록 복원되기를 원한다. 본 논문에서는 이와 같이 space & time 관점에서 high resoluton & frame rate으로 비디오를 복원하는 방법을 Impli..
[Paper Review] Neural nano-optics for high-quality thin lensimaging ( Nature Communicatons' 21 ) 간단히 적은 후 추후에 내용을 자세히 보충해서 설명해두려고 합니다. 최근 아이폰의 카툭튀 현상처럼 스마트폰과 같은 consumer device에서 camera는 점점 더 정교해지고 복잡해지고 있다. 이는 더 좋은 이미지 퀄리티를 위해서 bulky camera bumps를 계속 쌓고 있기 때문이다. ( Bulky Compound Optics ) 이러한 이유로 실제로 Medical & Astronomy 등의 ( microscope & telescope ) 도메인에서는 metasurface optics을 활발히 연구하고 있다. 이러한 metasurface optics가 정말 작은 nano 혹은 ultra-small optical element로 사용될 수 있을지라도 실제로 얻게 되는 이미지의 퀄리티는 기존의 ..
[Concept] Depth from Defocus 우리는 defocus 이미지를 활용해서 scene point의 depth를 계산할 수 있다. 이는 이미지가 얼마나 defocus되어 있는지를 알 수 있다면 즉 how much a scene point is blur point of spread functoin PSF를 알 수 있다면 depth를 구할 수 있다는 것이다. 결국 scene point가 얼마나 blur되었는지를 확인하면 depth정보를 찾을 수 있다는 것이다. 위와 같이 특정 이미지를 패치단위로 쪼개보면서 확인해보게 되면 특정 patch는 defocus되어 있고 특정 patch는 focus되어 있는 것을 확인할 수 있다. 이런식으로 각 pixel들 혹은 패치들에 해당하는 scene point들의 실제 depth가 다르다보니 object dist..
[Concept] Lens related Issues Compound Lenses Lens는 무조건 abberation을 발생키기게 된다. 현실의 카메라 시스템에서는 일반적으로 7-15개의 lens를 혼합해서 사용하고 있는데, 이런 시스템을 사용하는 이유는 다음과 같다. 현실의 이미징 시스템의 문제점은 spatially same quality를 얻기 힘들다는 것이다. 즉, image plane 전체에 대해서 same quality를 얻고싶은데 이는 현실적으로어렵다. 실제로 center에 가까울 경우 high quality를 유지하는 반면에 periphery에 대해서는 low quality를 얻게 된다. 이를 해결하기 위해서 series of lenses를 사용하게 되면 이러한 문제를 어느정도 개선할 수 있게 된다. 그렇다면 실제로 lens로 인해서 발생하는..
[Concept] Image Formation using Lens 최근 진행중인 연구에서 Computational Imaging with Optics와 관련된 분야에 대한 이해가 필요해 내용을 정리하고 있는 중이다. 우선적으로 중요하거나 당장 정리하고 싶은 내용위주로 서술해나갈 예정이다. Camera와 같은 Imaging System에서 Image Formation과정을 떠올려보자. 현실의 scene으로부터 들어오는 빛이 렌즈에 의해서 모아지고 이는 우리의 이미지 센서( 카메라 센서 )에 맺히게 되고 필름 카메라라면 필름, 디지털 카메라라면 일반적으로 CCD와 같은 전자결합소자를 이용해서 image를 구성하게 된다. 간단히 Figure를 통해 살펴보도록 하자. 다음과 같이 현실의 scene의 p_0라는 point로부터 오는 빛은 lens에 의해 refraction or..