2D 3D 변환 인공지능 - 2D 3D byeonhwan ingongjineung

2D 3D 변환 인공지능 - 2D 3D byeonhwan ingongjineung
viewer

NeFR 기술로 생성한 3D 이미지. /사진 제공=카카오브레인

카카오브레인은 2차원(2D) 이미지를 3차원(3D)으로 만들어주는 기술의 알고리즘 집합인 ‘NeFR-팩토리 라이브러리’를 21일 공개했다.

NeFT는 딥러닝(심층학습)을 통해 3D 공간의 색과 밀도를 학습, 2D 이미지를 기반으로 새로운 3D 공간을 복원해내는 기술이다. 메타버스, 디지털휴먼, 3D 맵 제작 등에 응용 가능하다. 빛 반사, 물체 색상, 각도 등을 구현한다.

이 기술과 관련한 알고리즘을 통일된 코드 형태로 한 데 모은 라이브러리로 카카오브레인이 공개했다. 코드 구조를 단순화해 개발자의 접근성을 높였다.

김일두 카카오브레인 대표는 “전 세계 인공지능(AI) 연구 및 개발자들이 카카오브레인이 공개한 라이브러리를 활용해 NeRF 및 뉴럴 렌더링 기술 연구 저변을 확대하고, 고품질 메타버스 등 다양한 분야에 적용해 나가길 바란다”고 말했다.

< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >

초록

최근 다양한 분야에서 딥러닝을 비롯한 인공지능 기술의 활용되고 있다. 특히 컴퓨터 비전 분야에서는 객체의 인식과 검출을 목적으로 한 딥러닝 기술들이 뛰어난 성능을 보이며 연구 또한 활발히 진행되고 있다. 딥러닝 기술을 활용함으로써 기존의 방법론으로 해결이 어려운 문제들을 쉽게 해결하는 성과를 거두고 있다.
많은 객체 인식 알고리즘은 객체의 가장 특징적인 단면적 면을 또는 한 부분을 메인 특징라고 여기고 특징을 추출 분석 비교 하여 인식하는 것이 통상적이다. 그러나 대부분 물체는 3D형태로 되어 있다. 물체의 거리, 위치, ...

최근 다양한 분야에서 딥러닝을 비롯한 인공지능 기술의 활용되고 있다. 특히 컴퓨터 비전 분야에서는 객체의 인식과 검출을 목적으로 한 딥러닝 기술들이 뛰어난 성능을 보이며 연구 또한 활발히 진행되고 있다. 딥러닝 기술을 활용함으로써 기존의 방법론으로 해결이 어려운 문제들을 쉽게 해결하는 성과를 거두고 있다.
많은 객체 인식 알고리즘은 객체의 가장 특징적인 단면적 면을 또는 한 부분을 메인 특징라고 여기고 특징을 추출 분석 비교 하여 인식하는 것이 통상적이다. 그러나 대부분 물체는 3D형태로 되어 있다. 물체의 거리, 위치, 앵글 각도에 따라 2D 이미지에 노출되는 형태가 다르다. 또한 객체를 대표할 수 있는 특징이 한 면에만 꼭 있는 것이 아니다. 현재 많은 특징 추출 및 객체 인식 컴퓨터 비전 알고리즘을 연구가 되고 있지만, 대부분 제안된 객체 인식 알고리즘들은 그 객체의 특징이라 할 수 있는 정면부분이 노출될 때의 모델들을 데이터 셋으로 사용하고 그에 대한 인식결과 또한 정면이나 특징적인 부분을 가지고 계산한다. 3D 객체를 인식하는 알고리즘은 객체의 깊이 정보 등의 부가적인 정보가 추가되어 설계된 알고리즘이 대부분이다.
본 논문에서는 객체의 전반 특징을 다루고 3D 객체를 인식하기 위하여 조각상과 3D 캐릭터 두 가지 유형 모델을 사용하여 2D이미지 속 3D 객체를 검출할 수 있는 딥러닝 네트워크를 설계한다. 객체의 추출 시간의 단축을 위하여, 객체의 중심점(key point)과 boundary box를 예측하여 하나의 객체 당 하나의 앵커박스를 사용하여 객체를 추출한다.
설계된 네트워크 중 필터를 설계함에 있어 기존에 있던 큰 필터 대신 작은 필터를 중첩 사용하여 연산 량은 줄이고 가중치가 작아지고 시각화시 레이어가 많아져 특징이 더 고차원적이 됨으로 인식률을 높여준다. 트레이닝할 때 드롭아웃 (drop-out)시킴으로써 오버피팅(over-fitting) 을 감소시켰다 기존의 시그모이드 (sigmoid)함수를 유닛수정함수(rectified unit function)로 대체함으로써 검사소멸효과 (gradient-vanishing effect)를 줄였다.
3D 객체 중 조형물은 87.9%, 3D 캐릭터 모델은 90.2% 인식률에 도달 하여 기존에 연구되었던 결과와 비교 하였을 때 인식률이 5-15% 증가하였으며 실시간 검출이 가능하다.

Abstract

Recently, the use of artificial intelligence, including deep learning, has risen across various fields. Most notably, in the study of computer vision techniques, new algorithms based on deep learning have shown excellent object recognition and detection, and problems that could not be solved by form...

Recently, the use of artificial intelligence, including deep learning, has risen across various fields. Most notably, in the study of computer vision techniques, new algorithms based on deep learning have shown excellent object recognition and detection, and problems that could not be solved by former methodologies are solved using deep learning technology.
Many object recognition algorithms identify the most characteristic cross-sectional area or part of an object as its main feature; it then extracts and compares features to distinguish them. However, most objects are three-dimensional, and depending on the distance, position, and angle of the object, the shape exposed on the two-dimensional image capture varies. Also, there is not only one feature that can represent an object. Currently, many feature extraction and object recognition computer vision algorithms have been studied, but most of the proposed object recognition algorithms use the front view of a model, which they take as the most salient feature of the object. This is then used as the dataset, and the recognition results are calculated with the frontal or characteristic parts. Algorithms recognizing 3D objects are mostly designed by adding supplementary information such as the depth information of an object.
In this paper, a deep learning network was designed that can detect 3D objects in 2D images by using two types of models of statues and 3D characters to expand the algorithms awareness of the general features of objects, allowing it to recognize 3D objects. In order to shorten the extraction time of the object’s features, an object is extracted using one anchor box per object, and by predicting the key point and boundary box of the object.
In designing the filter of the proposed neural network, the small filter is superimposed instead of the preexisting large filter, reducing the computational complexity and the weight, as well as increase the number of layers in the visualization. Also, drop-out during training reduces some overfitting. By replacing the existing sigmoid function with a rectified unit function, the vanishing gradient effect is reduced.
The recognition rate was 87.9% for 3D objects and 90.2% for 3D character models, and that rate was found to be 5-15% higher when compared with previous studies. It is also noted that

적대 신경망(GAN) 적용

2D 3D 변환 인공지능 - 2D 3D byeonhwan ingongjineung

2D를 3D 모델로 변환한 이미지

엔비디아는 자사의 인공지능(AI) 리서치 랩에서 개발한 GANverse3D 애플리케이션을 19일 공개했다. 

이는 평면 이미지를 사실적인 3D 모델로 변환해 가상 환경에서 시각화와 제어를 가능하게 한다. 건축가, 크리에이터, 게임 개발자, 디자이너 등에게 활용도가 높을 것으로 보여진다. GANverse3D를 활용하면 3D 모델링 분야에 전문성이 없거나 렌더링에 투자할 대규모 예산이 없어도 자신의 실물 모형에 새로운 오브젝트를 손쉽게 추가할 수 있다. 특정 자동차 사진 한 장만으로 사실적인 전조등, 후미등, 점멸등까지 완비한 3D 모델을 구축해 가상의 장면에서 주행하게 만들 수 있다.

 엔비디아 AI 리서치 랩의 연구자들은 훈련용 데이터세트의 마련에 생성적 적대 신경망(GAN)을 적용했다. 마치 사진사가 주차된 차량 주변을 걸으며 서로 다른 각도에서 사진을 찍듯, 동일한 오브젝트를 다양한 각도에서 묘사하는 이미지들을 합성했다. 

이를 통해 얻은 다시점 이미지들을 2D 이미지에서 3D 메시 모델을 추론하는 프로세스인 역 그래픽용 렌더링 프레임워크에 연결했다. 다시점 이미지로 훈련을 완료한 GANverse3D는 단일 2D 이미지만으로 3D 메시 모델을 구현할 수 있다. 이는 오브젝트를 커스터마이징하고 배경을 스왑 아웃할 수 있는 3D 뉴럴 렌더러와 함께 사용할 수 있다.

GANverse3D를 엔비디아 옴니버스 플랫폼의 확장기능으로 가져와 엔비디아 RTX 그래픽처리장치(GPU)로 실행하면 모든 형태의 2D 이미지를 3D로 재현할 수 있다. 일례로 1980년대에 큰 인기를 끌었던 TV 드라마 ‘전격 Z작전’에서 범죄에 맞서 싸우며 대중의 사랑을 한 몸에 받았던 자동차 키트(KITT)도 재현이 가능하다.

이번 프로젝트의 책임 저자를 맡은 웬젱 첸(Wenzheng Chen) 엔비디아 연구원은 "기존의 역 그래픽용 모델들은 훈련 데이터로 3D 형상에 의존해 왔다"며 "GANverse3D은 3D 에셋의 도움을 받는 대신 GAN 모델을 효율적인 데이터 생성기로 전환해 웹상의 모든 2D 이미지로 3D 오브젝트를 만들 수 있다"고 설명했다.

GANverse3D 연구 내용은 5월에 개최될 인공지능학회 표현학습국제학회(ICLR)와 6월에 열릴 패턴인식 학술대회(CVPR)에서 소개될 예정이다.

저작권자 © 전자부품 전문 미디어 디일렉 무단전재 및 재배포 금지

계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.