단일 RGB 영상을 이용한 VP 기반 3D 인체 자세 보정 및 디지털 트윈 매핑 프레임워크

Hyun Seo Cho; Minju Hong; Byeong Soo Kim

doi:10.7736/JKSPE.025.00035

Articles

Page Path

Regular

단일 RGB 영상을 이용한 VP 기반 3D 인체 자세 보정 및 디지털 트윈 매핑 프레임워크

조현서¹, 홍민주², 김병수^2,#

A VP-based 3D Human Pose Correction and Digital Twin Mapping Framework Using a Single RGB Image

Hyun Seo Cho¹, Minju Hong², Byeong Soo Kim^2,#

Journal of the Korean Society for Precision Engineering 2026;43(6):589-595.
Published online: June 1, 2026

DOI: https://doi.org/10.7736/JKSPE.025.00035

¹서울과학기술대학교 기계자동차공학과

²서울과학기술대학교 인공지능응용학과

¹Department of Mechanical and Automotive Engineering, Seoul National University of Science and Technology

²Department of Applied Artificial Intelligence, Seoul National University of Science and Technology

#Corresponding Author / E-mail: bskim@seoultech.ac.kr, TEL: +82-2-970-9779

• Received: December 2, 2025 • Revised: December 28, 2025 • Accepted: January 8, 2026

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

1,164 Views
9 Download

prev next

Full Article

Download PDF

ABSTRACT
1. 서론
2. 관련 연구
3. 방법론
4. 실험 및 결과
5. 결론
FOOTNOTES
REFERENCES
Biography

ABSTRACT

Accurate 3D human pose reconstruction from a single RGB image remains challenging due to scale ambiguity and perspective distortions. Current single-view methods primarily rely on learned priors or kinematic constraints, but they often struggle to maintain geometric consistency with the physical scene. This results in horizon alignment drift and instability when rendered in metric environments. To overcome these limitations, this study introduces a vanishing-point-driven framework that integrates scene geometry into the pose correction process. Under the Manhattan-world assumption, dominant vanishing points are detected to estimate the ground plane and recover the camera orientation with high precision. A lightweight 3D pose estimation network generates initial joint coordinates in camera-centric space. These coordinates are then refined through a VP-based ground-alignment transformation, which resolves scale ambiguity and minimizes geometric drift. The corrected poses are normalized to physical scale and streamed to NVIDIA Omniverse^TM for real-time digital-twin visualization. Experiments conducted on indoor scenes from the NYU Depth V2 dataset demonstrate sub-pixel accuracy in vanishing-point localization and significant improvements in geometric alignment between the reconstructed poses and the true scene layout. This confirms the effectiveness of the proposed approach for single-view digital-twin human modeling.
KEYWORDS: Digital twin, Vanishing point, 3D pose estimation, Camera calibration, Single-view reconstruction
KEYWORDS: 디지털 트윈, 소실점, 3D 자세 추정, 카메라 보정, 단일 시점 복원

1. 서론

최근 산업·로보틱스·물류 분야에서는 현실 공간의 상태를 가상환경에서 실시간으로 재현하고 제어하기 위한 디지털 트윈(Digital Twin) 기술이 빠르게 확산되고 있다[1,2]. 특히 단일 카메라 기반의 경량화된 디지털 트윈 구축은 고가의 센서 비용 절감과 시스템 간 연동성을 높일 수 있다는 점에서 중요한 연구 주제로 주목받고 있다.

그러나 기존의 디지털 트윈 구축 과정은 대부분 LiDAR, 스테레오 카메라, 또는 RGB-D 카메라와 같은 복합 센서 입력에 의존하며, 단일 RGB 영상만으로는 현실 공간의 정밀한 3차원 정합을 수행하기 어렵다는 한계가 있다[3,4]. 특히 카메라 설치의 기울기, 원근 왜곡, 바닥 경사 등의 요인으로 인해 좌표계 왜곡이 발생할 경우, 실제 객체의 위치 정보와 공간상의 매핑 결과 간에 심각한 불일치가 발생한다.

본 연구는 이러한 제약을 극복하기 위해 단일 RGB 영상에서 관측 가능한 소실점(Vanishing Point, VP)을 장면의 기하 제약(Geometric Constraint)으로 활용하여 카메라 좌표계와 현실 공간 좌표계를 정밀하게 정렬하는 프레임워크를 제안한다. 특히, VP를 단순한 특징점 검출의 대상이 아닌 3차원 좌표 보정 및 인간 골격 정합을 위한 핵심 기하학적 기준(Geometric Criteria)으로 재해석하고, 이를 통해 좌표계를 자동으로 보정하여 현실 공간의 객체 및 인체 좌표를 가상환경(NVIDIA Omniverse^TM)에 실시간으로 매핑하는 기법을 제시한다.

제안 방법은 크게 세 단계로 구성된다. 첫째, LSD (Line Segment Detector)를 이용해 영상 내 선분 정보를 추출하고[5], RANSAC 및 IRLS (Iteratively Reweighted Least Squares) 기법을 적용하여 VP를 강건하게 검출한다[6]. 둘째, 검출된 VP를 기반으로 바닥 평면의 법선 벡터를 추정하여 3D 좌표 보정식을 유도한다. 이 과정에서 본 연구는 명시적 직선이 부족한 장면에서도 안정적인 VP 추정이 가능한 RVPD (Recurrence-based Vanishing Point Detection) 알고리즘의 개념을 활용하여 검출 성능을 보완하였다[7]. 셋째, 보정된 좌표 데이터를 실시간으로 NVIDIA Omniverse 가상 시뮬레이션 환경으로 스트리밍하여 현실 공간과 디지털 트윈 간의 동기화를 달성한다.

본 연구는 복합 센서 없이 단일 영상만으로도 현실과 가상 공간 간의 기하학적 일관성과 정합 안정성을 확보할 수 있음을 입증하였다는 점에서, 향후 디지털 트윈 시스템의 경량화 및 실시간성 향상에 기여할 것으로 기대된다.

2. 관련 연구

2.1 디지털 트윈

디지털 트윈(Digital Twin)은 현실 공간의 물리적 상태를 가상공간에서 실시간으로 복제하고 분석하여, 시뮬레이션·제어·예측의 효율성을 극대화하는 핵심 기술로 정의된다[1]. 이는 “물리적 자산의 가상적 복제체(Virtual Replica)”로서 제조 시스템의 운영 효율을 높이는 방안으로 제시되었으며[1], 설계·제조·서비스 전 과정에 적용 가능한 스마트 제조 프레임워크로 확장되었다[8].

성공적인 디지털 트윈 시스템을 구축하기 위해서는 실제 공간과의 정밀한 3차원 정합(3D Alignment)과 정확한 좌표 동기화가 필수적이다[2]. 이를 위해 기존에는 주로 LiDAR, 스테레오 카메라, RGB-D 센서 등 복합 센서 기반의 환경 인식 기술이 활용되었다[3]. 그러나 이러한 멀티센서 시스템은 비용, 연산량, 하드웨어 복잡성 측면에서 한계를 가지며, 제한된 공간이나 모바일 환경에서는 구현이 어렵다[9]. 이에 따라 최근에는 단일 RGB 카메라만을 이용한 경량화된 디지털 트윈 구축이 새로운 연구 방향으로 제시되고 있다[10].

2.2 단일 영상 기반 3D 복원 연구

깊이와 구조 정보를 추정하려는 시도는 Monocular 3D Reconstruction 분야에서 활발히 연구되어 왔다. 완전합성곱 신경망(Fully Convolutional Network)을 이용해 깊이 맵(Depth Map)을 예측함으로써, 단일 영상만으로도 3차원 공간 구조를 추정할 수 있음이 확인되었다[11]. 또한, 맨해튼 월드(Manhattan World) 가정을 도입하여 영상의 구조적 선형 패턴을 활용한 3D 와이어프레임 복원 방법이 제안되기도 하였다[3].

하지만 이러한 학습 기반 접근법은 상대적인 깊이 관계(Relative Depth Relationship) 추정에는 효과적이지만, 절대 스케일(Absolute Scale)을 보장하지 못하며 카메라 기울기나 바닥 경사 등 외부 요인에 의한 좌표계 왜곡(Coordinate Distortion)에 취약하다. 결과적으로 복도나 실내 환경과 같은 단일 시점에서 는 실제 공간과 가상공간 간의 정합이 불안정해지는 문제가 발생한다.

2.3 VP 검출 기법

좌표 왜곡 문제를 해결하기 위한 기하학적 접근으로 VP 기반 보정 기법이 연구되어 왔다. 단일 영상 내 직선 교차점을 이용한 Single-view Metrology 기법을 통해 평면의 방향 벡터와 카메라 파라미터가 복원되었으며[6], 맨해튼 월드 가정하에서 직선 군집(Line Clustering)을 이용해 카메라 회전을 근사적으로 추정하는 준-전역 최적화(Quasi-global Optimization) 기법이 개발되었다[12].

이러한 기법들은 카메라 자세 보정과 평면 추정에 효과적이지만, 영상 내 명시적 직선(Explicit Line)이 불충분한 경우 검출 성능이 저하된다. 이를 개선하기 위해 최근 반복 패 (Recurring Pattern)으로부터 얻은 대응 특징점을 이용해 암시적 직선(Implicit Line)을 구성하고, 이를 기반으로 VP를 검출하는 R -VP D 기법이 제안되었다[7]. 본 연구는 이러한 VP 활용 기술을 디지털 트윈 환경으로 확장하여, 단일 영상에서도 실시간으로 정밀한 공간 정합을 수행할 수 있는 프레임워크를 제시한다.

2.4 기존 연구와의 비교 및 차별성

최근 단일 RGB 기반 3D 인체 포즈 추정 연구들은 VNect와 같은 실시간 회귀 기반 방법[13], 단일 프레임 기반 다중 인물 3D 포즈 추정 방법[14], 그리고 단안 깊이 추정 네트워크[11]를 중심으로 발전해 왔다. 이러한 데이터 기반 접근 방식은 인체의 상대적인 관절 위치나 자세를 추정하는 데에는 뛰어난 성능을 보이나, 카메라의 내·외부 파라미터를 명시적으로 고려하지 않기 때문에 월드 좌표계 상에서의 절대적인 위치(Global Position)나 지면과의 관계를 추정하는 데에는 한계가 있다. 이로 인해 디지털 트윈과 같은 정밀한 공간 매핑이 필요한 응용 분야에서는 별도의 후처리가 필수적이다.

이에 반해 본 연구는 딥러닝 모델의 의존도를 인체 키포인트 검출(2D Pose Estimation) 단계로 한정하고, 3차원 공간 로컬라이제이션은 VP라는 기하학적 단서를 통해 해결하는 하이브리드 방식을 취한다. 이는 방대한 3D 어노테이션 데이터 없이도 맨해튼 월드 가정만으로 카메라의 회전과 바닥 평면을 강건하게 추정할 수 있다는 점에서, 기존의 순수 학습 기반 방법론들과 차별화된다. 특히 산업 현장의 CCTV와 같이 고정된 시점이나 구조적 특징이 뚜렷한 환경에서는, 본 제안 기법이 고비용의 딥러닝 모델보다 계산 효율성과 좌표 정합성 측면에서 더욱 실용적인 해결책을 제시한다.

3. 방법론

본 연구에서 제안하는 VP 기반 3D 포즈 보정 및 디지털 트윈 매핑의 전체 파이프라인은 Fig. 1에 도식화되어 있다. 전체 과정은 크게 전처리, 3D 포즈 추정, 그리고 좌표 보정 및 가상 환경 매핑의 세 단계로 구성된다.

3.1 전처리

본 절에서는 입력 영상으로부터 포즈 추정을 위한 기초 정보를 안정적으로 확보하기 위한 전처리 과정을 기술한다. 입력 영상 I ∈ R^H×W×3은 색상 정규화와 렌즈 왜곡 보정을 거쳐 정제된 영상 I˜으로 변환된다. 이후 선분 검출, VP 추정 및 시간적 평활화를 순차적으로 수행하여 기하학적 기준 정보를 확보한다.

3.1.1 선분 검출 및 VP 추정

본 연구는 맨해튼 월드(Manhattan-world) 가정하에, 축 정렬된 구조물에서 유도된 선분들이 세 개의 직교하는 VP로 수렴한다는 기하학적 특성을 활용한다. 이를 위해 먼저 LSD(Line Segment Detector)를 이용해 선분 집합 L = {l_I}을 검출하고, 길이와 기울기를 기준으로 필터링하여 잡음을 제거한다. 정제된 선분 집합에 대해 RANSAC 기반 클러스터링을 적용하여 각 그룹의 교차점인 VP 후보 v_p를 산출하며, 이는 식(1)과 같다.

(1)

vp=(AkTAk)-1AkTbk

VP 후보는 영상 주변부에 밀집하는 경향이 있으므로, 공간적으로 중복된 후보를 제거하기 위해 NMS (Non-maximum Suppression)를 적용하였다. 후보 간 거리 d(v_p,v_q)<τ_d를 만족하는 군집 내에서는 내점(Inlier) 수 s_p 가 최대인 후보만을 보존한다. 최종 VP v*는 후보 집합 v에 대해 식(2)와 같은 최댓값 문제로 정의된다.

(2)

v*=arg maxvp∈V∑i1(dist(li,vp)<ɛ)

이 과정을 통해 검출된 선분과 VP 추정 결과의 예시는 Fig. 2와 같다. 그림에서 붉은색 선분은 수직 방향(천장, 기둥 등), 초록색 선분은 수평 방향, 파란색 선분은 깊이 방향을 나타낸다. 또한 하늘색 점은 추정된 VP를 의미하며, 노란색 선은 이를 기반으로 보정된 수평선 기준을 나타낸다. 이처럼 실내 구조선들이 세 개의 직교 방향으로 명확히 정렬됨을 확인함으로써, 추출된 VP가 카메라 투영행렬의 회전 성분과 잘 대응됨을 알 수 있다.

3.1.2 바닥 평면 추정 및 좌표계 설정

검출된 VP 정보를 이용하여 카메라 회전 행렬을 추정하고 바닥 평면 좌표계를 설정한다. 먼저, 검출된 VP 집합 V = {v_x,v_y,v_z}를 카메라 내부 파라미터 K로 정규화하여 각 축의 단위 방향 벡터 r_k를 식(3)과 같이 계산한다.

(3)

rk=K-1vk‖K-1vk‖

일반적인 실내 복도 환경에서는 깊이 방향 (v_z) VP가 명확하게 검출되는 반면, 좌우 방향 (v_x,v_y)은 영상 내 직선 성분의 부족으로 인해 추정이 불안정할 수 있다. 따라서 r_x, r_y가 수평선에 대해 기하학적 대칭성을 갖는다는 점을 이용하여, 이를 평균 방향 벡터 r_xy로 통합함으로써 안정성을 확보한다. 최종적인 회전 행렬 R_g는 식(4)와 같이 정의된다

(4)

Rg=[rxy,rz]

이때 바닥 평면의 법선 벡터 n은 깊이 벡터 r_z와 직교하는 조건(n·r_z = 0)을 만족하도록 설정된다. 이렇게 확립된 좌표계는 이후 3D 포즈의 기울기 보정 및 디지털 트윈 매핑을 위한 기준축으로 사용된다.

3.2 3D 포즈 추정

본 연구는 단일 RGB 영상으로부터 실시간 3D 포즈를 회귀하기 위해, 경량화된 OpenPose 기반 3D Pose Estimation 구조[15,16]에 ORPM (Occlusion-robust Pose-maps) 구조를 결합한 모델 f_pose(.)를 사용한다. 이 모델은 2D 관절 히트맵 H, PAF (Part Affinity Field) A, 그리고 3D 관절 맵 M = {M_j} 를 출력한다. 이 때 각 관절 j에 대한 히트맵 H는 식(5)과 같이 정의된다.

(5)

Hj(u,v)=exp(-||(u,v)-(uj,vj)||22σ2)

모델은 Soft-argmax 연산을 통해 히트맵으로부터 2D 좌표를 획득한다. 3D 포즈의 경우, ORPM 구조의 중복 판독(Redundant Readout) 전략을 활용하여 목, 골반, 사지 말단 등 다양한 위치에서 정보를 참조함으로써 신체 가림(Occlusion) 현상에 강인하게 회귀된다. 최종적으로 추정된 포즈 P는 카메라 중심 좌표계(Camera Coordinate System)상에서 정의된 관절 좌표의 집합으로, P = {p_i = (x_j,y_j,z_j)}와 같다.

하지만 이 좌표는 카메라의 설치 각도에 따라 기울어진 상태이므로, 앞서 3.1.2절에서 정의한 회전 행렬 R_g를 이용해 이를 보정해야 한다. 투시 왜곡과 카메라 틸트(Tilt) 영향을 제거하기 위해, 먼저 모든 관절 좌표를 골반(Pelvis, P_root)을 기준으로 정렬한 후, 3.1절에서 구한 회전 행렬 R_g를 적용한다. 보정된 좌표 pj′는 식(6)과 같이 계산된다.

(6)

pj′=Rg(pj-proot)

이 변환 과정을 통해, 인체 포즈는 카메라의 피치·롤 성분이 제거된 지면 정렬(Ground-aligned) 프레임으로 변환되며, 이는 이후 단계에서 절대 좌표 복원을 위한 기초 데이터로 활용된다.

3.3 좌표 보정 및 디지털 트윈 매핑

본 절에서는 3.2절에서 획득한 지면 정렬 포즈를 실제 물리적 공간(World Coordinate System)의 척도에 맞게 변환하고, 이를 가상 시뮬레이션 환경인 NVIDIA Omniverse에 실시간으로 매핑하는 과정을 기술한다.

3.3.1 좌표 재정렬 및 상대적 스케일 조정

앞서 구한 보정 좌표 pi′는 회전 성분만 정렬되었을 뿐, 깊이 정보의 부재로 인해 절대적인 크기(Scale) 정보를 포함하지 않는다. 따라서 카메라의 설치 높이 h_c 또는 평균 인체 신장 h_real 같은 추정 가능한 장면 정보에 기반하여 스케일 팩터 s를 근사적으로 산출해야 하며, 이는 식(7)과 같다.

(7)

s≈fy·hrealhimg

여기서 f_y는 카메라의 초점 거리, h_img는 영상 내에서 관측된 객체의 픽셀 높이를 의미한다. 산출된 스케일 팩터를 적용한 절대 좌표 piabs는 식(8)과 같이 계산된다.

(8)

pjabs=spj′

이 과정은 단일 영상 조건에서 정밀한 절대 거리 복원을 완벽히 보장하기는 어려우나, 장면의 기하학적 구조와 일관된 상대적 크기 및 공간적 비율(Spatial Ratio)을 확보하여 디지털 트윈 내에서의 시각적 이질감을 최소화하는 실용적 기준으로 작용한다.

3.3.2 디지털 트윈(Omniverse) 매핑

최종적으로 정규화된 포즈 pjabs는 Omniverse USD Skeleton의 Joint Primitive로 매핑된다. 프레임 t에서의 위치 JjUSE(t)는 식(9)와 같이 갱신된다.

(9)

JjUSD(t)=Tworldcam·pjabs(t)

변환행렬 T_{world_com}은 초기 평면–카메라 정합 결과와 높이 오프셋을 이용해 초기화되며, 프레임 단위로 갱신된다. 결과적으로 실제 인체 동작이 가상 환경과 실시간으로 동기화되는 디지털 트윈 시각화가 가능해진다.

4. 실험 및 결과

4.1 실험 환경

본 연구의 제안 기법을 검증하기 위해 NYU Depth V2 데이터셋의 다양한 실내 환경(복도, 사무실, 거실 등 9개 시퀀스)을 활용하였다. 각 영상에 라벨링된 VP 좌표와 제안 알고리즘을 통해 검출된 VP의 위치 정확도를 픽셀 단위로 비교 평가하였다. 디지털 트윈 시각화 및 매핑은 NVIDIA Omniverse Isaac Sim 4.5 플랫폼을 기반으로 구현되었다.

4.2 평가지표

VP 검출 정확도를 정량적으로 평가하기 위해 VP 픽셀 오차(Vanishing Point Pixel Error, E_vp)를 평가지표로 채택하였다. Ground Truth VP v_gt = (u_est, v_eset) 간의 2차원 유클리드 거리는 식(10)과 같이 정의된다.

(10)

Evp=(uest-ugt)2+(vest-vgt)2

이 지표는 영상 평면상에서의 위치 정확도를 나타내며, 단위는 픽셀(pixel)이다.

4.3 실험 결과

Fig. 3은 NYU Depth V2 전체 데이터셋에 대해 VP 추정 오차의 분포를 나타낸 것이다. 대부분의 추정 결과가 1픽셀 이하의 매우 작은 오차 범위에 위치하며, 특히 0픽셀 부근에 빈도가 집중되는 것을 확인할 수 있다. 이는 제안한 방법이 다양한 실내 환경에서도 높은 안정성과 정밀도를 유지하며 VP를 추정함을 의미한다.

Fig. 4는 VP 기반 보정 적용 전후의 인체 발(Foot) 좌표 궤적을 비교한 결과이다. 보정 전 궤적 Fig. 4(a)는 카메라의 기울어짐과 원근 왜곡으로 인해 실제 바닥 평면과 불일치하며, 궤적의 불안정성과 비일관성이 두드러진다. 반면 보정 적용 이후 Fig. 4(b)는 좌표가 추정된 바닥 평면에 기하학적으로 정렬되며, 발 궤적이 명확하게 안정화된 모습을 확인할 수 있다. 이는 제안 기법이 3D 자세 정보의 공간적 일관성과 정합성을 크게 향상시킴을 보여준다.

Fig. 5는 제안한 프레임워크를 실제 건설 현장에 적용한 결과를 보여준다. 정량적 Ground Truth를 확보하기 어려운 야외/현장 데이터의 특성상, 본 실험에서는 가상 공간 내 객체와 인체 간의 기하학적 정합성을 중점적으로 분석하였다.

첫째, 지면 접지 안정성이다. 일반적인 단안 3D 포즈추정 모델은 깊이 모호성으로 인해 인체가 공중에 떠 있거나 지면을 뚫고 들어가는 현상이 빈번하다. 그러나 Fig. 5(a)의 결과에서는 작업자의 발이 가상 지면에 정확히 밀착되어 있으며, 이는 VP 기반의 바닥 평면 추정이 스케일 모호성을 효과적으로 억제했음을 시사한다.

둘째, 구조물과의 정렬이다. 작업자가 밟고 있는 사다리와 주변 기둥은 수직 VP 방향과 일치해야 한다. 보정된 결과에서 인체와 사다리의 기울기가 가상환경의 수직축과 평행을 유지하는 것은 본 알고리즘이 카메라의 롤/피치 회전 성분을 정확히 제거하였음을 보여준다.

결론적으로, NYU Depth V2 데이터셋(Fig. 3)에서 검증된 1픽셀 미만의 VP 검출 정확도는, 실제 산업 현장의 복잡한 배경에서도 작업자와 디지털 트윈 공간 간의 정밀한 시각적 동기화를 가능케 하는 핵심 요인으로 작용함을 확인하였다.

5. 결론

본 연구는 단일 RGB 영상만을 이용해 3D 인체 포즈를 추정하고, VP 기반 기하학적 보정을 통해 실제 공간 좌표계에 정렬한 뒤 디지털 트윈 환경으로 실시간 매핑하는 경량화된 프레임 워크를 제안하였다. 제안 기법은 맨해튼 월드 구조에서 유도되는 선형 정보를 활용하여 카메라의 회전 성분을 추정하고, 이를 기반으로 지면 정렬 좌표계를 구성함으로써 깊이 센서 없이도 투시 왜곡을 효과적으로 제거할 수 있음을 확인하였다. 또한 VP 기반 보정은 인체 포즈의 공간적 일관성을 크게 향상시키며, 실제 바닥 평면과의 정합 안정성을 확보하여 디지털 트윈 상에서 시각적·기하학적 타당성을 동시에 만족시킨다.

정량적 실험을 통해 제안 방법이 다양한 실내 환경에서도 높은 VP 검출 정확도(1픽셀 이하)를 유지함을 검증하였으며, 산업 환경에서 촬영된 단일 영상 기반의 실제 디지털 트윈 매핑 실험에서도 일관된 정합 성능을 보였다. 이는 복잡한 복합 센서를 사용하지 않고도 저비용·고호환성의 디지털 트윈 시스템을 구축할 수 있음을 실증적으로 보여준다.

그러나 본 연구는 다음과 같은 한계점을 갖는다. 첫째, VP 추정을 기반으로 장면의 기하 구조를 복원하므로, 영상 내에서 직선 성분이 충분히 검출되지 않는 장면에서는 VP 추정의 안정성이 저하될 수 있다. 예를 들어, 곡선 구조가 지배적인 환경이나 자연 장면, 또는 복잡한 실내 환경에서는 선분 검출 성능이 제한될 수 있으며, 이는 3차원 좌표 보정 정확도에 직접적인 영향을 미친다. 둘째, 카메라의 기울기가 극단적인 경우나 바닥 평면이 명확히 관측되지 않는 상황에서는 바닥 평면 법선 추정에 오차가 발생할 수 있으며, 이로 인해 인간 골격의 스케일 및 정렬 정확도가 저하될 가능성이 있다. 마지막으로, 본 방법은 2D 포즈 추정 결과를 입력으로 사용하므로, 2D 포즈 검출 단계에서 발생한 오류가 3차원 골격 복원 결과로 전파될 수 있다는 구조적 한계를 갖는다.

향후 연구에서는 (1) 비-맨해튼 월드(Non-Manhattan World) 환경에서도 안정적인 V P 추정을 수행하기 위한 학습 기반 VP 보정 모델 개발, (2) 이동 카메라 및 동적 장면에서의 실시간 정합 확장을 위한 온라인 캘리브레이션 기법 연구, (3) 산업 현장의 다작업자 환경을 고려한 멀티-포즈 트래킹 및 상호작용 추정으로 프레임워크 확장을 추진할 예정이다. 이를 통해 단일 영상 기반 디지털 트윈 기술의 실용성을 더욱 강화하고, 실제 스마트 팩토리·로보틱스·물류 환경에서 활용 가능한 경량화된 공간 이해 시스템으로 발전시키고자 한다.

FOOTNOTES

ACKNOWLEDGEMENT

이 연구는 서울과학기술대학교 교내연구비의 지원으로 수행되었습니다.

Fig. 1

Overview of the proposed framework for VP-based 3D pose correction and digital twin mapping

Fig. 2

Visualization of line segment detection and vanishing point estimation results

Fig. 3

Distribution of Vanishing Point (VP) localization errors on the NYU Depth V2 dataset

Fig. 4

Comparison of foot trajectories before and after ground-plane correction: (a) Before correction, (b) After VP-based alignment

Fig. 5

Industrial application of the proposed framework: (a) Omniverse-rendered digital-twin scene, (b) the original RGB image captured in the industrial environment

REFERENCES

1. Grieves, M., (2014), Digital twin: Manufacturing excellence through virtual factory replication, White Paper, 1-7.
2. Lu, Y., Liu, C., Kevin, I., Wang, K., Huang, H., Xu, X., (2020), Digital twin-driven smart manufacturing: Connotation, reference model, applications and research issues, Robotics and Computer-Integrated Manufacturing, 61, 101837.
Article
3. Zhou, Y., Qi, H., Huang, J., Ma, Y., (2019), Neurvps: Neural vanishing point scanning via conic convolution, Advances in Neural Information Processing Systems, 32.
4. Li, H., Xing, Y., Zhao, J., Bazin, J.-C., Liu, Z., Liu, Y.-H., (2019), Leveraging structural regularity of Atlanta world for monocular SLAM, Proceedings of the International Conference on Robotics and Automation, 2412-2418.
Article
5. Von Gioi, R. G., Jakubowicz, J., Morel, J.-M., Randall, G., (2008), LSD: A fast line segment detector with a false detection control, IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(4), 722-732.
Article
PubMed
6. Criminisi, A., Reid, I., Zisserman, A., (2000), Single view metrology, International Journal of Computer Vision, 40(2), 123-148.
Article
PDF
7. Bharadwaj, S., Collins, R. T., Liu, Y., (2025), Recurrence-based vanishing point detection, Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 8927-8936.
Article
8. Tao, F., Zhang, H., Liu, A., Nee, A. Y., (2018), Digital twin in industry: State-of-the-art, IEEE Transactions on Industrial Informatics, 15(4), 2405-2415.
Article
9. Neyestani, A., Picariello, F., Ahmed, I., Daponte, P., De Vito, L., (2024), From pixels to precision: A survey of monocular visual odometry in digital twin applications, Sensors, 24(4), 1274.
Article
PubMed
PMC
10. Kim, M., Kim, T., Lee, K.-T., (2023), Digital human interaction based on mono camera for digital twin, Proceedings of the 14th International Conference on Information and Communication Technology Convergence (ICTC), 641-643.
Article
11. Laina, I., Rupprecht, C., Belagiannis, V., Tombari, F., Navab, N., (2016), Deeper depth prediction with fully convolutional residual networks, Proceedings of the Fourth International Conference on 3D Vision (3DV), 239-248.
Article
12. Li, H., Zhao, J., Bazin, J.-C., Liu, Y.-H., (2020), Quasi-globally optimal and near/true real-time vanishing point estimation in manhattan world, IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(3), 1503-1518.
Article
PubMed
13. Mehta, D., Sridhar, S., Sotnychenko, O., Rhodin, H., Shafiei, M., Seidel, H.-P., Xu, W., Casas, D., Theobalt, C., (2017), Vnect: Real-time 3D human pose estimation with a single RGB camera, ACM Transactions on Graphics (TOG), 36(4), 1-14.
14. Mehta, D., Sotnychenko, O., Mueller, F., Xu, W., Sridhar, S., Pons-Moll, G., Theobalt, C., (2018), Single-shot multi-person 3D pose estimation from monocular RGB, Proceedings of the International Conference on 3D Vision (3DV), 120-130.
Article
15. Osokin, D., (2018), Real-time 2D multi-person pose estimation on cpu: Lightweight openpose, arXiv preprint arXiv:1811.12004.
Article
16. Osokin D.. Lightweight human pose estimation 3D demo manual. http://github.com/Daniil-Osokin/lightweight-human-pose-estimation-3d-demo.pytorch.

Hyun Seo Cho
Min Ju Hong
Byeong Soo Kim

Figure & Data

References

Citations

Citations to this article as recorded by

Cite

CITE

export

Copy Download

Format
XML Download

Download Citation

Download a citation file in RIS format that can be imported by all major citation management software, including EndNote, ProCite, RefWorks, and Reference Manager.

Format:

RIS — For EndNote, ProCite, RefWorks, and most other reference management software
BibTeX — For JabRef, BibDesk, and other BibTeX-specific software

Include:

Citation for the content below
Citation and abstract for the content below

A VP-based 3D Human Pose Correction and Digital Twin Mapping Framework Using a Single RGB Image

J. Korean Soc. Precis. Eng.. 2026;43(6):589-595. Published online June 1, 2026

DOI: https://doi.org/10.7736/JKSPE.025.00035

Download Citation

Download a citation file in RIS format that can be imported by all major citation management software, including EndNote, ProCite, RefWorks, and Reference Manager.

Format:

RIS — For EndNote, ProCite, RefWorks, and most other reference management software
bib — For JabRef, BibDesk, and other BibTeX-specific software

Include:

Citation for the content below
Citation and abstract for the content below

A VP-based 3D Human Pose Correction and Digital Twin Mapping Framework Using a Single RGB Image

J. Korean Soc. Precis. Eng.. 2026;43(6):589-595. Published online June 1, 2026

DOI: https://doi.org/10.7736/JKSPE.025.00035

Figure

A VP-based 3D Human Pose Correction and Digital Twin Mapping Framework Using a Single RGB Image

Fig. 1 Overview of the proposed framework for VP-based 3D pose correction and digital twin mapping

Fig. 2 Visualization of line segment detection and vanishing point estimation results

Fig. 3 Distribution of Vanishing Point (VP) localization errors on the NYU Depth V2 dataset

Fig. 4 Comparison of foot trajectories before and after ground-plane correction: (a) Before correction, (b) After VP-based alignment

Fig. 5 Industrial application of the proposed framework: (a) Omniverse-rendered digital-twin scene, (b) the original RGB image captured in the industrial environment

Fig. 1

Fig. 2

Fig. 3

Fig. 4

Fig. 5

A VP-based 3D Human Pose Correction and Digital Twin Mapping Framework Using a Single RGB Image

Articles

Page Path

단일 RGB 영상을 이용한 VP 기반 3D 인체 자세 보정 및 디지털 트윈 매핑 프레임워크

A VP-based 3D Human Pose Correction and Digital Twin Mapping Framework Using a Single RGB Image

Full Article

ABSTRACT

1. 서론

2. 관련 연구

3. 방법론

3.1.1 선분 검출 및 VP 추정

(1)

(2)

3.1.2 바닥 평면 추정 및 좌표계 설정

(3)

(4)

(5)

(6)

3.3.1 좌표 재정렬 및 상대적 스케일 조정

(7)

(8)

3.3.2 디지털 트윈(Omniverse) 매핑

(9)

4. 실험 및 결과

(10)

5. 결론

FOOTNOTES

REFERENCES

Biography

Figure & Data

References

Citations

CITE

Download Citation

Format:

Include:

Figure

Fig. 1

Fig. 2

Fig. 3

Fig. 4

Fig. 5

ABOUT

BROWSE ARTICLES

EDITORIAL POLICIES

FOR CONTRIBUTORS