Zhensong Zhang

PhD (CUHK)MS (UCAS)BEng (Xidian)

Biography

I joined Huawei Noah's Ark Lab after obtaining my Ph.D. from The Chinese University of Hong Kong in 2018. Before that, I received a BEng. degree and a M.S. degree from Xidian University and the University of Chinese Academy of Sciences in 2011 and 2014, respectively. My research focuses on building intelligent systems that understand, model, and interact with the physical world, with particular interests in Visual Language Models, 3D Gaussian Splatting, and wearable AI agents.

We are hiring — looking for self-motivated interns & full-time researchers in VLM. Feel free to drop me an email.

News

04/2026LiteVSR accepted to ICML 2026.

02/2026Four papers (ColorTrigger, Charge, Off The Grid, FRAM) and 2 Findings papers (GRVS, Map2Thought) accepted to CVPR 2026.

01/2026CHROMA accepted to ICLR 2026, Egocentric Co-Pilot accepted to WWW 2026.

12/2025iCo3D accepted to IJCV.

11/2025Egocentric intent disambiguation paper accepted to AAAI 2026.

11/2025SCENIC accepted to 3DV 2026.

09/2025ViDAR accepted to NeurIPS 2025.

07/2025Survey on Human Motion Video Generation accepted to TPAMI.

07/2025One paper accepted to ICCV 2025.

06/2025Second place in HD-EPIC VQA Challenges 2025.

04/2025Video Human Motion In-betweening paper accepted to IJCAI 2025.

03/2025CaricatureBooth accepted to CVPR 2025.

01/2025One paper accepted to ICASSP 2025.

Recent Publications

Preprint

LatSearch: Latent Reward-Guided Search for Faster Inference-Time Scaling in Video Diffusion

Zengqun Zhao, Ziquan Liu, Yu Cao, Shaogang Gong, Zhensong Zhang, Jifei Song, Jiankang Deng, Ioannis Patras

Preprint

GASPACHO: Gaussian Splatting for Controllable Humans and Objects

Aymen Mir, Arthur Moreau, Helisa Dhamo, Zhensong Zhang, Eduardo Pérez-Pellitero

Preprint

Better Together: Unified Motion Capture and 3D Avatar Reconstruction

Arthur Moreau, Mohammed Brahimi, Richard Shaw, Athanasios Papaioannou, Thomas Tanay, Zhensong Zhang, Eduardo Pérez-Pellitero

ICML

LiteVSR: Enabling Cross-Domain Fine-Grained Detail Generation in Light-Weight Transformers for Video Super-Resolution

Yu Cao, Ziquan Liu, Zhensong Zhang, Jiankang Deng, Shaogang Gong, Jifei Song

ICML 2026

CVPR

GRVS: a Generalizable and Recurrent Approach to Monocular Dynamic View Synthesis

Thomas Tanay, Mohammed Brahimi, Michal Nazarczuk, Qingwen Zhang, Sibi Catley-Chandar, Arthur Moreau, Zhensong Zhang, Eduardo Pérez-Pellitero

CVPR Findings 2026 Website

CVPR

Map2Thought: Explicit 3D Spatial Reasoning via Metric Cognitive Maps

Xiangjun Gao, Zhensong Zhang, Dave Zhenyu Chen, Songcen Xu, Long Quan, Eduardo Pérez-Pellitero, Youngkyoon Jang

CVPR Findings 2026

CVPR

Diffusion-Based Makeup Transfer with Facial Region-Aware Makeup Features

Zheng Gao, Debin Meng, Yunqi Miao, Zhensong Zhang, Songcen Xu, Ioannis Patras, Jifei Song

CVPR 2026

CVPR

Color When It Counts: Grayscale-Guided Online Triggering for Always-On Streaming Video Sensing

Weitong Cai, Hang Zhang, Yukai Huang, Shitong Sun, Jiankang Deng, Songcen Xu, Jifei Song, Zhensong Zhang

CVPR 2026Website

CVPR

Charge: A Comprehensive Novel View Synthesis Benchmark and Dataset to Bind Them All

Michal Nazarczuk, Thomas Tanay, Arthur Moreau, Zhensong Zhang, Eduardo Pérez-Pellitero

CVPR 2026

CVPR

Off The Grid: Detection of Primitives for Feed-Forward 3D Gaussian Splatting

Arthur Moreau, Richard Shaw, Michal Nazarczuk, Jisu Shin, Thomas Tanay, Zhensong Zhang, Songcen Xu, Eduardo Pérez-Pellitero

CVPR 2026 Website

ICLR

CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction

Jisu Shin, Richard Shaw, Seunghyun Shin, Zhensong Zhang, Hae-Gon Jeon, Eduardo Perez-Pellitero

ICLR 2026

WWW

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

Sicheng Yang, Yukai Huang, Weitong Cai, Shitong Sun, Fengyi Fang, You He, Yiqiao Xie, Jiankang Deng, Hang Zhang, Jifei Song, Zhensong Zhang

WWW 2026

IJCV

ICo3D: An Interactive Conversational 3D Virtual Human

Richard Shaw, Youngkyoon Jang, Athanasios Papaioannou, Arthur Moreau, Helisa Dhamo, Zhensong Zhang, Eduardo Pérez-Pellitero

IJCV Website

AAAI

Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation

Sicheng Yang, Yukai Huang, Weitong Cai, Shitong Sun, You He, Jiankang Deng, Hang Zhang, Jifei Song, Zhensong Zhang

AAAI 2026

3DV

SCENIC: Scene-aware Semantic Navigation with Instruction-guided Control

Xiaohan Zhang, Sebastian Starke, Vladimir Guzov, Zhensong Zhang, Eduardo Pérez Pellitero, Gerard Pons-Moll

3DV 2026

NeurIPS

ViDAR: Video Diffusion-Aware 4D Reconstruction From Monocular Inputs

Michal Nazarczuk, Sibi Catley-Chandar, Thomas Tanay, Zhensong Zhang, Gregory Slabaugh, Eduardo Pérez-Pellitero

NeurIPS 2025

TPAMI

Human Motion Video Generation: A Survey

Haiwei Xue, Xiangyang Luo, Zhanghao Hu, Xin Zhang, Xunzhi Xiang, Yuqin Dai, Jianzhuang Liu, Zhensong Zhang, Minglei Li, Jian Yang, Fei Ma, Zhiyong Wu, Changpeng Yang, Zonghong Dai, Fei Richard Yu

IEEE Trans. PAMI, 2025 Website

ICCV

Frequency-Guided Diffusion for Training-Free Text-Driven Image Translation

Zheng Gao, Jifei Song, Zhensong Zhang, Jiankang Deng, Ioannis Patras

ICCV 2025

CVPR

CaricatureBooth: Data-Free Interactive Caricature Generation in a Photo Booth

Zhiyu Qu, Yunqi Miao, Zhensong Zhang, Jifei Song, Jiankang Deng, Yi-Zhe Song

CVPR 2025

IJCAI

VideoHumanMIB: Unlocking Appearance Decoupling for Video Human Motion In-betweening

Haiwei Xue, Zhensong Zhang, Minglei Li, Zonghong Dai, Fei Yu, Fei Ma, Zhiyong Wu

IJCAI 2025

ICASSP

Identity-Preserving Audio-Driven Holistic Human Motion Video Generation

Haiwei Xue, Zhensong Zhang, Minglei Li, Zonghong Dai

ICASSP 2025

Honors & Awards

Winner, ECCV 2022 RVC monocular depth estimation prediction challenge
Second place, HD-EPIC VQA Challenges 2025
Reproducibility Award, GENEA Challenge 2023