SIGGRAPH Asia 2022
为鼓励对计算机图形和交互技术有突出贡献和创新性的研究,继计算机图形学顶会ACM SIGGRAPH (North America) 2022年首次启动评选最佳论文后,2022年12月6日, SIGGRAPH Asia 2022官方也公布了首次最佳论文奖(Best Technical Paper Award)。来自js333金沙线路检测登录入口可视计算与学习实验室(VCL)的科研成果“Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings”成为四篇入选论文之一。
该论文由js333金沙线路检测登录入口可视计算与学习(VCL)实验室刘利斌研究团队历时1年半的时间完成。第一作者是2020级研究生敖腾隆,合作者包括js333金沙线路检测登录入口VCL实验室访问博士高庆哲、js333金沙线路检测登录入口2019级本科生娄宇珂以及VCL实验室负责人、js333金沙线路检测登录入口副院长陈宝权。
VCL实验室
2022年,VCL实验室在SIGGRAPH和SIGGRAPH Asia发表论文达6篇。其中被SIGGRAPH Asia 2022收录的3篇论文中,1篇荣获最佳论文,2篇入选SIGGRAPH Asia 2022 – Technical Papers Trailer。而除本次荣获SIGGRAPH Asia最佳论文奖外,实验室研究成果“Joint Neural Phase Retrieval and Compression for Energy- and Computation-Efficient Holography on the Edge”论文也在2022年8月荣获了SIGGRAPH 2022首次最佳论文荣誉提名奖。
Rhythmic Gesticulator
基于韵律感知的演讲手势生成系统
文章提出了一个新的由语音和文字来驱动3D上半身人体模型进行手势表演的跨模态生成系统。该系统依据手势相关的语言学研究理论,首次显式地从韵律(rhythm)和语义(semantics)两个维度对语音文字和手势之间的关系进行建模,从而保证生成的手势动作既韵律匹配又具备合理的语义。
“基于韵律的切分归一化管道”(左半图)确保韵律,解耦合并构建跨模态高层次语义特征映射关系(右半图)保证语义性。
如何让计算机根据语音和文字输入自动生成手势是一个研究了近30年的问题。由于语言和手势具有弱相关性和多义性,近年最先进的端到端(end-to-end)神经网络系统难以有效地挖掘出手势的韵律和语义。为了解决这一问题,该研究团队从传统的语言学理论出发,首先提出了一个“基于韵律的切分归一化流程”,显式地确保输入语音文字和生成手势间时序上的和谐性,然后分别解耦合了语音和手势不同层次的特征,并显式构建了两个模态不同层次特征间的映射关系,同时保证生成的手势能够具备明确的语义。
韵律感知(跟随音乐摆动)
手势风格编辑(控制手高度、手势速度以及双手半径)
语义感知(语义手势的生成)
从手势生成结果来看,该系统主要有如下特性:(1)韵律感知。能够根据输入语音的节奏生成合拍的手势动作,甚至对于音乐等非语音的输入也能地捕捉其节奏,并随之“摆动”;(2)语义感知。当输入语言包含强语义词(比如me、many以及no等)时,能生成符合含义的语义手势;(3)风格编辑。能够通过加入控制信号,控制生成手势的风格(比如手高度、手势速度以及双手半径等)。
总结来说,该工作提出了一个新的基于语音文字输入的角色手势生成系统。相较于之前工作,这是第一个显式建模了语言与手势间韵律(rhythm)和语义(semantics)对应关系的神经网络系统,其在领域客观和主观评价指标下均取得了目前最优结果。此外,该工作对“如何让神经网络系统生成既韵律匹配又具备合理语义的手势动作”这一难题提供了初步解决方法,并进行了充足试验证明其有效性。最后,该论文的思想有望泛化至其他语音/文字驱动相关的多模态生成任务,为如何改善“暴力”、“黑盒”型端到端系统提供新的视角。
论文详细介绍:https://mp.weixin.qq.com/s/MMTO_BqO51JT5ucpUDo4TQ
Video Demo: https://www.bilibili.com/video/BV1G24y1d7Tt/
地址:北京市海淀区颐和园路5号 反馈意见:its@pku.edu.cn
Copyright 版权所有©js333金沙(中国)官方网站 -官网线路检测登录入口 -Apple App store All Rrights Reserved.