【AI数字人】根据音频生成带动画的数字人

[复制链接]
wwe 发表于 2025-1-3 17:28:23 | 显示全部楼层 |阅读模式
wwe
2025-1-3 17:28:23 410 0 看全部
        介绍如何使用人工智能框架EMAGE,根据音频和蒙面手势生成逼真的数字人全身动作。EMAGE结合了BEATX数据集,利用音频和身体姿势先验知识,通过联合训练生成面部和身体动作。该技术实现了高保真度和多样性的结果,并能在预定义的时空手势输入下生成同步的音频动画。


        一个从音频和蒙面手势生成全身人体手势的框架,包括面部、局部身体、手和整体动作。为了实现这一目标,我们首先引入 BEATX(BEAT-SMPLXFLAME),一个新的网格级整体协同语音数据集口。
        BEATX将 MoShed SMPLX身体与FLAME 头部参数相结合,进一步细化头部、颈部和手指运动的建模,提供社区 标准化只的高质量 3D 运动捕捉数据集。 EMAGE 在训练期间利用屏蔽的身体姿势先验来提高推理 性能Q。它涉及一个屏蔽音频手势 转换器Q,促进音频手势生成和屏蔽手势重建的联合训练,以有效地编码音频和身体手势提示。然后,将来自蒙面手势的编码身体提示分别用于生成面部和身体动作。此外,EMAGE 自适应地合并来自音频节奏和内容的语音特征,并利用四种组合 VQVAE 来增强结果的保真度和多样性。实验表明,EMAGE 可以生成具有最先进性能的整体手势,并且可以灵活地接受预定义的时空手势输入,生成完整的音频同步结果。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 返回列表

wwe当前离线
版主

查看:410 | 回复:0

欢迎
  • 联系电话
    13143516491
  • 邮    箱
  • 地    址
    广州·天河·五山路·金山大厦·北塔1801
快速回复 返回顶部 返回列表
|