PG电子(PocketGames) 大神李沐回来B站「作念了个及时数字东说念主」,直言「水平吊打我我方」

时隔近一年,阿谁在 B 站教民众阅读 AI 论文的大神李沐 @跟李沐学 AI,终于回来了!

在最新一期视频中,李沐「作念了个及时数字东说念主」,并与 TA 进行视频对话,从视频来看,数字东说念主形象确乎挺传神的,用他我方的话说,「水平吊打我我方」!

而这背后的技巧恰是李沐的创业公司——BosonAI 发布的一款名为 Higgs Avatar v1 的模子:面向语音智能体的及时数字东说念主。
官方先容,算作一个及时基础模子,Higgs Avatar v1大略为客服对话、造谣助手、培训以及互动体验带来更接近真东说念主的数字化形象与临场感。

而且操作起来异常节略,只需要一张静态图片,就能生成活泼、富足发达力的面部色彩,并相沿讲话、倾听和恢复。扫数操作都以逐帧款式完成,并与音频保握同步。
BosonAI 团队先容,上述李沐的展示的视频内容富裕由 AI 生成,不仅莫得预设剧本,也莫得动画制作过程、预渲染轮回,每一帧都是及时渲染完成的 —— 包括声息、对话、口型同步、头部动作和色彩。
何况,整套过程仅在单张 H100 上就不错运行。
底下再来看几个官方给的使用案例,民众来评一评后果怎样?
及时保障 Agent 展示:

AI 教师饱读动用户的 Demo 展示:

AI 艾伦・图灵访谈:

两个 AI 造谣形象在沟通东说念主类情谊:

阐发 Boson AI 团队透露的技巧细节,PG电子(PocketGames)Higgs Avatar v1 具备以下四大中枢上风:
无剧本的粗疏饰演:模子会随着语音流,逐帧及时渲染出唇形同步、头部动作和面部色彩。你听到什么,就看到什么,富裕是粗疏瓦解。
开局一张图,剩下全靠 AI:不需要好莱坞级别的 3D 动捕,也无谓事前录制僵硬的轮回顾频。只须给它一张静态像片,Higgs Avatar v1 就能短暂生成一个会听、会说、会给反映的动态样貌。
快到莫得「时差」:业界公认保握及时对话不卡顿的蔓延底线是 62.5 毫秒,而 Higgs Avatar v1 生成一帧画面只需要16 毫秒!这意味着数字东说念主的色彩始终牢牢贴合声息,毫不模棱两头。
极致的算力性价比:关于企业级诈欺而言,本钱是落地的关键。单张 H100 GPU 即可同期相沿 8 路及时对话并发,将单次对话的本钱压缩到了富裕大略空闲大限制出产部署的水平。

Higgs Avatar v1 的发布,为 Boson AI 的居品栈补皆了一块关键的视觉拼图。
在骨子业务场景(如保障销售、企业教师、造谣口试及互动文娱等)中,Boson AI 现已酿成了双擎驱动的款式:Higgs Audio 崇敬语音的相连与生成,Higgs Avatar 崇敬赋予 AI 着实的「面目」。
「咱们之是以坚握自研基础模子,是因为出产环境中的对话式 AI 无法由外部组件对付而成。」 Boson AI 团队在发布声明中强调。
若是仅仅把现成的外部 API 缝合在沿途,蔓延卡顿、抢话冲突、声息跟色彩脱节等问题根蒂没法贬责。只好从新初始全栈自研,把声学与面部色彩的情谊对皆、端到端的职责流编排死死咬合在沿途,才调绝对突破交互的隔膜。
当今,Higgs Avatar v1 如故参加内测(Private Preview)阶段,接下来会搭载在他们行将推出的语音聊天体验居品 Boson Presence 中庸民众碰面。
迫不足待念念望望沐神新作品的同学们,不错去官网排个 Waitlist 占坑了。关于有企业集成、定制模子或 API 访谒需求的客户,也可径直通过官方邮箱联系。
B 站视频:https://www.bilibili.com/video/BV1pB586fEap/?spm_id_from=333.1387.upload.video_card.click
更多见: https://www.boson.ai/blog/higgs-avatar-v1
加入试用:https://tally.so/r/VLvKgE