虛擬數(shù)字人是怎么分類的?
-
2024-03-04
-
深圳市瑞立視多媒體科技有限公司
- 瀏覽量:1394
- 分享次數(shù):1
虛擬數(shù)字人是怎么分類的?按照建模的不同,虛擬數(shù)字人形象有2D、3D兩種生成方式。2D虛擬數(shù)字人是指通過深度學(xué)習(xí)根據(jù)拍攝真人照片或視頻制作的虛擬形象,本質(zhì)是生成圖像。3D虛擬數(shù)字人指的是通過三維建模制作的虛擬形象。伴隨著建模技術(shù)的成熟,建模技術(shù)向AI建模發(fā)展,用戶可通過上傳視頻或照片即可生產(chǎn)個人不同風(fēng)格的虛擬形象,大大減短了虛擬數(shù)字人建模時長,下面就和瑞立視一起來看看虛擬數(shù)字人的相關(guān)內(nèi)容。
2D、3D虛擬數(shù)字人技術(shù)及應(yīng)用:
按照技術(shù)層級劃分,虛擬數(shù)字人可以劃分為真人驅(qū)動型和計算驅(qū)動型兩大類。
真人驅(qū)動型虛擬數(shù)字人,在制作開始時,制作者基于IP或真人偶像繪制原畫,對面部及身體部位進(jìn)行3D建模,完成形象設(shè)計及建模后;制作者選擇關(guān)鍵點,并映射在模型上,進(jìn)行綁定,對于關(guān)鍵點的數(shù)量及綁定的位置選擇都將影響最終效果;之后,由中之人(真人演員)穿戴設(shè)備。利用動作捕捉設(shè)備或特定攝像頭以及圖像識別等技術(shù),捕捉形體、表情、眼神、手勢等關(guān)鍵點的變化;中之人也會根據(jù)制作進(jìn)行相應(yīng)表演,進(jìn)行實時驅(qū)動,對于精細(xì)程度要求更高的虛擬數(shù)字人,會對動作、眼神等采取不同的驅(qū)動方式,并進(jìn)行語音合成,形成特定設(shè)置語音,進(jìn)行直播或錄制動作生成其他內(nèi)容。
真人驅(qū)動型虛擬數(shù)字人技術(shù)流程:
計算驅(qū)動型虛擬數(shù)字人,其面部表情、語音表達(dá)、動作合成等主要通過深度學(xué)習(xí)的模型進(jìn)行實時或離線驅(qū)動后,通過渲染達(dá)到最終呈現(xiàn)效果。計算驅(qū)動型虛擬數(shù)字人在制作過程中,首先利用多方位攝像頭,根據(jù)最終展現(xiàn)效果,對通用、特定模特進(jìn)行打點掃描,完成全身或局部的掃描,并采集說話時唇動、表情、面部肌肉變化的細(xì)節(jié)、姿態(tài)等數(shù)據(jù),完成形象設(shè)計。然后依據(jù)最終呈現(xiàn)效果進(jìn)行建模,進(jìn)行關(guān)鍵點綁定,基于真人照片生成虛擬內(nèi)容時,一是將真人照片貼片至通用的人臉模型,進(jìn)行表情遷移,形成虛擬形象,二是基于預(yù)先設(shè)置的形象分類算法,將真人照片中的眼型、發(fā)型、唇形、膚色等進(jìn)行分類,并與預(yù)先設(shè)置的漫畫元素進(jìn)行配對,生成動漫類的虛擬形象。
之后,利用深度學(xué)習(xí),對虛擬形象進(jìn)行語音、表情、唇形等方面的訓(xùn)練,形成驅(qū)動模型與驅(qū)動方式,充足的驅(qū)動關(guān)鍵點與高精度的驅(qū)動模型,可以高水平還原人臉骨骼和面部肌肉的細(xì)微變化,從而建立逼真的表情驅(qū)動模型。目前業(yè)內(nèi)科大訊飛等在智能語音技術(shù)方面領(lǐng)先的公司會對語音或文本中的要素進(jìn)行提取,增加情感驅(qū)動模型等,而元宇宙企業(yè)魔琺科技作為業(yè)內(nèi)領(lǐng)先的虛擬數(shù)字人全棧式廠商,其表情驅(qū)動模型可組合出超千種表情效果,包括眼神驅(qū)動等。目前,大多數(shù)廠商驅(qū)動模型為語音-唇形、語音-驅(qū)動。而對于手勢、動作等身體部位的驅(qū)動,則大多依靠于現(xiàn)場驅(qū)動或預(yù)設(shè)置驅(qū)動,大部分企業(yè)通常會選擇在通用驅(qū)動模型的基礎(chǔ)上,進(jìn)行真人驅(qū)動數(shù)據(jù)訓(xùn)練進(jìn)行定制化驅(qū)動。
接下來,基于文本輸入、語音識別、語音轉(zhuǎn)化或語音合成技術(shù),通過時間軸,結(jié)合上一步的驅(qū)動模型,將語音與虛擬數(shù)字人圖片進(jìn)行逐幀結(jié)合,達(dá)到音畫同步。最后,通過實時低延遲渲染,生成最終內(nèi)容。特別注意的是,對于具有特定交互場景的虛擬數(shù)字人,制作者/生產(chǎn)廠商會預(yù)設(shè)問答庫、知識圖譜等,將其接入虛擬數(shù)字人的交互系統(tǒng)。
計算驅(qū)動型虛擬數(shù)字人技術(shù)流程:
計算驅(qū)動型的虛擬數(shù)字人最終呈現(xiàn)效果受到NLP(自然語言理解)、ASR(語音識別技術(shù))、TTS(語音合成技術(shù))等技術(shù)的共同影響。其中,NLP技術(shù)決定虛擬數(shù)字人最終是否可以理解使用者的需求,并且與使用者是否可以流暢交流,ASR技術(shù)決定虛擬數(shù)字人是否可以準(zhǔn)確識別使用者需求,TTS技術(shù)則表現(xiàn)在虛擬數(shù)字人在交互表達(dá)時,韻律、腔調(diào)、情感、流暢度等是否與真人發(fā)聲習(xí)慣相似。綜上,若要擁有一個理想完美的虛擬數(shù)字人,要求生產(chǎn)廠商在以上三個技術(shù)層次具有較強的綜合能力,因此可以看到我國進(jìn)行計算驅(qū)動型虛擬數(shù)字人業(yè)務(wù)的公司,多為感知技術(shù)較強的相對成熟的AI技術(shù)公司,如瑞立視等。
以上就是瑞立視給大家整理的“虛擬數(shù)字人是怎么分類的”的相關(guān)內(nèi)容,想要了解更多數(shù)字媒體、虛擬仿真實訓(xùn)、產(chǎn)教融合型企業(yè)的相關(guān)內(nèi)容,可以直接咨詢?nèi)鹆⒁暋?/span>