2023-11-28
一場(chǎng)談話中,沉默的時(shí)間超過(guò)4秒,氣氛就會(huì)變的尷尬
人與人的對(duì)話尚且如此,更別說(shuō)數(shù)字人了
因此,交互速度成為我們衡量一個(gè)“全擬真人類個(gè)體”是否合格的重要技術(shù)指標(biāo)之一
通常情況下,AI驅(qū)動(dòng)的交互型數(shù)字人交互反應(yīng)時(shí)長(zhǎng)在7-8秒左右
有些“人工智障”甚至要達(dá)到20幾秒
但是現(xiàn)在,這個(gè)難題被攻克了
我們的全擬真人類個(gè)體響應(yīng)時(shí)間還不到1秒!
《最in數(shù)字人》第一期中,我們介紹了“全擬真人類個(gè)體”的概念及五大要素
本期內(nèi)容小編將透露降低數(shù)字人交互延遲的奧秘!
降低交互延遲“四步曲”
超低延遲“江凌楓”,共享詩(shī)詞對(duì)答絲滑體驗(yàn)
這位俠氣十足的古裝帥哥,是我們的全擬真人類個(gè)體“江凌楓”
跟他的對(duì)話可以用“縱享絲滑”來(lái)形容,全程秒問(wèn)秒答
主打一個(gè)絕不讓任何人尷尬!
和數(shù)字人對(duì)話有幾步?
回想一下我們平時(shí)回答別人問(wèn)題的時(shí)候,大腦運(yùn)轉(zhuǎn)大概分為三步:
1.理解對(duì)方的問(wèn)題
2.構(gòu)思答案
3.說(shuō)出答案
數(shù)字人的大腦和人類大腦的區(qū)別在于,人的大腦不是被設(shè)計(jì)出來(lái)的,而是經(jīng)過(guò)浩瀚的歷史長(zhǎng)河,通過(guò)選擇和演化而產(chǎn)生的。而數(shù)字人的大腦,是通過(guò)不斷的學(xué)習(xí)訓(xùn)練變得越來(lái)越聰明,反應(yīng)速度越來(lái)越快。
這看似簡(jiǎn)單的三個(gè)步驟對(duì)數(shù)字人來(lái)說(shuō),需要海量的學(xué)習(xí)數(shù)據(jù),通過(guò)龐大的計(jì)算,調(diào)用一系列工具才能實(shí)現(xiàn)。而這個(gè)過(guò)程中,每個(gè)環(huán)節(jié)都可能是造成數(shù)字人反應(yīng)延遲,讓對(duì)話出現(xiàn)尷尬的沉默的原因。
總體來(lái)說(shuō),給江凌楓“大腦加速”,讓他能夠做到秒級(jí)響應(yīng),需要ASR語(yǔ)音識(shí)別、TTS語(yǔ)音合成、Audio2Face語(yǔ)音轉(zhuǎn)表情、大模型部署四大方面的技術(shù)提效。
秒問(wèn)秒答的江凌楓有何過(guò)人之處?
步驟一 ASR語(yǔ)音識(shí)別
ASR語(yǔ)音識(shí)別的主要任務(wù)就是把語(yǔ)言信號(hào)轉(zhuǎn)換成文本,讓數(shù)字人理解我們?cè)谡f(shuō)什么。在這個(gè)過(guò)程中,通過(guò)選擇在本地部署ASR語(yǔ)音識(shí)別引擎的方式,能更好地應(yīng)對(duì)網(wǎng)絡(luò)延遲問(wèn)題,從而加速整個(gè)識(shí)別過(guò)程,同時(shí)還保護(hù)了用戶的語(yǔ)音數(shù)據(jù)隱私。
步驟二 TTS語(yǔ)音合成
TTS語(yǔ)音合成環(huán)節(jié),則是將上一步生成的文本轉(zhuǎn)換為語(yǔ)音的過(guò)程,讓數(shù)字人把回答說(shuō)給我們聽(tīng)。
值得一提的是,在這個(gè)環(huán)節(jié),我們采用了流式傳輸?shù)姆绞?,通過(guò)將字符進(jìn)行拆分重組,分段傳回合成語(yǔ)音的方式再次提升了數(shù)字人的反應(yīng)速度。
舉個(gè)例子,如果是非流式傳輸,一句簡(jiǎn)單的“你好,我是江凌楓”需要等所有文字全部轉(zhuǎn)成語(yǔ)音后才能統(tǒng)一輸出,而采用了流式傳輸,數(shù)字人可以先將“你好”的語(yǔ)音輸出,并同時(shí)進(jìn)行“我是江凌楓”的語(yǔ)音合成并輸出,巧妙地提升數(shù)字人回應(yīng)速度。而且,這種將一句話分段輸出形成消息隊(duì)列的方式,可以在“你好”輸出完成被“消費(fèi)”掉以后,不再儲(chǔ)存于整個(gè)隊(duì)列中,解決大模型負(fù)擔(dān),實(shí)現(xiàn)語(yǔ)音合成輸出環(huán)節(jié)的提速。
TTS語(yǔ)音合成這一步驟也是在本地完成的,在保護(hù)用戶隱私的前提下,極大程度上減少了與遠(yuǎn)程服務(wù)器通信帶來(lái)的延遲問(wèn)題。
步驟三 Audio2Face語(yǔ)音轉(zhuǎn)表情
人在說(shuō)話的時(shí)候會(huì)有自然的表情變化,要讓數(shù)字人實(shí)現(xiàn)更真實(shí)的交互自然也要具備這種能力。Audio2Face語(yǔ)音轉(zhuǎn)表情過(guò)程,就是讓數(shù)字人根據(jù)語(yǔ)義所表現(xiàn)內(nèi)容做出面部肌肉運(yùn)動(dòng)、眨眼等相應(yīng)表情變化的關(guān)鍵。
這個(gè)環(huán)節(jié)中,我們著重解決的是當(dāng)多個(gè)數(shù)字人同時(shí)在任務(wù)中,由于實(shí)例分配不及時(shí)導(dǎo)致的延遲問(wèn)題。在布置Audio2Face實(shí)例過(guò)程中,我們自主研發(fā)的A2FServer、負(fù)載均衡服務(wù)器兩大神器起到了重要作用。
A2FServer不僅能夠自主匹配實(shí)例,還能實(shí)現(xiàn)持續(xù)連接,避免暫停交互數(shù)字人與實(shí)例自動(dòng)斷開(kāi)連接的情況發(fā)生。負(fù)載均衡服務(wù)器可以匯總數(shù)字人需要連接的端口、公網(wǎng)、內(nèi)網(wǎng)、狀態(tài)、是否被占用等信息,使數(shù)字人可隨時(shí)查看實(shí)例狀態(tài)并調(diào)用,降低表情轉(zhuǎn)化的時(shí)間。
步驟四 大模型部署
大模型是數(shù)字人“中樞神經(jīng)”,在實(shí)時(shí)交互的過(guò)程中承擔(dān)了自然語(yǔ)言處理、對(duì)話生成、個(gè)性化交互、知識(shí)獲取與問(wèn)答、創(chuàng)造性文本生成、自動(dòng)化文本生成、多輪對(duì)話處理等任務(wù)。
為了讓大模型擁有更好的運(yùn)行環(huán)境,提升整體效率,技術(shù)團(tuán)隊(duì)采用了高效的硬件和軟件架構(gòu),利用先進(jìn)的多維并行、異構(gòu)內(nèi)存管理和低延時(shí)推理解決方案,來(lái)加速訓(xùn)練和推理任務(wù),最大程度地提高模型任務(wù)的效率。在有效降低AI大模型訓(xùn)練、微調(diào)和推理成本的同時(shí),還優(yōu)化了模型任務(wù)的性能表現(xiàn),降低了對(duì)GPU的需求。通俗來(lái)說(shuō)就是,大模型具備了完美的運(yùn)行環(huán)境,靈活度自然也變得更好了。
除此之外,為了滿足不同場(chǎng)景的應(yīng)用需求,我們還選擇了基于國(guó)內(nèi)數(shù)據(jù)的預(yù)訓(xùn)練基座大模型,并對(duì)它進(jìn)行垂直領(lǐng)域的訓(xùn)練和細(xì)致調(diào)整,不僅提升模型在特定任務(wù)中的準(zhǔn)確性和適用性,還使其更符合專業(yè)需求。就好像當(dāng)我們花大部分的時(shí)間深入研究、學(xué)習(xí)“金融”知識(shí),當(dāng)涉及該領(lǐng)域的內(nèi)容時(shí),能夠更快速做出反應(yīng)并給出精準(zhǔn)答案。通過(guò)這樣的訓(xùn)練,使數(shù)字人交互延遲的問(wèn)題得到進(jìn)一步解決。
總結(jié)
通過(guò)ARS語(yǔ)音識(shí)別、TTS語(yǔ)音合成、Audio2Face語(yǔ)音轉(zhuǎn)表情、大模型部署四個(gè)方面的有效技術(shù)提升,最終為我們呈現(xiàn)出了“有記憶、有靈魂、多感情、多感知、超寫實(shí)”的全擬真人類個(gè)體,使得數(shù)字人在交互過(guò)程中達(dá)到“秒級(jí)反應(yīng)”,真正實(shí)現(xiàn)了超低延遲的互動(dòng)體驗(yàn)。