香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院師生共6篇論文被國際聲學(xué)、語音與信號(hào)處理會(huì)議(International Conference on Acoustics, Speech and Signal Processing,簡(jiǎn)稱ICASSP)2024錄用。ICASSP由國際電子技術(shù)與信息科學(xué)工程師協(xié)會(huì)(Institute of Electrical and Electronics Engineers,簡(jiǎn)稱IEEE)主辦,是全世界最大、最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)會(huì)議。

論文來自港中大(深圳)數(shù)據(jù)科學(xué)學(xué)院4位博士生:白奇丙、Sho Inoue、王力、楊憶然;2位本科生:顧毅騁、李珈祺,均為論文第一作者;3位教授:李海洲、武執(zhí)政、謝李巖。港中大(深圳)數(shù)據(jù)科學(xué)學(xué)院學(xué)生們不斷展示科研的潛力與實(shí)力,除博士生外,在國際頂會(huì)NeurIPS 2023、ICSE 2024等的論文發(fā)表中均出現(xiàn)本科生的身影,2023年,數(shù)據(jù)科學(xué)學(xué)院共9位本科生在國際權(quán)威期刊和頂級(jí)國際學(xué)術(shù)會(huì)議上發(fā)表論文。

ICASSP簡(jiǎn)介

國際聲學(xué)、語音與信號(hào)處理會(huì)議 (International Conference on Acoustics, Speech and Signal Processing, 簡(jiǎn)稱ICASSP) 是全世界最大的,也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)會(huì)議。

作為國際電子技術(shù)與信息科學(xué)工程師協(xié)會(huì) (Institute of Electrical and Electronics Engineers,簡(jiǎn)稱IEEE) 的一個(gè)重要會(huì)議,ICASSP除了有幾十年歷史外,其論文還經(jīng)常被三大檢索工具檢索。因此,ICASSP對(duì)于信號(hào)處理方面的學(xué)術(shù)人士有著重要意義。它涵蓋了音頻和聲學(xué)信號(hào)處理,圖像、視頻和多維信號(hào)處理,物聯(lián)網(wǎng)的信號(hào)處理等至少十六個(gè)方向。

論文介紹?

*按論文首字母排序

1. ?AdvSV: An Over-the-Air Adversarial Attack Dataset for Speaker Verification

作者:

Li Wang, Jiaqi Li, Yuhao Luo, Jiahao Zheng, Lei Wang, Hao Li, Ke Xu, Chengfang Fang, Jie Shi, Zhizheng Wu

論文摘要:

深度神經(jīng)網(wǎng)絡(luò)易受對(duì)抗性攻擊的影響,這一點(diǎn)已被廣泛認(rèn)可。雖然基于深度神經(jīng)網(wǎng)絡(luò)的自動(dòng)說話人驗(yàn)證(ASV)系統(tǒng)在特定環(huán)境下表現(xiàn)穩(wěn)健,但許多研究顯示,這些系統(tǒng)在面對(duì)對(duì)抗性攻擊時(shí)同樣脆弱。目前,研究的進(jìn)展受到標(biāo)準(zhǔn)數(shù)據(jù)集缺乏的限制,尤其影響到可重復(fù)性研究的開展。為此,我們開發(fā)了一個(gè)面向說話人驗(yàn)證研究的開源對(duì)抗性攻擊數(shù)據(jù)集。在這項(xiàng)工作的初步階段,我們特別關(guān)注了“空中”攻擊。這類攻擊涉及到擾動(dòng)生成算法、揚(yáng)聲器、麥克風(fēng)和聲學(xué)環(huán)境的綜合應(yīng)用。由于錄音配置差異巨大,重現(xiàn)先前研究成果具有相當(dāng)?shù)碾y度。我們構(gòu)建的AdvSV數(shù)據(jù)集基于Voxceleb1驗(yàn)證測(cè)試集,涵蓋了多種典型的ASV模型,這些模型受到對(duì)抗性攻擊并錄制了相應(yīng)的對(duì)抗性樣本,以模擬“空中”攻擊場(chǎng)景。此數(shù)據(jù)集的應(yīng)用范圍可進(jìn)一步擴(kuò)展,包含更多種類的對(duì)抗性攻擊。此外,該數(shù)據(jù)集將以CC BY-SA 4.0許可證公開發(fā)布。我們還提供了一套檢測(cè)基準(zhǔn),以促進(jìn)可重復(fù)性研究的發(fā)展。

鏈接:

https://arxiv.org/abs/2310.05369

?

2. An Initial Investigation of Neural Replay Simulator for Over-the-Air Adversarial Perturbations to Automatic Speaker Verification

作者:

Jiaqi Li, Li Wang, Liumeng Xue, Lei Wang, Zhizheng Wu

論文摘要:

深度學(xué)習(xí)在過去幾年中推動(dòng)了自動(dòng)語音驗(yàn)證(ASV)的發(fā)展。盡管深度學(xué)習(xí)ASV系統(tǒng)在數(shù)字訪問中容易受到對(duì)抗性例子的影響,但在涉及到物理訪問的情境中,即涉及到 OTA(即,通過空中)過程的對(duì)抗性攻擊研究較少。OTA 攻擊涉及揚(yáng)聲器、麥克風(fēng)和對(duì)聲波移動(dòng)產(chǎn)生影響的重放環(huán)境。我們的初步實(shí)驗(yàn)證實(shí),重放過程影響了 OTA 攻擊的有效性。本研究進(jìn)行了一項(xiàng)初步調(diào)查,旨在利用神經(jīng)重放模擬器提高 OTA 攻擊的魯棒性。這是通過使用神經(jīng)波形合成器在估算對(duì)抗性擾動(dòng)時(shí)模擬 OTA 過程來實(shí)現(xiàn)的。在 ASVspoof2019 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)證實(shí),基于神經(jīng)網(wǎng)絡(luò)的重放模擬器能夠顯著提高 OTA 攻擊的成功率。這引發(fā)了對(duì)在物理訪問應(yīng)用中語音驗(yàn)證遭受對(duì)抗性攻擊的關(guān)注。

鏈接:https://arxiv.org/abs/2310.05354#:~:text=This%20study%20performs%20an%20initial,when%20estimating%20the%20adversarial%20perturbations.

?

3. Hierarchical Emotion Prediction and Control in Text-to-Speech Synthesis

作者:

Sho Inoue, Kun Zhou, Shuai Wang, Haizhou Li

論文摘要:

在文本到語音(TTS)合成領(lǐng)域,有效控制情感表達(dá)仍然是一個(gè)具有挑戰(zhàn)性的研究方向。

過去的研究主要集中在學(xué)習(xí)在話語層面上與語言韻律強(qiáng)相關(guān)的全局韻律表示。我們的研究目標(biāo)是構(gòu)建一個(gè)層次化的情感分布(Emotion Distribution),該分布能夠有效地涵蓋在各個(gè)粒度級(jí)別上的情感強(qiáng)度變化,包括音素、詞語和話語。在TTS訓(xùn)練期間,我們從真實(shí)音頻中提取出這一層次化的情感分布,并引導(dǎo)預(yù)測(cè)器建立情感和語言韻律之間的聯(lián)系。

在運(yùn)行時(shí)的推理過程中,TTS模型生成具有情感色彩的語音,并同時(shí)提供對(duì)語音成分上情感的定量控制。客觀和主觀評(píng)估均證明了我們所提框架在情感預(yù)測(cè)和控制方面的有效性。

?

4. Leveraging In-the-Wild Data for Effective Self-Supervised Pretraining in Speaker Recognition

作者:

Shuai Wang, Qibing Bai, Qi Liu, Jianwei Yu, Zhengyang Chen, Bing Han, Yanmin Qian, Haizhou Li

論文摘要:

當(dāng)前的說話者識(shí)別系統(tǒng)主要采用受監(jiān)督方法,但受限于標(biāo)記數(shù)據(jù)集的規(guī)模。為了提升系統(tǒng)性能,研究人員利用大型預(yù)訓(xùn)練模型(例如WavLM),將學(xué)到的高級(jí)特征遷移到下游的說話者識(shí)別任務(wù)。然而,這種方法在預(yù)訓(xùn)練模型保留在推理階段時(shí)引入了額外的參數(shù)。另一種思路則是直接采用自監(jiān)督方法(如DINO)進(jìn)行說話者嵌入學(xué)習(xí),但是目前還未有工作驗(yàn)證過在大規(guī)模的真實(shí)無標(biāo)簽數(shù)據(jù)上的相關(guān)效果。本研究展示了在大規(guī)模WenetSpeech數(shù)據(jù)集上進(jìn)行的DINO訓(xùn)練的有效性,并證實(shí)了其在增強(qiáng)對(duì)CNCeleb數(shù)據(jù)集的受監(jiān)督系統(tǒng)性能方面的可遷移性。此外,我們引入了一種基于置信度的數(shù)據(jù)過濾算法,用于從預(yù)訓(xùn)練數(shù)據(jù)集中排除不可靠的數(shù)據(jù),從而在使用更少訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)更優(yōu)越的性能表現(xiàn)。相關(guān)的預(yù)訓(xùn)練模型、置信度文件、預(yù)訓(xùn)練和微調(diào)腳本將提供在 Wespeaker 工具包中。

鏈接:

https://arxiv.org/abs/2309.11730

?

5. Multi-Scale Sub-Band Constant-Q Transform Discriminator for High-Fidelity Vocoder

作者:

Yicheng Gu, Xueyao Zhang, Liumeng Xue, Zhizheng Wu

論文摘要:

基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的聲碼器在從聲學(xué)表示中重建可聽波形方面具有優(yōu)越的推理速度和合成質(zhì)量。本研究著重于改進(jìn)判別器部分以促進(jìn)基于GAN的聲碼器的合成質(zhì)量。現(xiàn)有的基于時(shí)頻域表征的判別器大多數(shù)根植于短時(shí)傅里葉變換(STFT),STFT頻譜圖中的時(shí)頻域分辨率是固定的,這使其與需要對(duì)不同頻段施加靈活注意力的信號(hào)(如歌聲)不兼容。受此啟發(fā),我們的研究利用了常數(shù)Q變換(CQT),它在頻譜上具有動(dòng)態(tài)的時(shí)頻域分辨率,有助于更好地提升音高建模的準(zhǔn)確性和高頻諧波的跟蹤能力。具體而言,我們提出了一種多尺度子帶CQT(MS-SB-CQT)判別器,它在多個(gè)尺度上對(duì)CQT頻譜圖進(jìn)行操作,并根據(jù)不同的八度進(jìn)行子帶處理。在語音和歌聲上進(jìn)行的實(shí)驗(yàn)證實(shí)了我們提出的方法的有效性。此外,我們還驗(yàn)證了基于CQT和基于STFT的判別器在聯(lián)合訓(xùn)練下可以做到信息的相互補(bǔ)充,從而進(jìn)一步提升合成效果。具體而言,通過提出的MS-SB-CQT和現(xiàn)有的MS-STFT判別器的增強(qiáng),HiFi-GAN的MOS評(píng)分可以從3.27提升到3.87(對(duì)于集內(nèi)歌手)和從3.40提升到3.78(對(duì)于集外歌手)。

鏈接:

https://arxiv.org/abs/2311.14957

?

6. ?Sequential Wasserstein Uncertainty Sets for Minimax Robust Online Change Detection

作者:

Yiran Yang, Liyan Xie

論文摘要:

我們考慮具有未知的變化后分布的魯棒在線變化點(diǎn)檢測(cè)問題。為基礎(chǔ)數(shù)據(jù)分布構(gòu)建非參數(shù)不確定性集的在線序列。我們通過將問題描述為在線凸優(yōu)化任務(wù)來依次確定每個(gè)實(shí)例的最不利分布。然后利用這個(gè)最不利的分布來計(jì)算我們提出的在線魯棒 CUSUM(OR-CUSUM) 檢測(cè)統(tǒng)計(jì)中的對(duì)數(shù)似然比。我們還提出了數(shù)值實(shí)驗(yàn)結(jié)果來證實(shí)所提出的 OR-CUSUM 測(cè)試的有效性。

?

論文作者簡(jiǎn)介

指導(dǎo)教授簡(jiǎn)介?

李海洲

校長學(xué)勤講座教授

執(zhí)行院長

華南理工大學(xué)博士

新加坡工程院院士、IEEE 信號(hào)處理學(xué)會(huì)副會(huì)長(任期2024-2026)、IEEE會(huì)士、國際語音通信學(xué)會(huì)會(huì)士、亞太人工智能學(xué)會(huì)會(huì)士、曾獲新加坡總統(tǒng)科技獎(jiǎng)、曾任國際語音通信學(xué)會(huì)主席、頂級(jí)期刊IEEE/ACM《音頻、語音和語言處理匯刊》主編,原新加坡國立大學(xué)終身教授

研究領(lǐng)域:

語音信息處理、自然語言處理、類腦計(jì)算、人機(jī)交互

個(gè)人簡(jiǎn)介:

李海洲教授現(xiàn)任香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院執(zhí)行院長、校長學(xué)勤講座教授,同時(shí)他也是新加坡國立大學(xué)客座教授和德國不來梅大學(xué)卓越講座教授。此前,他曾于2006年至2016年分別擔(dān)任新加坡南洋理工大學(xué)和新加坡國立大學(xué)教授,于2009年擔(dān)任東芬蘭大學(xué)客座教授,于2011年至2016年任澳洲新南威爾士大學(xué)客座教授,于2003年至2016年擔(dān)任新加坡科技研究局通信與資訊研究院首席科學(xué)家和研究總監(jiān)。

李教授曾任頂級(jí)期刊IEEE/ACM Transactions on Audio、Speech and Language Processing主編 (2015-2018年);目前任Computer Speech and Language副主編 (2012-2022年)、Springer International Journal of Social Robotics副主編 (2008-2022年)。李教授也曾擔(dān)任多個(gè)學(xué)術(shù)委員會(huì)委員:IEEE語音與語言處理技術(shù)委員會(huì)委員 (2013-2015年)、IEEE信號(hào)處理學(xué)會(huì)出版委員會(huì)委員(2015-2018年);目前任IEEE 信號(hào)處理學(xué)會(huì)獎(jiǎng)勵(lì)委員會(huì)委員(2021-2023年)。李教授也曾是多個(gè)學(xué)會(huì)主席:國際語音通信學(xué)會(huì)主席 (ISCA, 2015-2017年)、亞太信號(hào)與信息處理協(xié)會(huì)主席 (APSIPA, 2015-2016年)、亞洲自然語言處理聯(lián)合會(huì)主席 (AFNLP, 2017-2018年)。此外,他還擔(dān)任過ACL 2012、INTERSPEECH 2014等多個(gè)大型學(xué)術(shù)會(huì)議的主席,他也是IEEE聲學(xué)、語音與信號(hào)處理國際會(huì)議 (ICASSP 2022)的主席。

李教授享譽(yù)國際,他不僅在語音識(shí)別和自然語言處理研究領(lǐng)域有著突出貢獻(xiàn),還領(lǐng)導(dǎo)研發(fā)了多項(xiàng)知名的語音產(chǎn)品,如1996年蘋果電腦公司為Macintosh發(fā)行的中文聽寫套件、1999年Lernout & Hauspie公司為亞洲語言發(fā)行的Speech-Pen-Keyboard文本輸入解決方案。他是一系列重大技術(shù)項(xiàng)目的架構(gòu)師,項(xiàng)目包括2001年為新加坡樟宜國際機(jī)場(chǎng)研發(fā)的具有多語種語音識(shí)別功能的TELEFIQS自動(dòng)呼叫中心、2012年為聯(lián)想A586智能手機(jī)研發(fā)的聲紋識(shí)別引擎、2013年為百度音樂研發(fā)的聽歌識(shí)曲引擎。

武執(zhí)政

副教授

南洋理工大學(xué)博士

全球Top 2% 頂尖科學(xué)家、IEEE語音與語言處理技術(shù)委員會(huì)委員、IEEE/ACM 音頻、語音和語言處理匯刊編委,曾獲2012亞太信號(hào)與信息處理協(xié)會(huì)年度峰會(huì)最佳論文獎(jiǎng),曾任職Facebook、京東、蘋果、愛丁堡大學(xué)、微軟亞洲研究院等

研究領(lǐng)域:

語音信息處理、語音生成、深度偽造檢測(cè)

個(gè)人簡(jiǎn)介:

武執(zhí)政教授現(xiàn)任香港中文大學(xué)(深圳)副教授。在此之前,他于2015年獲得南洋理工大學(xué)博士學(xué)位,并在Meta(原Facebook)(2019-2022)、京東(2018-2019)、蘋果(2016-2018)、愛丁堡大學(xué)(2014-2016)、微軟亞洲研究院(2007-2009)等機(jī)構(gòu)從事學(xué)術(shù)研究和技術(shù)研發(fā)工作。他曾獲得INTERSPEECH 2016最佳學(xué)生論文獎(jiǎng)、2012年亞太信號(hào)與信息處理協(xié)會(huì)年度峰會(huì)最佳論文獎(jiǎng)。武教授帶領(lǐng)開發(fā)了語音合成開源系統(tǒng)Merlin,發(fā)起并組織了第一屆聲紋識(shí)別欺騙檢測(cè)國際評(píng)測(cè)、第一屆語音轉(zhuǎn)換國際評(píng)測(cè),組織了2019年語音合成國際評(píng)測(cè)(Blizzard Challenge 2019)。武教授現(xiàn)為IEEE語音與語言處理技術(shù)委員會(huì)委員。

謝李巖

助理教授

佐治亞理工學(xué)院博士

曾入圍2019年INFORMS會(huì)議QSR方向最佳學(xué)生論文獎(jiǎng),曾入圍2020年伯克利大學(xué)EECS領(lǐng)域“女性學(xué)術(shù)新星”、曾獲2020年佐治亞理工學(xué)院IDEaS-TRIAD和ARC-TRIAD獎(jiǎng)學(xué)金,曾任佐治亞理工學(xué)院講師

研究領(lǐng)域:

基于傳感器網(wǎng)絡(luò)及衛(wèi)生保健的數(shù)據(jù)科學(xué)研究、序貫變化檢測(cè)、魯棒優(yōu)化

個(gè)人簡(jiǎn)介:

謝李巖教授于2021年夏季加入香港中文大學(xué)(深圳)任助理教授一職。謝教授于2016年獲中國科學(xué)技術(shù)大學(xué)統(tǒng)計(jì)學(xué)理學(xué)學(xué)士學(xué)位。其后前往美國佐治亞理工學(xué)院攻讀,并于2021年獲得工業(yè)工程博士學(xué)位。她是多個(gè)頂級(jí)會(huì)議的受邀審稿人,如AAAI, ICML, Neurips, AISTATS, ICLR。謝教授的研究方向主要為基于傳感器網(wǎng)絡(luò)及衛(wèi)生保健的數(shù)據(jù)科學(xué)研究,序貫變化檢測(cè)和魯棒優(yōu)化。

?