據(jù)了解,本次競賽數(shù)據(jù)由聯(lián)合主辦方之一的標貝科技全程提供支持,近400小時的高質量成人朗讀數(shù)據(jù)和兒童朗讀、對話等參賽數(shù)據(jù),分別取自標貝自有5000小時成人中文朗讀語音數(shù)據(jù)庫、1800小時的少兒語音對話數(shù)據(jù)庫,充分滿足競賽需要,匹配語音識別模型訓練。
事實上,賽事數(shù)據(jù)一直是本屆SLTCSRC一大吸睛點,讓賽事的關注度與參與度隨之提升。而兒童語音數(shù)據(jù)更是廠商的關注點。緣由該數(shù)據(jù)在智慧教育、早教產(chǎn)品、智能音箱等眾多語音交互場景中有著廣泛應用基礎。但兒童語言因其聲線與吐字等原因,語音和語言特性不同于成人,有著天然的技術辨別難度。并且在訓練過程中,如果沒有覆蓋大量帶有標簽的兒童語音,兒童的ASR的準確性仍明顯低于成年人。因而,高質量兒童ASR數(shù)據(jù)的重要性不言而喻。
從本次賽事報名情況來看,2021SLTCSRC共吸引了近60家來自全球不同地區(qū)的高校、科研機構與廠商報名,覆蓋中國大陸和香港、美國、新加坡、愛爾尼亞等地區(qū),其中國內廠商參賽隊伍不乏像愛奇藝、小米、網(wǎng)易、華為、馬上金融等業(yè)內熟知廠商,而國內高校和科研機構匯聚了清華、浙大、上海交大、中科院自動化研究所等。本屆CSRC競賽受到了以上機構和廠商的積極參與,但仍有部分隊伍未能如期報名,表示希望有機會再次參賽,應用數(shù)據(jù)做研究。
另外,本次賽事數(shù)據(jù)的價值還體現(xiàn)在了本屆SLTCSRC論文方面。截至目前,基于標貝科技提供的兒童語音識別數(shù)據(jù),已有包括SLT官方、小米、CUHK(香港中文大學)等機構發(fā)表學術論文。論文的發(fā)布不僅代表著當前業(yè)內極高的學術水平,更為從業(yè)者提供專業(yè)參考指南。
本屆SLTCSRC競賽結果和論文已揭曉,但行業(yè)對數(shù)據(jù)的需求卻未停止。為更好地推動兒童語音產(chǎn)品研發(fā),標貝科技針對本次未能參賽以及對兒童ASR數(shù)據(jù)有更多需求的伙伴,特此提供以下2套特定價格的數(shù)據(jù)產(chǎn)品
1、CSRC數(shù)據(jù)
成人朗讀數(shù)據(jù)340小時有效時長
兒童朗讀數(shù)據(jù)28小時有效時長
兒童對話數(shù)據(jù)29小時小時有效時長
2、標貝科技兒童語音識別數(shù)據(jù)集
兒童中文語音數(shù)據(jù)庫有效時長1800小時
兒童英文語音數(shù)據(jù)庫有效時長500小時
兒童中英文語音數(shù)據(jù)庫有效時長500小時
歡迎對以上數(shù)據(jù)感興趣的行業(yè)伙伴,與我們聯(lián)系
郵箱:marketing@data-baker.com
標貝科技官網(wǎng)數(shù)據(jù)首頁:https://www.data-baker.com/#/data/index/distinguish