多数の話者が同時に話す環境下での音源分離技術 SinkPIT を開発
- 音声・音響処理
実績概要
- プロジェクト期間
- 2020/10/7 (論文採択情報公開)
株式会社PKSHA Technology(本社:東京都文京区、代表取締役:上野山 勝也、以下「PKSHA Technology」)は、多数の話者が同時に発話している環境下において、話者ごとに音声を分離するための深層学習技術「SinkPIT」を開発いたしました。「SinkPIT」により、従来よりも想定音源数を大きく設定した大規模な音源分離モデルが現実的な計算時間で学習できるようになることを、実験的に実証しました。この技術は今後、音声信号処理の様々な技術と組み合わせることで、会議議事録システムや車載マイクなど、様々な用途への応用が可能であることを見込んでいます。
技術について
近年、店舗接客ロボットやスマートスピーカーなどを始めとした音声対話システムの普及が進んでいます。このような音声対話システムの重要な要素技術として「音源分離」の技術が古くから広く研究され、活用されています。これは、同時に複数話者が会話しているような状況において、音声を話者ごとに分離するような前処理技術です。音源分離により、複数話者が会話をしている状況における音声認識性能を向上できると考えられます。
近年は特に深層学習に基づく深層音源分離の研究の進展により、2〜5人程度の話者の音声をかなりの音質で音源分離することが可能となりました。しかしこれらの手法は、その学習過程で計算量の大きな処理(ブルートフォース探索)を行っているため、そのままでは想定音源数(分離したい話者の最大人数)を増やすことが難しいという課題がありました。
このような背景を踏まえPKSHA Technologyでは、深層音源分離の想定音源数を大幅に増やすことを可能にするための、深層音源分離の学習手法「SinkPIT」を開発しました。「SinkPIT」により、従来よりも想定音源数を大きく設定した大規模な音源分離モデルが現実的な計算時間で学習できるようになることを、実験的に実証しました。この技術は今後、音声信号処理の様々な技術と組み合わせることで、会議議事録システムや車載マイクなど、様々な用途への応用が可能であることを見込んでいます。
この成果は、2021年6月にカナダ・トロントで開催された IEEE ICASSP (International Conference on Acoustics, Speech and Signal Processing) 2021 にて発表されました。(論文発表およびオンライン発表。)
担当メンバー
橘 秀幸HIDEYUKI
Tachibana東京大学工学部計数工学科卒。東京大学大学院情報理工学研究科博士課程修了。博士(情報理工学)。明治大学研究員を経て、PKSHA Technologyに参画。主に音声処理、言語処理、信号処理の研究開発に従事。
堅山 耀太郎YOTARO
Katayama東京大学大学院工学系研究科修了。総務省SCOPE異能vationプログラム採択、外資系投資銀行を経てPKSHA Technology参画。株式会社BEDOREの取締役を務めた。現在MNTSQ株式会社取締役。
稲原 宗能MUNEYOSHI
Inahara東京大学工学部電子情報工学科卒業。在学中はゲームAI及び自然言語処理技術を研究。卒業後は日本IBMへ入社。東京システム開発研究所にて主にWatsonや深層学習によるシステムの研究開発及びソリューション事業を担当。PKSHA Technologyへ参画後は音声対話プロダクトや、因果関係認識、感情認識、言語モデル、音声合成など多数の製品・モジュールの研究開発に従事。