PKSHAの多言語文埋め込み技術「Multilingual Sentence-T5」 が LREC-COLING 2024 に採択
others
自然言語処理(NLP)技術の継続的な研究開発成果を発表ーコミュニケーション領域におけるAIの社会実装加速へ
株式会社PKSHA Technology(読み:パークシャ・テクノロジー、本社:東京都文京区、代表取締役:上野山 勝也、以下PKSHA)は、同社の自然言語処理(NLP)技術「Multilingual Sentence-T5」に関する論文が、NLP技術に関する世界最大規模の国際学術会議の一つ「LREC-COLING 2024」に採択されたことをお知らせいたします。PKSHAは「未来のソフトウエアを形にする」というミッションのもと、NLP技術等の独自技術を基盤にしたAIの研究開発を行い、その社会に実装を通じて価値を提供してまいります。
「LREC-COLING 2024 - The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation」はELRA (ELRA Language Resources Association) が主催している主に言語リソースとその評価を中心としたNLPの会議であるLRECと、ICCL (International Committee on Computational Linguistics)が主催している計算言語学分野のトップカンファレンスであるCOLINGが合同で開催される学術会議です。
PKSHAのR&D部門において、NLP、音声認識、画像処理等、様々な技術の研究・開発を進める中で、NLP技術の高度化に関わる研究に以前より取組み、今回そのひとつの成果として「Multilingual Sentence-T5」に関する論文を発表しました。
本論文では、日本語、英語、中国語などの多言語のテキスト文や文章をコンピュータが理解しやすいベクトル形式に変換する手法「文埋め込み」を高精度に実現する新技術を提案、採択された論文は2024年5月20日から25日にかけてイタリアで開催される「LREC-COLING 2024」にて発表されます。
- 採択された論文について:
「Multilingual Sentence-T5: Scalable Sentence Encoders for Multilingual Applications」
Chihiro Yano, Akihiko Fukuchi, Shoko Fukasawa, Hideyuki Tachibana, Yotaro Watanabe
「Multilingual Sentence-T5:多言語アプリケーションのためのスケーラブルな文エンコーダ」
矢野 千紘, 福地 成彦, 深澤 笙子, 橘 秀幸, 渡邉 陽太郎
https://aclanthology.org/2024.lrec-main.1034/
多言語文の埋め込みに関するこれまでの研究では、自然言語推論 (NLI) データを効率的に使用して高性能モデルを構築することで従来の方法よりも優れたパフォーマンスを発揮できることが実証されてきましたが、比較的小規模な言語モデルの適用にとどまっており、数十億規模のパラメータを持つ言語モデルを適用した場合の利点は十分に調査されていませんでした。 Multilingual Sentence-T5 (m-ST5) は、既存の単言語モデルである Sentence T5 を多言語化し、低ランク適応 (LoRA) 技術を採用することにより、モデルのサイズを 57 億パラメータまでスケールアップすることに成功いたしました。m-ST5は、NLIデータに基づく既存手法に対して高い性能を達成し、モデルの大きさと性能の間に正の相関があることを確認いたしました。また、特にリソースが少ない言語や、英語との言語的類似性が低い言語ほどパラメータ増加の恩恵が大きいことを確認しました。
- 今後の展望:
ソフトウエアの社会実装に取組むPKSHAでは、ビジネスを展開するソリューション事業、AI SaaS事業を支える根幹として、先端技術の研究・開発に創業初期より注力をしています。
大企業におけるコミュニケーションなど、自然言語処理技術は、広汎な事業ドメインにおける活用が期待されていますが、より高度にビジネス課題を解くソフトウエアを実現するためには、複数の要素技術の組み合わせが不可欠です。本研究成果であるMultilingual Sentence-T5により、多言語が混在するドキュメント群を対象とした高精度な検索や問合せ応答の実現が可能となります。弊社の研究開発活動を通じて、引き続き「未来のソフトウエアの社会実装」を加速してまいります。
◆LREC-COLING 2024について
日時:2024年5月20日(月) – 2024年5月25日(土)
公式サイト:https://lrec-coling-2024.org/
論文公開ページ:https://lrec-coling-2024.org/list-of-accepted-papers/
◆PKSHA Technologyについて
「未来のソフトウエアを形にする」をミッションに、企業と人の未来の関係性を創るべく自社開発した機械学習/深層学習領域のアルゴリズムを用いたAIソリューションの開発・AI SaaSの提供を行っています。自然言語処理技術を用いた自動応答や、画像/動画認識、予測モデルなど多岐に渡る技術をベースに顧客の課題にあわせた解決策を提供する他、共通課題を解決するAI SaaSの展開により、ソフトウエアの社会実装を多面的に支援し、人とソフトウエアが共に進化する豊かな社会を目指します。
会社名:株式会社PKSHA Technology
所在地:東京都文京区本郷 2-35-10 本郷瀬川ビル 4F
代表者:代表取締役 上野山 勝也
URL: https://www.pkshatech.com/