第19回YANSシンポジウムにて大規模言語モデル活用を加速する2つの成果を発表、一部成果のモデルを公開
others
若手研究者/エンジニアが集う国内最大級の自然言語処理分野の研究シンポジウムにて、文埋め込みを高精度に実現するモデルに関する研究成果を発表、「PKSHA LLMS」の高度化寄与を見込む
株式会社PKSHA Technology(読み:パークシャ・テクノロジー、本社:東京都文京区、代表取締役:上野山 勝也、以下PKSHA)は、2024年9月4日(水)- 6日(金)、梅田スカイビルにて開催される「第19回YANSシンポジウム」にて、テキスト文や文章をコンピュータが理解しやすいベクトル形式に変換する手法「文埋め込み」を高精度に実現する2つのモデル「検索に特化した日本語文埋め込みモデル」及び 「長い入力系列に対応した日本語文埋め込みモデル」に関する発表を行うことをお知らせします。本研究成果によって実現可能な埋め込み表現の生成は大規模言語モデル(Learge Languege Model、以下LLM)活用においても親和性が高く、今後PKSHAが独自開発する「PKSHA LLMS(※)」の重要な構成要素として活用されることが予定されています。
イベント公式サイト:https://yans.anlp.jp/entry/yans2024
- 第19回YANSシンポジウム (2024)について
YANSは、自然言語処理、計算言語学および関連分野の、若手研究者および技術者の学問研究および技術開発の促進をはかり、参加者の相互交流および成長の場を提供し、培われた学問研究および技術開発の成果が実社会に応用されることを奨励し、この分野の学問および産業の進歩発展に貢献することを目的として開催される研究シンポジウムです。
- 開発された「検索に特化した日本語文埋め込みモデル」及び「長い入力系列に対応した日本語文埋め込みモデル」について
文埋め込み技術は、自然言語処理技術の様々な社会実装機会において有用な技術です。弊社はこれまでに、日本語に特化したモデルとして、日本語文埋め込みモデル (https://huggingface.co/pkshatech/GLuCoSE-base-ja)をリリースしております。
LLMの出現により自然言語処理技術の社会実装機会が広がり、文埋め込み技術への期待・ニーズが高まってきている状況の中、弊社にて文埋め込み技術に関する研究開発をさらに進めた結果、この度、以下の成果を達成いたしました。
(1) 「検索に特化した日本語文埋め込みモデル GLuCoSE v2」
言葉の意味を考慮してベクトル形式に変換する文埋め込み技術を実現する手法として、近年はLLMに追加学習を行う手法が提案されています。LLMを元にした大規模な文埋め込みモデルは、高性能であるものの推論コストが高いという課題から利用可能なシーンは限られます。
本研究では蒸留という技術を用いて大規模な文埋め込みモデルの知識を軽量な文埋め込みモデルであるGLuCoSEに落とし込み、さらに検索に特化した追加学習を行うことで、特に検索タスクで高性能かつ低コストで利用可能な日本語文埋め込みモデルを構築しました。その結果、検索タスクおよび文埋め込み技術の包括的な評価において、先行研究を上回りました。本研究の成果であるモデルをGLuCoSE v2という名称で、商用利用可能なライセンスで公開いたしました(https://huggingface.co/pkshatech/GLuCoSE-base-ja-v2)。
(2)「長い入力系列に対応した日本語文埋め込みモデル RoSEtta 」
LLMと検索拡張生成(Retrieval-Augmented Generation、以下RAG)の活用において、長文を含む多様なドキュメント処理のニーズが高まっています。しかし、現在の日本語文埋め込みモデルの多くは最大入力長系列について512トークンまでの制限があり、1024トークン以上を扱える実用的な軽量モデルが存在しませんでした。
本研究では、長い系列を扱う場合に適切とされている相対位置埋め込み「RoPE」を取り入れたBERT、「RoFormer」に事前学習・事後学習を行い、最大1024トークンの系列を扱うことのできる日本語文埋め込みモデルを構築しました。GLuCoSE v2と同様の蒸留と検索に特化した追加学習によって、包括的な評価において先行研究に対して同等以上の性能になりました。本研究の成果であるモデルをRoSEtta(RoFormer-based Sentence Encoder through Distillation)という名称で、商用利用可能なライセンスで公開いたしました(https://huggingface.co/pkshatech/RoSEtta-base-ja)。
発表タイトル:「大規模モデルの蒸留を用いた日本語文埋め込みモデル」
発表者 :矢野 千紘 (株式会社PKSHA Technology AI Solution 事業本部 アルゴリズムエンジニア)、 呉 孟超(株式会社PKSHA Technology AI Solution 事業本部 アルゴリズムエンジニア)、 橘 秀幸 (株式会社PKSHA Technology R&D室アルゴリズムリード)、竹川 洋都 (株式会社PKSHA Technology AI Solution 事業本部 アルゴリズムリード)、 渡邉 陽太郎 (株式会社 PKSHA Technology R&D室シニアアルゴリズムリード)
詳細 :https://huggingface.co/pkshatech/GLuCoSE-base-ja-v2, https://huggingface.co/pkshatech/RoSEtta-base
- 今後の展望:
PKSHA Technologyは、「人とソフトウエアの共進化」というビジョンのもと、LLMをはじめとする多様なAIの社会実装に取り組んでいます。今回の研究成果を元に「PKSHA LLMS」の高度化を実現し、研究開発とビジネス(AI Solution/AI SaaS)がより密接に連携しながら今後もLLMの社会実装を加速すべく尽力する所存です。
※「PKSHA LLMS」について:複数のLLMを統合的にカスタマイズできる環境を提供するソリューションとして2023年3月にリリース。(https://prtimes.jp/main/html/rd/p/000000090.000022705.html)
◆PKSHA Technologyについて
「未来のソフトウエアを形にする」をミッションに、企業と人の未来の関係性を創るべく自社開発した機械学習/深層学習領域のアルゴリズムを用いたAIソリューションの開発・AI SaaSの提供を行っています。自然言語処理技術を用いた自動応答や、画像/動画認識、予測モデルなど多岐に渡る技術をベースに顧客の課題にあわせた解決策を提供する他、共通課題を解決するAI SaaSの展開により、ソフトウエアの社会実装を多面的に支援し、人とソフトウエアが共に進化する豊かな社会を目指します。
会社名:株式会社PKSHA Technology
所在地:東京都文京区本郷 2-35-10 本郷瀬川ビル 4F
代表者:代表取締役 上野山 勝也
URL: https://www.pkshatech.com/