News
13 March, 2020

自然言語処理ライブラリ「Camphr」(カンファー)をオープンソースとして公開

株式会社PKSHA Technologyは、このたび、自然言語処理ライブラリ「Camphr」(カンファー)をオープンソースとして公開いたしました。Camphrを使用すると、最先端の深層学習手法から従来手法まで、幅広い自然言語処理手法を簡単に組み合わせられます。

【背景】
私たちが日常的に使用している自然言語をコンピュータで扱う自然言語処理技術は、文書検索や機械翻訳など、私たちの身の回りの様々なサービスで広く利用されています。近年では、深層学習(deep learning)の発展に伴い、深層学習に基づく自然言語処理手法が数多く生み出されており、高性能な検索、機械翻訳、自動応答などの技術が実用化されてきています。
通常、産業用途の自然言語処理を利用したサービス開発においては、最先端の手法を一つ使えば全ての問題を解決できるというようなことはほとんどありません。従来手法も含めた多種多様な処理の組み合わせを検討し、試行錯誤を繰り返す必要があります。
ところが、自然言語処理システムを構成する各手法は、通常、ライブラリや参照実装の形で個別に公開・提供されているため、それらを組み合わせて実験やサービス開発をおこなうには、その都度煩雑なプログラミングが必要となり、開発者にとって大きな負担となっていました。
このような背景のもと、PKSHA Technologyは、研究者やエンジニアによる自然言語処理システムの研究・サービス開発の効率化・高度化と、それによる自然言語処理技術の社会実装の加速を目的として、「Camphr」を開発し、公開いたしました。Camphrは、様々な手法を統一的に扱い、パイプライン化できるフレームワーク「spaCy」のプラグインとして実装されています。Camphrを利用すると、開発者はspaCyの枠組みの上で、最先端の深層学習手法から従来のパターン・辞書等を用いたアルゴリズムまでを簡単に組み合わせて使用できます。

【Camphrの概要】
Camphrは、最先端の深層学習手法から従来のパターン・辞書等を用いたアルゴリズムまでを自由に組み合わせられる、自然言語処理のためのオープンソース・ソフトウェアです。自然言語処理のフレームワークであるspaCyのプラグインとして実装されており、一連の処理をパイプラインとして組み立てて扱うことを容易にします。
Camphrは以下のような機能を提供します。

・BERT、XLNet等の深層学習モデルを用いた言語解析・学習機能
・多言語対応(75言語に対応したBERTベースの解析を提供するUdify)
・キーワード抽出、ELMo等の埋め込みベクトル演算機能等
・KNPを利用した構文解析機能

GitHubリポジトリはこちらをご参照ください。

https://github.com/PKSHATechnology-Research/camphr