近年では、ChatGPTをはじめとする汎用言語モデルの進化などによって、大きな注目を集めている自然言語処理(NLP)。AWSも「Amazon Comprehend」という自然言語処理サービスを提供しているのはご存知でしょうか。そこで今回の記事では、Amazon Comprehendのサービスの概要や主な機能、活用事例などについて紹介していきます。
目次
Amazon Comprehendとは
まず、Amazon Comprehendのサービスの概要から確認していきましょう。
自然言語処理(NLP)とは
自然言語処理とは、人間が普段コミュニケーションを取るために使っている自然言語を解析する技術を指します。近年では、ペーパーレス化の推進に伴うテキストデータ量の増加やChatGPTをはじめとする汎用言語モデルの急激な進化により、特に注目を集めている技術です。
Amazon Comprehendとは
「Amazon Comprehend」は、AWSが提供している自然言語処理 (NLP) サービスで、機械学習を活用してテキストからインサイトを抽出できます。読み取ったテキストのキーフレーズの抽出や、感情の分析といった機能を備えており、日本語にも対応。拡張サービスとして、「Amazon Comprehend medical」という、医療文書の解析に特化したサービスもあります。
Amazon Comprehendの主な機能
続いて、Amazon Comprehendの主な機能を紹介します。主な機能として挙げられるのは、以下の5つです。
キーフレーズ抽出
文章の中のキーフレーズを抽出するとともに、抽出したキーフレーズそれぞれの信頼性スコアを表示する機能です。Amazon Comprehendの特長を紹介しているAWSのページでは、以下の具体例が掲載されています。
参照元:特徴 - Amazon Comprehend | AWS
文章の中から抽出したキーフレーズを記事などのタグとして活用したり、アンケートなどの膨大な量の文章に対してキーフレーズ抽出を行い、キーフレーズを見て結果の概要を確認するといった使い方ができます。
エンティティ認識
エンティティとは、人や場所、商品名などの固有名詞や、日付、数量の単位などのことを指します。エンティティ認識は、文章の中のエンティティを抽出し、それぞれのエンティティタイプを識別するとともに、その信頼性スコアを返す機能です。
エンティティタイプは以下の通りです。
- 商業アイテム
- 日付
- イベント
- 位置
- 組織
- 人
- 量
- タイトル
- その他
エンティティ認識は、主にチャットボットの性能向上や、医療分野における文書の要約・分析などに活用されています。
感情分析
文章の全体的な感情を「肯定的」「否定的」「中立的」「混在」の4つで示してくれる機能です。読み取った文章の最もスコアの高い感情と、それぞれの感情のスコアが表示されます。Amazon Comprehendの特長を紹介しているAWSのページでは、以下の具体例が掲載されています。
参照元:特徴 - Amazon Comprehend | AWS
感情分析は、SNSでの自社製品やブランドに対するコメントを分析させ、消費者がどういうイメージを抱いているのかを知るといった活用ができます。ほかにも、カスタマーサポートに来た問い合わせに対して、感情分析を使用して会話の雰囲気を読み取り、緊急性が高いと判断したものはカスタマーサポートの担当者に報告するという使い方もできるでしょう。
構文解析
文章の中の単語をトークンに分割して解析し、それぞれの単語の品詞を識別する機能です。なお、構文解析を行うためには、Amazon Comprehend Syntax APIを使用する必要があります。Amazon Comprehendの特長を紹介しているAWSのページでは、以下の具体例が掲載されています。
参照元:特徴 - Amazon Comprehend | AWS
構文解析は、AIチャットボットなどの会話サービスの性能向上などに活用できます。
言語検出
言語検出は入力されたデータを分析し、その文章がどの言語を主要言語として書かれているのかを信頼性スコアとともに表示し、識別する機能です。2024年10月時点で、100以上もの言語に対応しています。
さまざまな言語で書かれたアンケートなどの大量の文章データに対して、それぞれを適切に翻訳するために言語別に分類するといった形で活用できます。
Amazon Comprehendの活用事例
ここまで、Amazon Comprehendの主要機能について紹介してきました。では、実際に企業はAmazon Comprehendをどのように活用しているのでしょうか。ここからは、Amazon Comprehendを活用して業務改善を実現した2社の活用事例をご紹介します。
シーメンス
会社の概要
シーメンス社は、ドイツの電機メーカーです。インフラや交通、医療などさまざまな分野でビジネスを展開しています。
抱えていた課題
グローバル企業であるシーメンスは、従業員377,000人が話す言語の種類は約50にものぼります。同社は全従業員に対して定期的にアンケートを取っていましたが使用言語はバラバラなのが実情でした。英語圏とドイツ語圏以外の言語によるアンケートの結果は翻訳するのも一苦労のため、ほとんど活用できていませんでした。
Amazon Comprehend導入による効果
そこで、従業員によるアンケートを一度すべてAmazon Comprehendに送り、言語検出の機能を活用して言語を識別。その後Amazon Translateに送って翻訳し、機械学習モデルを構築するサービス「Amazon SageMaker」を活用して、アンケートの回答をカテゴリごとに整理するという運用にしました。
その結果、調査結果の収集から分析・分類までにかかる時間が、従来比で75%ほど高速になりました。さらに、インタビューの分析にかかるコストも1インタビューにつき数ユーロだったのが、1ユーロ未満にまで削減。アンケートの活用が進んだだけではなく、コスト削減も実現しました。
HM Land Registry (HMLR)
会社の概要
HM Land Registryは、イギリスのイングランドおよびウェールズ地方の土地登記を管轄する機関です。イングランドおよびウェールズ地方の土地87% 以上を管理しており、2,500 万件以上の不動産権利を保護しています。
抱えていた課題
新しい建物の開発を計画する際、提出された譲渡証を以前の譲渡証と比較して、大きな差異がないかを確認するという作業が発生します。従来は手作業で行っていましたが、文書間の小さな差異をどう扱うかで問題が多く発生していました。また、譲渡証に記載されている法的言語は非常に複雑なため、解読するのも大変でした。
Amazon Comprehend導入による効果
そこで、譲渡証をスキャンしてPDFにしてアップロードし、それをスキャンしたドキュメントからテキストを抽出できるサービス「Amazon Textract」を使って、テキストデータに変換。その後、Amazon Comprehendの自然言語処理機能を使って、問題のフラグづけを行うという運用にしました。
その結果、複雑な法律用語から意味を抽出し、小さな相違点も明確に識別できるようになりました。そして、手作業だった確認作業を自動化したことにより、担当者による文書の確認が従来の2倍の速さで行えるようになりました。
Amazon Comprehendの料金体系について
最後に、Amazon Comprehendの料金体系について説明します。
Amazon Comprehendの料金体系
Amazon Comprehendでは、機能ごとに料金が設定されており、料金はユニットという単位によって決まります。100文字で1ユニットとなっており、リクエストの文字数によって変動する仕組みです。なお、リクエストごとに3ユニット(300文字)の最低料金が発生します。それぞれの料金は以下の通りです。
機能 | 10Mユニットまでの料金 | 10M~50Mユニットまでの料金 | 50Mユニット超の料金 |
---|---|---|---|
キーフレーズ抽出 | 0.0001 USD | 0.00005 USD | 0.000025 USD |
エンティティ認識 | 0.0001 USD | 0.00005 USD | 0.000025 USD |
感情分析 | 0.0001 USD | 0.00005 USD | 0.000025 USD |
構文解析 | 0.00005 USD | 0.000025 USD | 0.0000125 USD |
言語検出 | 0.0001 USD | 0.00005 USD | 0.000025 USD |
こちらは、2024年10月時点の、東京リージョンにおける料金です。料金は変動する可能性があります。詳しくは、公式のAmazon Comprehendの料金ページをご確認ください。
また、無料利用枠も用意されており、1 つのAPIにつき月々50,000ユニット (5,000,000文字) のテキストまで、また1MBまでの5つのジョブが無料で利用できます。
Amazon Comprehendの料金例
Amazon Comprehendのページでは、Amazon Comprehendの料金例を紹介しています。ここでは、2つの料金例をピックアップして紹介します。
オンラインストアの顧客コメントを分析するアプリケーションの運用
10,000人の顧客から、それぞれ550文字のコメントを受け取っている場合の料金は、以下の通りです。(サービスの利用が 2 年目に入っているため、無料利用枠は利用できないと仮定します)
各リクエストのサイズ:550 文字(6ユニット)
ユニット数合計:10,000 (リクエスト) × 6 (ユニット) = 60,000(ユニット)
ユニットあたりの料金 = 0.0001 USD
合計コスト = 60,000 x 0.0001 USD = 6.00 USD /月
トピックによるドキュメントのグループ化
合計で240MBのドキュメントのセットをトピックごとに分類し、顧客の関心に合わせて適切なドキュメントを推奨するシステムを運用したい場合、料金は以下の通りです。(サービスの利用が 2 年目に入っているため、無料利用枠は利用できないと仮定します)
処理されるメガバイト数合計:240
1 USD の均一料金が適用されるメガバイト数:100
0.004 USD/MB が課金されるメガバイト数:240 - 100 = 140
合計コスト = 1.00 USD + [140 x 0.004 USD] = 1.00 USD + 0.56 USD = 1.56 USD /月
AWSの公式ページでは、ほかにもいくつかの料金例を紹介しています。詳しくはそちらをご参照ください。
まとめ
ペーパーレス化が進み、チャットツールやメールなどのテキストのデータ量は爆発的に増加しています。Amazon Comprehendを活用すれば、チャットボットの性能向上や、カスタマーサポートの改善など、社内にあるテキストデータをさまざまな形で活用することができます。この機会に、Amazon Comprehendの導入を検討してみてはいかがでしょうか。Amazon Comprehendの導入に際してお悩みがある方は、当社までお気軽にご相談 ください。
関連サービス
おすすめ記事
-
2020.06.23
Amazon Connectで在宅勤務でも対応できる問合せ窓口を立ち上げてみた
-
2020.08.17
Datadogで実現するモニタリングとオペレーションのオートメーション化
-
2020.04.27
Amazon FSx for Windows ファイルサーバーへの移行と活用方法
-
2020.06.11
Amazon WorkSpacesとは?その特長をまとめてみた
-
2020.06.23
AWSのDevOpsサービスと当社マネージドサービスを活用したDevOpsの実装①~概念編~