データベースでのセマンティック検索はどのように機能するのか

データベースでのセマンティック検索はどのように機能するのかのカバー画像

今日の生成AIの世界では置いていかれるわけにはいきません。大規模言語モデル（LLMs）や、Retrieval Augmented Generation（RAG）、LangChain、LlamaIndexなどは、独自の能力を持って世界を変革しています。自然言語処理（NLP）はコンピュータが人間の言語を理解することを可能にしましたが、データを検索・取得する上で、さらなる進歩があります。それがセマンティック検索の役割です。

キーワード検索のみによるモデルでは、ユーザーのクエリを理解できず、要求された出力を取得する際に誤解を招いたり混乱を生じさせたりすることがあります。セマンティック検索機能を適用することで、アプリケーションはより強力な検索機能を持つことができます。

今日は、セマンティック検索が何か、そして生成AIの世界でどのように機能するかについて深く掘り下げてみましょう。

セマンティック検索とは何か？

生成AI（または任意のAIシステム）の文脈におけるセマンティック検索は、単にキーワードに頼るのではなく、意図と文脈的な意味を基にユーザーのクエリを理解・処理するシステムの機能を指します。つまり、セマンティック検索は、より関連性が高く、正確な結果や出力を産出するために、クエリ内の単語のニュアンスや関係性を理解しようと試みます。

セマンティック検索は生成AIにとって非常に重要な役割を担っています。これは、情報を取り出すだけではなく、ユーザーの意図や文脈に合わせたコンテンツを生成することに関係しています。例えば、ユーザーが特定のテーマに基づいた物語を生成しようとする場合、AIはそのテーマをセマンティックに理解し、関連性が高く矛盾のない物語を制作する必要があります。

セマンティック検索の仕組み

セマンティック検索は、わたしたちが情報と交流する方法におけるパラダイムシフトの最前線に立ち、キーワードに基づく取得からより洗練された、意図駆動の対話へと移行する移り変わりを体現しています。OpenAIのGPTシリーズなどの生成AIモデルの発展は、セマンティックな理解において大きな前進を遂げ、ユーザーとAIの間でより自然で文脈に応じたやりとりを可能にしています。

以下は図に示されたセマンティック検索プロセスのステップバイステップの説明です：

ユーザーがクエリを提出する。プロセスは、ユーザーがシステムに検索クエリを入力して開始されます。
意図と文脈を分析する。LLMはクエリを分析して、ユーザーの意図とクエリの文脈を理解します。
意図と関係性を抽出する。セマンティック検索はクエリを処理して、用語間の関係と全体の意味を決定します。
意図と関係性を返す。抽出された意図と関係性がLLMに送り返されます。
関連するデータを取得する。LLMは理解された意図を使用して、クエリに関連するデータを取得します。
関連性に基づいてデータをランク付けする。ランキングアルゴリズムは、ベクトルデータベースから取得したデータを評価し、クエリに対する関連性に基づいてそれをランク付けします。
ランク付けされた結果を返す。ランク付けされた結果はLLMに送り返されます。
生成されたコンテンツ／出力を提示する。最後に、LLMは生成されたコンテンツまたは検索結果をユーザーに提示し、セマンティック検索プロセスを完了します。

セマンティック検索の重要性

いかなるシステムにおいても、ユーザーのクエリを理解し、より正確で、場合によっては文脈に即した形で提示することが非常に重要です。お気に入りのECサイトを閲覧しているときのことを想像してください。商品を探して検索バーにクエリを入力すると、検索結果が壊れてしまい、画面に表示されるのは一揃いの服だけです。もちろん、これはユーザーエクスペリエンスに否定的な影響を与えています。さて、こうした場合にセマンティック検索機能が重要な役割を果たします。

セマンティック検索の本質は、ユーザーのクエリの背後にある意図と文脈上のニュアンスを理解する能力にあります。そして、単純なキーワードマッチから洗練された、意図駆動の対話へと検索経験を変革します。この飛躍は、ユーザーが本当に関連性のあるコンテンツを見つけることを保証し、単にキーワードマッチのページではなく、重要な進歩です。

セマンティック検索は、ECから健康管理までの業界全体にわたりデータ取得の正確性を向上させる上で重要な役割を担っており、業務を合理化し、情報に基づいた意思決定を支援し、全体的なユーザーエクスペリエンスを豊かにします。人間の言語の微妙な違いを捉えることにより、セマンティック検索は私たちがデジタル情報の広大な海へのアクセスと相互作用を再形成しています。

Amazonは世界中のECサイトにセマンティック検索を統合しています。セマンティック検索を使用しているその他の企業には、Google、Microsoft（Bing）、IBMのwatsonx、OpenAI、Anthropicなどがあります。イーロン・マスクもX（元Twitter）にセマンティック検索機能を追加することに興味を持っています。

イーロン・マスクによるセマンティック検索のクレジット

セマンティック検索に関する理論はこれまでのところです。では、簡単なチュートリアルを通じて、セマンティック検索がどのように機能するかを理解しましょう。

セマンティック検索のチュートリアル

セマンティック検索は、単にキーワードを合わせるのではなく、クエリの文脈と意図を理解して、最も関連性の高い結果を返すことについてです。これを実演するために、sentence-transformersライブラリを使用して、ドキュメントのセットとクエリに対して埋め込みを作成し、次に類似性の検索を実行して、最も関連性の高いドキュメントを見つけることができます。

SingleStore Notebooksは、データとAI専門家が簡単に作業し、遊ぶことができるように、Jupyter Notebookの機能を拡張します。

SingleStoreDBとは何ですか？

SingleStoreDBは、唯一のデータベースを使用して現代のアプリケーションを構築およびスケーリングするために、世界をリードする組織を支援します。これを使用すると、リアルタイムでデータをトランザクション化、分析、コンテキスト化できます。ストリーミングデータの摂取、トランザクションと分析のサポート、水平スケーラビリティ、ハイブリッドベクトル検索機能を提供します。

SingleStore Notebookを使用するステップバイステップのチュートリアルは以下の通りです。

しかし、まず、Notebook機能を使用するために、無料のSingleStoreDBクラウドアカウントにサインアップする必要があります。サインアップすると、600ドル相当の無料のコンピューティングリソースが提供されます。

SingleStoreDB Cloudアカウントにサインインすると、以下のようなダッシュボードが表示されます。表示されたら、「Notebooks」と表示された場所をクリックします。

次に、好きな名前を付けて空のNotebookを作成します。私は自分のものを「semantic-search-demo」と名付けています。

Notebookを作成すると、コードスニペットを追加して作業を開始できるダッシュボードが表示されます。

以下のチュートリアルに沿って進め、次のステップで示されるコードをNotebooksに追加して、毎回実行してください。開始しましょう！

ステップ1：必要なライブラリをインストールする

まず、sentence-transformersライブラリをインストールする必要があります。Jupyter Notebookセルでこれを実行してください：

!pip install sentence-transformers

初めての場合は、先ほどのコマンドをNotebookに追加して実行する方法をお見せしましょう。

これで、Notebookにコードを追加し、実行する方法がわかったはずです。次に示すコマンドとコードスニペットも同じように行います。

ステップ2：ライブラリをインポートする

from sentence_transformers import SentenceTransformer, util
import numpy as np

ステップ3：事前学習済みモデルを読み込む

セマンティック類似性タスクに役立つ埋め込みを生成するように訓練された、sentence-transformersライブラリからの事前学習済みモデルを使用します。

model = SentenceTransformer('all-MiniLM-L6-v2')

ステップ4：文書とクエリを定義する

文書とクエリをいくつか定義します。文書は、文、段落、またはもっと長いテキストブロックになります。

# 例文書
documents = [
    "The quick brown fox jumps over the lazy dog.",
    "I had a great time at the park with my friends.",
    "The economy is showing signs of recovery after the pandemic.",
    "The surface of Mars is red due to iron oxide.",
    "Machine learning models have become very sophisticated."
]

# 例クエリ
query = "Natural language processing models"

ステップ5：文書とクエリをエンコードする

文書とクエリのために埋め込みを作成します。

# 文書をエンコード
document_embeddings = model.encode(documents)

# クエリをエンコード
query_embedding = model.encode(query)

ステップ6：セマンティック検索を実行する

ここでは、コサイン類似性を使用して、クエリと最もセマンティックに類似した文書を見つけます。

# クエリに対する全ての文書の埋め込みの類似性スコアを計算
similarity_scores = util.pytorch_cos_sim(query_embedding, document_embeddings)

# 最も高いスコアのインデックスを見つける
highest_score_index = np.argmax(similarity_scores)

print("クエリに最もセマンティックに類似した文書：")
print(documents[highest_score_index])

出力は、あなたの事前定義されたドキュメントリストからの文書で、あなたのクエリ「natural language processing models」と最高のコサイン類似性スコアを持つものになります。このスコアは、そのドキュメントが、sentence-transformersモデルによって作成された埋め込み空間の文脈で、クエリにどの程度類似しているかの数値的表現です。

出力は次のようになるかもしれません：

ここで、モデルが

こちらの記事はdev.toの良い記事を日本人向けに翻訳しています。
https://dev.to/pavanbelagatti/how-does-semantic-search-work-in-databases-222l