ナレッジベースでは、インテリジェントなベクトル検索とチャンキングを使用して、ドキュメントのアップロード、処理、検索が可能です。様々な種類のドキュメントが自動的に処理され、埋め込まれ、検索可能になります。ドキュメントはインテリジェントにチャンク化され、自然言語クエリを使用して閲覧、編集、検索することができます。
アップロードと処理
始めるには、単にドキュメントをアップロードするだけです。Simは自動的にバックグラウンドでドキュメントを処理し、テキストを抽出し、埋め込みを作成し、検索可能なチャンクに分割します。
システムは処理パイプライン全体を代行します:
- テキスト抽出:各ファイルタイプに特化したパーサーを使用してコンテンツが抽出されます
- インテリジェントなチャンキング:ドキュメントは設定可能なサイズとオーバーラップで意味のあるチャンクに分割されます
- 埋め込み生成:セマンティック検索機能のためのベクトル埋め込みが作成されます
- 処理状況:ドキュメントの処理進捗を追跡できます
サポートされているファイルタイプ
SimはPDF、Word(DOC/DOCX)、プレーンテキスト(TXT)、Markdown(MD)、HTML、Excel(XLS/XLSX)、PowerPoint(PPT/PPTX)、CSVファイルをサポートしています。ファイルは最大100MBまで対応し、50MB未満のファイルが最適なパフォーマンスを発揮します。複数のドキュメントを同時にアップロードでき、PDFファイルにはスキャンされたドキュメント用のOCR処理が含まれています。
チャンクの閲覧と編集
ドキュメントが処理されると、個々のチャンクを閲覧および編集できます。これにより、コンテンツの整理方法と検索方法を完全に制御できます。
チャンク設定
ナレッジベースを作成する際、ドキュメントをチャンクに分割する方法を設定できます。
| 設定 | 単位 | デフォルト | 範囲 | 説明 |
|---|---|---|---|---|
| 最大チャンクサイズ | トークン | 1,024 | 100-4,000 | 各チャンクの最大サイズ(1トークン ≈ 4文字) |
| 最小チャンクサイズ | 文字 | 1 | 1-2,000 | 小さな断片を避けるための最小チャンクサイズ |
| オーバーラップ | 文字 | 200 | 0-500 | 連続するチャンク間のコンテキストオーバーラップ |
- 階層的分割: ドキュメント構造(セクション、段落、文)を尊重
編集機能
- チャンクコンテンツの編集: 個々のチャンクのテキストコンテンツを変更
- チャンク境界の調整: 必要に応じてチャンクを結合または分割
- メタデータの追加: 追加のコンテキストでチャンクを強化
- 一括操作: 複数のチャンクを効率的に管理
高度なPDF処理
PDFドキュメントに対して、Simは強化された処理機能を提供します。
OCRサポート
AzureまたはMistral OCRで設定されている場合:
- スキャンされたドキュメントの処理: 画像ベースのPDFからテキストを抽出
- 混合コンテンツの処理: テキストと画像の両方を含むPDFを処理
- 高精度: 高度なAIモデルにより正確なテキスト抽出を保証
ワークフローでのナレッジブロックの使用
ドキュメントが処理されると、ナレッジブロックを通じてAIワークフローで使用できます。これにより検索拡張生成(RAG)が可能になり、AIエージェントがドキュメントコンテンツにアクセスして推論し、より正確でコンテキストに沿った応答を提供できます。
ナレッジブロックの機能
- セマンティック検索: 自然言語クエリを使用して関連コンテンツを検索
- コンテキスト統合: 関連するチャンクをエージェントプロンプトに自動的に含める
- 動的検索: ワークフロー実行中にリアルタイムで検索を実行
- 関連性スコアリング: セマンティック類似度によって結果をランク付け
統合オプション
- システムプロンプト: AIエージェントにコンテキストを提供
- 動的コンテキスト: 会話中に関連情報を検索して含める
- 複数ドキュメント検索: ナレッジベース全体をクエリ
- フィルター検索: タグと組み合わせて正確なコンテンツ取得
ベクトル検索技術
Simはpgvectorを活用したベクトル検索により、コンテンツの意味とコンテキストを理解します。
セマンティック理解
- コンテキスト検索: 正確なキーワードが一致しない場合でも関連コンテンツを検索
- 概念ベースの取得: アイデア間の関係を理解
- 多言語サポート: 異なる言語間で動作
- 同義語認識: 関連する用語と概念を検索
検索機能
- 自然言語クエリ: 平易な英語で質問
- 類似検索: 概念的に類似したコンテンツを検索
- ハイブリッド検索: ベクトル検索と従来のキーワード検索を組み合わせ
- 設定可能な結果: 結果の数と関連性のしきい値を制御
ドキュメント管理
整理機能
- 一括アップロード: 非同期API経由で複数ファイルを一度にアップロード
- 処理ステータス: ドキュメント処理のリアルタイム更新
- 検索とフィルター: 大規模なコレクション内でドキュメントを素早く検索
- メタデータ追跡: ファイル情報と処理詳細の自動キャプチャ
セキュリティとプライバシー
- 安全なストレージ: エンタープライズグレードのセキュリティでドキュメントを保存
- アクセス制御: ワークスペースベースの権限
- 処理の分離: 各ワークスペースは分離されたドキュメント処理を実施
- データ保持: ドキュメント保持ポリシーを設定
はじめに
- ナレッジベースに移動: ワークスペースのサイドバーからアクセス
- ドキュメントをアップロード: ドラッグアンドドロップまたはファイルを選択してアップロード
- 処理を監視: ドキュメントが処理され、チャンク化される様子を確認
- チャンクを探索: 処理されたコンテンツを表示および編集
- ワークフローに追加: Knowledgeブロックを使用してAIエージェントと統合
ナレッジベースは、静的なドキュメントをインテリジェントで検索可能なリソースに変換し、AIワークフローがより情報に基づいた文脈に応じた応答を活用できるようにします。