知识库允许您通过智能向量搜索和分块功能上传、处理并搜索您的文档。各种类型的文档会被自动处理、嵌入并变得可搜索。您的文档会被智能分块,您可以使用自然语言查询来查看、编辑和搜索它们。
上传与处理
只需上传您的文档即可开始。Sim 会在后台自动处理它们,提取文本、创建嵌入并将其分成可搜索的块。
系统为您处理整个处理流程:
- 文本提取:使用针对每种文件类型的专用解析器从文档中提取内容
- 智能分块:将文档分成有意义的块,并可配置大小和重叠
- 嵌入生成:创建向量嵌入以实现语义搜索功能
- 处理状态:在文档处理时跟踪进度
支持的文件类型
Sim 支持 PDF、Word (DOC/DOCX)、纯文本 (TXT)、Markdown (MD)、HTML、Excel (XLS/XLSX)、PowerPoint (PPT/PPTX) 和 CSV 文件。每个文件最大可达 100MB,文件小于 50MB 时性能最佳。您可以同时上传多个文档,PDF 文件还包括对扫描文档的 OCR 处理。
查看和编辑分块
文档处理完成后,您可以查看和编辑各个分块。这使您可以完全控制内容的组织和搜索方式。
分块配置
在创建知识库时,您可以配置文档如何被拆分为多个分块:
| 设置 | 单位 | 默认值 | 范围 | 说明 |
|---|---|---|---|---|
| 最大分块大小 | tokens | 1,024 | 100-4,000 | 每个分块的最大大小(1 token ≈ 4 个字符) |
| 最小分块大小 | 字符 | 1 | 1-2,000 | 避免生成过小分块的最小分块大小 |
| 重叠量 | 字符 | 200 | 0-500 | 相邻分块之间的上下文重叠字符数 |
- 分层拆分:遵循文档结构(章节、段落、句子)
编辑功能
- 编辑分块内容:可修改单个分块的文本内容
- 调整分块边界:根据需要合并或拆分分块
- 添加元数据:为分块补充更多上下文信息
- 批量操作:高效管理多个分块
高级 PDF 处理
对于 PDF 文档,Sim 提供了增强的处理能力:
OCR 支持
当配置了 Azure 或 Mistral OCR 时:
- 扫描文档处理:从基于图像的 PDF 中提取文本
- 混合内容处理:处理同时包含文本和图片的 PDF
- 高精度:先进的 AI 模型确保文本提取的准确性
在工作流中使用知识块
文档处理完成后,您可以通过知识块在 AI 工作流中使用它们。这实现了 RAG(检索增强生成),让您的 AI 智能体能够访问并理解文档内容,从而提供更准确、有上下文的回复。
知识块功能
- 语义搜索:通过自然语言查询查找相关内容
- 上下文集成:自动将相关分块纳入智能体提示词
- 动态检索:在工作流执行时实时搜索
- 相关性评分:根据语义相似度对结果进行排序
集成选项
- 系统提示:为你的 AI 智能体提供上下文
- 动态上下文:在对话中搜索并纳入相关信息
- 多文档搜索:可在整个知识库中查询
- 筛选搜索:结合标签,实现精准内容检索
向量搜索技术
Sim 利用 pgvector 提供的向量搜索,理解你的内容的含义和上下文:
语义理解
- 上下文搜索:即使关键词不完全匹配,也能找到相关内容
- 基于概念的检索:理解不同想法之间的关系
- 多语言支持:可跨多种语言使用
- 同义词识别:发现相关术语和概念
搜索能力
- 自然语言查询:可用简单英文提问
- 相似度搜索:查找概念上相似的内容
- 混合搜索:结合向量与传统关键词搜索
- 结果可配置:可控制结果数量和相关性阈值
文档管理
组织功能
- 批量上传:通过异步 API 一次上传多个文件
- 处理状态:实时更新文档处理进度
- 搜索与筛选:在大型集合中快速查找文档
- 元数据追踪:自动记录文件信息和处理详情
安全与隐私
- 安全存储:文档采用企业级安全存储
- 访问控制:基于工作区的权限管理
- 处理隔离:每个工作区的文档处理相互隔离
- 数据保留:可配置文档保留策略
快速开始
- 进入你的知识库:可在工作区侧边栏访问
- 上传文档:拖拽或选择文件上传
- 监控处理进度:实时查看文档处理与分块
- 浏览分块内容:查看并编辑已处理内容
- 添加到工作流:使用 Knowledge 模块集成到你的 AI 智能体
知识库将您的静态文档转化为智能、可搜索的资源,使您的 AI 工作流能够利用这些信息,提供更有见地和更具上下文的回应。