视频地址:https://www.youtube.com/watch?v=TdtUzMfub9g

首先,不要寄希望于丢几个 PDF 给嵌入模型,就可以有很好的效果。好的效果,往往需要你理解你真实的需求高质量的材料整理理解 RAG 的运行原理。如果你希望使用 DIFY 做出下图类似的图文混排效果,参考本教程。

图文混排的RAG召回示例图

在 DIFY 的知识库召回过程中,如果希望输出图文混排的内容,关键是图片的存储,目前有 2 个方案:

  • 图片放在远程服务器,这样图文混排,实际是加载服务器上的图片。
  • 图片放在 word 中,DIFY 在解析 word 的时候,会自动生成图片的 URL 路径,供远程访问。

今天主要围绕第二个方案展开,这样不需要额外的服务器成本和域名配置,即可快速实现图文混排的效果。

内容整理

首先,将自己知识库的内容整理成 Word,如果你在处理 word 过程中遇到各种解析报错,可以先把你的内容放入飞书知识库,然后使用飞书文档的功能,下载为 word。你可以简单理解成飞书文档,把你需要的内容,整理成了一个更标准的 Word 内容,并且把图片嵌入 word,而不是引用的外链。

飞书文档示例图

在整理文档的过程中,尽可能使用 2个换行 作为分隔符,方便后续 DIFY 默认的 分段标识符 可以正确的识别分段。当然,你也可以用一些特殊的标识符,后续 DIFY 配置的时候进行修改,例如下面我这里使用 2 个换行符,对应就是 \n\n

分隔符示例图

知识库配置

下载好 word 之后,即可导入 DIFY 知识库进行处理,重点看一下分段标识符这里的配置,是否与你计划的一致。然后点击预览按钮,查看每个区块的分段效果。譬如我右侧,与我文档期待的一致。

下面的嵌入模型和 rerank 模型,选择硅基流动模型即可

嵌入模型示意图

保存之后,稍等片刻即可完成嵌入。此时,我们可以直接使用召回测试,看看图文效果。

召回测试示意图

问答流程设计

接下来,我们就可以在 chatflow 中插入一个知识检索的节点,选中刚才添加的知识库内容。

之后,添加一个 LLM 节点,用来对检索到的内容进行二次加工,提示 LLM 进行图文混排,以免模型自动过滤了图片信息。

最终,就可以得到一个图文混排的效果了。

「DIFY 系列教程」
DIFY workflow 分享仓库: https://github.com/svcvit/Awesome-Dify-Workflow

01 课-DIFY 的本地化部署与启动
https://www.youtube.com/watch?v=6LnHVay289w
02 课-DIFY 的模型配置
https://www.youtube.com/watch?v=4I2DgPR3qDA
03 课-DIFY 流程中 workflow 与 chatflow 的区别
https://www.youtube.com/watch?v=quEA_7LVWA8
04 课-DIFY 图文知识库如何输出图片内容
https://www.youtube.com/watch?v=TdtUzMfub9g