1、向量化的问题,中文的话,使用尽量使用国内的嵌入模型,国外的虽然支持中文,但是还是比不上国内专门针对中文的优化
本地使用ollama 搭建的话 ,我使用的是 quentinz/bge-large-zh-v1.5:latest
2、不规则的pdf文件,无法使用pdf插件读取内容问题,我是php 使用 smalot/pdfparser 包的
遇到不规则pdf文件时 使用 Imagick 将pdf 文件 转为图片,再使用多模态模型,读取图片内容
多模态模型使用的是ollama里面的 qwen2.5vl:7b,识别率非常高
3、文件的内容主题不突出问题,比如有一份文件叫QQ飞车攻略,但是内容全篇都没有QQ飞车 攻略 这几个字,当用户问题是QQ飞车有什么攻略,向量化搜索完全匹配不上
我是先将整个文件内容 包括文件标题 扔给大模型 让大模型大概总结一下 文本内容,然后作为一个文件块进行向量化 保存
4、搜索结果 权重排序不理想问题,往往不相关的文件排在前面
将搜索返回的内容,扔给大模型,让大模型针对问题 和 内容进行 打分排序
5、用户上下文提问关联问题
让大模型根据用户的历史提问,生成一个完整的新的问题,比如用户第一次提问 介绍一下xxx系统,第二次提问 重点介绍一下财务功能模块
那么让大模型重写后的提问就变成了,重点介绍一下xxx系统的财务功能模块,这样这个问题就能命中xxx系统的文件块
6、计算类的问题,这个完全无解
比如用户把很多excel文件都上传知识库,但是每个excel里面的数据,结构都不同,此时用户提问 今年公司的订单数有多少
这个完全无解啊,哦尼酱