深度剖析:大模型为何在建筑设计专业问题上频频出错?RAG技术解决方案全解析

文章分析了大模型在建筑设计专业领域回答问题时出现的错误,指出存在信息陈旧、缺乏结构化知识、数据分布偏差和幻觉生成等问题。作者提出使用检索增强生成(RAG)技术作为解决方案,详细介绍了文档准备、API设置、文档向量化、构建知识库和搭建智能问答系统的完整流程。通过RAG技术,将专业知识获取方式从"手动翻阅"升级为"智能对话",提高了专业问题回答的准确性。


大模型在训练时是包含了海量的建筑设计规范文件的,但是它在回答建筑设计专业问题时仍然会出较多错误。我向网页版Deepseek问了两个问题,它的回答都是错的:

问:无障碍厕所隔间的尺寸是多少?
Deepseek答:依据《无障碍设计规范》GB50763-2012,平面尺寸不应小于1.80m×1.50m
规范要求:实际在无障碍规范中,无障碍厕所不应小于1.8m×1.0m;在民用建筑统一标准中,无障碍厕所隔间不应小于1.5m×2.0m,隔间外开门时不应小于1.0m×1.8m。

问:单侧并列洗手盆或盥洗槽外沿至对面墙的净距不应小于多少?居住建筑洗手盆外沿至对面墙的净距不应小于多少?
Deepseek答:其外沿至对面墙(或障碍物)的净距,不应小于1.20m;居中建筑中不应小于0.7m
规范要求:单侧并列洗手盆或盥洗槽外沿至对面墙的净距不应小于1.25m;居住建筑洗手盆外沿至对面墙的净距不应小于0.6m。

通过以上两个问题反映了大模型在垂直领域中一些能力上的不足,比如:
1)信息陈旧与矛盾,训练时用的规范并非最新版
2)缺乏深度结构化知识,无法实现“章-节-条-款”定位
3)数据分布偏差,冷门知识缺失,例如网络上大家问的较多的规范问题,大模型就能回答的相对准确
4)大模型本质是概率生成,回答时候有一定概率产生幻觉
因此垂直领域的知识库的搭建,就显的非常必要了。

Retrieval Augmented Generation,中文翻译为检索增强生成,是将信息检索与大模型生成结合的一种技术框架。模型生成答案时,会被强制要求基于检索到的最新、最相关的知识库文档片段来组织语言,而非依赖其内部可能过时或错误的信息,从而极大地降低其幻觉的概率。

实战解析

第一步:文档材料准备

我们在实际工作中的规范文档材料多种多样,有PDF、word等不同类型的文档。文档内容也并非全部都是有效信息,因此需要对文档的内容进一步处理。

本文选择将《民用建筑设计统一标准》GB 50352-2019这本建筑规范统一处理为markdown格式,规范中的表格则统一处理为html格式,方便文档切分及后续的文本向量转换。最终处理好的文件以TXT格式保存。

文档清洗是非常重要的一步,它将多余噪声清除,将非文本格式的内容转化为嵌入模型可识别的格式,为后续的工作打下一个坚实的基础。

第二步:设置API_KEY

直接将模型的APIKEY设置为环境变量,这样使用起来更方便,如将代码公开,APIKEY也不会暴露。

在本文中,文本向量化时使用的嵌入模型来自阿里百炼平台的"text-embedding-v1";在回答问题阶段则调用的是"deepseek"

DASHSCOPE_API_KEY = os.getenv('DASHSCOPE_API_KEY')DEEPSEEK_API_KEY = os.getenv('DEEPSEEK_API_KEY')

第三步:文档向量化,并构建可检索的知识库

像上一篇文章一样,同样是需要将文档做向量化的表达。这是将TXT变为大模型可理解格式的关键一步。我们采用"分块"策略,将长文本切成有重叠的小段,既保持上下文,又方便精确检索。

本文是按照标题的层级结构进行分块的,这是针对规范类文档较为常用的一种分块策略,能较好的保持文档的语义连贯。

将分块的文本转换为向量之后,再利用FAISS创建一个本地的向量数据库保存转换后的向量,方便进行语义相似度的检索。

def process_txt_file(file_path: str, save_path: str = None) -> FAISS: """从txt文件创建向量存储""" # 读取txt文件 text = Path(file_path).read_text(encoding='utf-8') print(f"已读取文件: {file_path}, 文本长度: {len(text)} 字符") # 创建文本分割器 text_splitter = RecursiveCharacterTextSplitter( separators=["\n#", "\n##", "\n###", "\n\n", "\n", "。"], chunk_size=300, chunk_overlap=60, length_function=len, ) # 分割文本 chunks = text_splitter.split_text(text) print(f"文本被分割成 {len(chunks)} 个块。") # 创建嵌入模型 embeddings = DashScopeEmbeddings( model="text-embedding-v1", dashscope_api_key=DASHSCOPE_API_KEY, ) # 创建知识库 knowledge_base = FAISS.from_texts(chunks, embeddings) print("已从文本块创建知识库。") # 保存向量数据库 if save_path: os.makedirs(save_path, exist_ok=True) knowledge_base.save_local(save_path) print(f"向量数据库已保存到: {save_path}") return knowledge_base

第四步:创建或加载向量数据库

首次运行以下函数,是调用嵌入模型将txt格式文件转换为向量格式并创建FAISS数据库。当本地已保存了相应向量数据库文件之后,再次运行以下函数,将加载已保存的向量数据库。

def create_or_load_knowledge_base() -> FAISS: """创建或加载向量数据库""" # 文件路径和保存路径 txt_file_path = "./民用建筑设计统一标准GB50352-2019.txt" vector_store_path = "./vector_store" # 创建嵌入模型(创建和加载都需要) embeddings = DashScopeEmbeddings( model="text-embedding-v1", dashscope_api_key=DASHSCOPE_API_KEY, ) # 检查向量数据库是否已存在 ifnot os.path.exists(vector_store_path): print("向量数据库不存在,开始创建...") # 创建向量数据库 knowledge_base = process_txt_file( file_path=txt_file_path, save_path=vector_store_path ) print("向量数据库创建完成。") else: print("向量数据库已存在,开始加载...") # 直接加载FAISS向量数据库 knowledge_base = FAISS.load_local(vector_store_path, embeddings, allow_dangerous_deserialization=True) print(f"向量数据库已从 {vector_store_path} 加载。") print("向量数据库加载完成。") return knowledge_base

第五步:搭建智能问答

知识库就绪后,我们将其与大语言模型连接,形成完整的问答流水线。

当你向RAG系统提出了一个建筑设计规范问题,系统会先检索知识库,寻找语义最为相似的知识切片。然后系统会将系统提示词、找出的知识切片、你提出的问题整合在一起,再喂给大模型。最后大模型接收以上所有信息之后,再做出相应回答。

if __name__ == "__main__": from langchain_openai import ChatOpenAI # 创建或加载知识库 knowledgeBase = create_or_load_knowledge_base() # 初始化语言模型 llm = ChatOpenAI( model_name="deepseek-chat", # 或 "deepseek-coder" 根据你的需求 openai_api_key= DEEPSEEK_API_KEY, openai_api_base="https://api.deepseek.com", # DeepSeek API地址 temperature=0.1, max_tokens=2048 ) SYSTEM_PROMPT = """你是一个专业的建筑标准咨询助手,专门回答关于《民用建筑设计统一标准GB50352-2019》的问题。 重要要求:每次回答问题时,必须在答案中标明答案所依据的具体条款或章节的标题号(如:4.5.2、3.1.1等)。如果答案涉及多个条款,需要分别注明每个条款的标题号。回答格式要求:1. 先直接回答问题2. 然后标注标题号(如:依据标准第4.5.2条...)请确保答案准确、专业,并严格依据提供的文本内容。""" # 设置查询问题 query = "单侧并列洗手盆或盥洗槽外沿至对面墙的净距不应小于多少?" if query: # 执行相似度搜索,找到与查询相关的文档 docs = knowledgeBase.similarity_search(query, k=10) # 构建上下文 context = "\n\n".join([doc.page_content for doc in docs]) # 构建提示 prompt = f"""{SYSTEM_PROMPT} 根据以下上下文回答问题: {context} 问题: {query} 请按照要求的格式回答:""" # 直接调用 LLM response = llm.invoke(prompt) answer = response.content print("回答:") print(answer) print(f"模型名称: {llm.model_name}")

尝试向系统提问本文最开始提到的问题"单侧并列洗手盆或盥洗槽外沿至对面墙的净距不应小于多少?",可以看到deepseek给出了准确的回答,并给出条款的标题号。

条款的标题号属于知识切片元数据的一种,本文可采用提示词的方式附在答案之后,是因为本文所使用的txt格式的规范文件已经转换为结构清晰的文件,并且在文档切片时也采用了以文章结构为主的切片策略。

结语

借助LangChain和RAG,我们将专业知识的获取方式从“手动翻阅”升级为“智能对话”。

建筑师在大多数场景下,并不能清晰的了解自己所需要查询的规范内容,尤其对于工作经验不足的新人。

但是他们可以提供具体的设计场景,让大模型理解具体使用环境,进一步帮助我们去翻阅资料。

AI时代,未来的就业机会在哪里?

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

掌握大模型技能,就是把握高薪未来。

那么,普通人如何抓住大模型风口?

AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。

因此,这里给大家整理了一份《2026最新大模型全套学习资源》,包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等,带你从零基础入门到精通,快速掌握大模型技术!

由于篇幅有限,有需要的小伙伴可以扫码获取!

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

4. 大模型项目实战

学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

为什么大家都在学AI大模型?

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

这些资料有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


大模型全套学习资料已整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1201390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安庆抖音代运营首选:GEO技术赋能 + 精准运营,助力本地企业流量破局

在抖音成为企业营销核心阵地的当下,安庆本土企业如何突破流量桎梏、实现高效转化?作为抖音官方认证四星服务商、国内GEO优化头部企业,三十六行网络科技以“GEO精准获客 + 本土化深耕”的双引擎模式,为安庆企业量身…

《Biuredis》原生开发的鸿蒙app究竟能帮你干啥?

BiuRedis是一款移动端 Redis数据库管理客户端,为 开发者、数据库管理员及运维人员提供便捷的掌上运维服务。您可以通过本应用轻松连接并管理Redis服务,满足日常开发调试与运维监控的需求。

基于Java+SpringBoot+SSM教学管理自动化系统(源码+LW+调试文档+讲解等)/教学管理系统/教学管理软件/教育管理自动化系统/学校管理自动化系统/教学自动化平台/管理自动化解决方案

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

程序员转行都去干嘛了?产品经理很正常,这位卖烧饼的也太强了_程序员都转行去做什么去了

前言 程序员转行都去干嘛了?以下这些切实又不切实的选择仅供参考 1.转往临近岗位,比如你讨厌的产品经理 程序猿和产品经理可谓是最像夫妻的两个职位,相爱相杀,知根知底。 程序员转产品经理有很大优势,因为了解产品…

基于Java+SpringBoot+SSM土地资源管理子系统(源码+LW+调试文档+讲解等)/土地资源管理系统/资源管理子系统/土地管理系统/土地资源信息化管理子系统/土地资源规划子系统

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

一分钟看懂:产品BOM与生产BOM的联系与区别

产品BOM (Engineering BOM, EBOM) 设计视角:由工程/研发部门创建,定义产品的设计结构。 组成:包含构成最终产品的所有设计零部件,如外壳、电路板、软件、螺丝等。它反映的是产品“应该是什么”。 关注点:功能、性能…

2026必备!专科生论文写作TOP8 AI论文网站测评

2026必备!专科生论文写作TOP8 AI论文网站测评 2026年专科生论文写作工具测评:为何需要这份榜单? 随着AI技术的不断进步,越来越多的专科生开始借助AI论文网站提升写作效率和论文质量。然而,面对市场上五花八门的平台&am…

揭秘!2026 深圳APP/微信小程序软件开发公司 TOP3(权威评测)

在数字化浪潮席卷各行各业的2026年,小程序与APP早已不再是“可选项”,而是企业实现用户触达、提升运营效率、构建私域流量的核心工具。据《2026中国小程序生态发展白皮书》显示,全国小程序月活跃用户已突破12亿,GM…

【实证分析】上市公司平台生态嵌入程度数据集-含代码及原始数据(2000-2024年)

数据简介:上市公司年报中抓取与“平台生态嵌入”相关的词频数据,以此衡量企业平台生态嵌入程度,这一方法兼具可行性与科学性。为使实证分析更紧密地契合理论部分的推导逻辑,本研究将从战略嵌入、平台嵌入、生态嵌入这三个维度入手…

如何在Windows电脑上设置SSH密钥免密登录Ubuntu Server

如何在Windows电脑上设置SSH密钥免密登录Ubuntu Server 以下是在Windows电脑上设置SSH密钥免密登录Ubuntu Server的完整、可靠、一步到位的操作步骤,假设你的环境如下。 把下文中的xxx.yy.zz.www替换为你的ip,然后初始密码就是你这个服务器的密码。 本…

2026 AI论文工具终极指南:全流程合规提效

2026年,AI技术已深度渗透学术写作全场景,成为科研人员与学生破解选题困惑、格式繁琐、文献检索低效、写作进度滞后等核心痛点的关键助力。但当前AI论文工具市场鱼龙混杂,部分产品重营销轻实用,甚至存在学术合规隐患。本文整合多篇…

全面解析:2026年高性价比电动车推荐榜单,功能强大的电动车哪家靠谱

在选择电动车的过程中,性价比高的电动车哪家靠谱是消费者非常关注的问题。品牌如四川玉骑铃科技因其优越的性能和市场反馈备受青睐。同时,爬坡能力也是选购的重要考量因素,许多用户对电动车在陡坡上的表现尤为关注。…

【计算机视觉、关键点检测、特征提取和匹配】基于SIFT、PCA-SIFT和GLOH算法在不同图像之间建立特征对应关系,并实现点匹配算法和图像匹配(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

三表

三表一、三表连接的格式 1.三表内连接 格式:select * from 表1 inner join 表2 on 表1.关联字段1=表2.关联字段2=表3.关联字段3; 如:select * from student student inner join sc on student.stu_no=sc.stu_no inne…

飞书钉钉AI硬件争夺战:录音背后的入口之争

文|白 鸽 编|王一粟 在钉钉推出DingTalk A1的5个月后,飞书也“杀”入了AI录音设备的战场。 1月19日,安克创新与飞书联合做了一款AI录音设备,即AI录音豆,由安克创新做硬件,飞书则提供软件和AI…

2026年厦门AI外呼机器人最新推荐厂家:外呼机器人、销售机器人、AI外呼机器人、智能外呼机器人、智能电销机器人、智能电话机器人

当前企业对高效拓客、成本管控的需求持续攀升,AI外呼机器人凭借自动化运营、高并发外呼等优势,广泛应用于销售拓客、客户回访等场景,但市场上产品质量参差不齐,部分存在话术僵硬、合规性不足、数据安全无保障等问题…

java_ssm38宠物常规护理知识科普管理系统 _87n3x

目录 具体实现截图系统概述核心功能技术架构应用价值 系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 具体实现截图 系统概述 Java_SSM38宠物常规护理知识科普管理系统_87n3x是一个基于SSM(Sprin…

基于SpringBoot的在线音乐推荐系统开题报告

基于SpringBoot的在线音乐推荐系统开题报告 一、研究背景 在数字媒体技术与互联网产业飞速发展的当下,音乐消费模式已完成从传统实体载体向在线数字化的全面转型。在线音乐平台凭借资源丰富、获取便捷、交互性强等优势,成为大众享受音乐、传播音乐的核心…

告别机房管理 “盲盒”!实现主动预判的可视化运维

数据中心运维管理中,传统的机房管理常常面临设备繁多、管理混乱、故障排查困难、空间资源浪费等问题,就像在开 “盲盒” 一样充满不确定性;这些问题不仅影响运维效率,更可能对业务连续性造成潜在风险。乐维CMDB的机房视图&#xf…

基于大数据爬虫+Hadoop+Python的农产品销售预测系统设计与实现开题报告

基于大数据爬虫HadoopPython的农产品销售预测系统设计与实现开题报告 一、选题背景及意义 (一)选题背景 我国作为农业大国,农产品产量稳居世界前列,农产品销售是连接农业生产与市场消费的核心环节,直接关系到农民收入…