未来,可以进一步推进城市和空间方案:

PlanGPT模型改进:论文将扩大正在进行的大规模模型预演习,特殊关注城市方案。
论文的目标是为城市和屯子方案背景 enriched 知识库。
多模态技能的利用:论文将研究在城市方案中运用多模态技能,以实现对空间动态的更全面理解。
目前,论文正在积极开拓PlanVLM用于此目的。
AI办理方案的渐进式集成:论文的策略涉及与城市方案机构进行深入互助,以更好地理解实际需求,完善涉及大型模型的事情流程,并有效办理城市方案中的程序性寻衅。
论文倡导全面改革未来的城市方案框架。
通过办理行业问题和推广进步计策,论文设想未来城市方案实践的渐进 yet 影响深远的转型。
二、论文的大略先容2.1 论文背景

【LLM】PlanGPT:提高城市筹划效率的专业措辞模型和高效检索技能_计划_城市 绘影字幕

由于大型措辞模型所固有的强大推理、影象和理解能力,各个领域都取得了本色性的进展和前景。
特殊是在金融、医学和法律等领域,涌现了针对特定行业定制的大型模型,它们可以有效地办理通用大型模型常见的问题,如由演习数据分布的统一性导致的模糊回答和幻觉,从而提高了员工的事情效率。

通过与城市方案部门/公司的方案师进行谈论,很明显,在文本管理、审查、审核和评估等任务上花费了大量韶光。
例如,在文本审查过程中,员工会仔细根据标准框架评估每一项,纠正城市方案文件中的缺点或遗漏。
同样,在文本评估中,员工从多个维度(合法性、可行性、经济效益、创新性等)对文件进行评估,这须要花费大量韶光和精力。
论文认为,利用大型措辞模型强大的理解和推理能力,可以通过结合大型措辞模型来办理上述过程,如图1所示。
然而,在实际操作中,论文创造这并非易事,由于中国城市方案行业的固有性子和城市方案文本的特点:

政府文书风格:城市方案文件与政府事务干系,每每采取固定的短语和构造,这对大型措辞模型来说是一个寻衅,须要在政府风格和信息内容之间取得平衡。
这些文件中的信噪比低,使检索更加繁芜。
此外,对数据安全的高度重视限定了模型的选择。
交叉学科知识:城市和空间方案文本集成了环境科学、生态学、经济学和法律等多个学科的知识。
然而,当前的大型模型还没有有效激活这个专业领域的知识,使其难以发挥效用。
及时性和多模态:城市方案文件须要与政府法规同步,并充斥着图像和表格数据,须要专门的剖析和处理工具。
2.1.1 城市方案领域的措辞模型

在与城市方案干系的地理和交通等领域,涌现了几个专业模型。
TrafficGPT将ChatGPT与交通根本模型相结合,通过数据剖析和自然措辞对话提高城市交通管理和决策支持。
Prithvi,一个来自NASA的模型,侧重于景象、磨难和地理预测,在IBM的watsonx.ai上进行预演习,可做事于景象变革、大水映射和农作物产量预测等运用。
作为中国第一个开源交通模型,TransGPT在交通预测、咨询、公共交通做事、城市方案、安全教诲、事件剖析和自动驾驶支持等方面找到运用。
EarthGPT,一个用于遥感图像的多模式大型措辞模型,集成了遥感阐明任务,以增强视觉感知和措辞理解。
目前,还没有专门用于城市和空间方案领域的大型模型,以是论文谦逊地推出PlanGPT来补充这个空缺。

2.2 论文方案

为应对城市方案文本固有的独特寻衅,论文推出了第一个城市方案领域的大型措辞模型:PlanGPT。
首先,它具有自定义的嵌入模型和向量数据库检索系统,可以精确地从大量城市方案文本中提取信息,通过利用关键词提取和分层搜索技能来战胜城市方案领域的低信噪比特点。
此外,论文采取指令微调方法来激活模型的跨学科知识并提高它节制政府文书风格的能力,知足方案师的需求。
此外,受大型模型领域中基于agent的系统进步的启示,论文创建了PlanAgent,以计策性地利用网络、视觉赞助、图表或领域特定模型等资源。
这种方法极大地办理了方案文件中与及时性和多模态干系的问题。

2.2.1 PlanGPT

在本节中,论文将先容PlanGPT的整体框架和技能细节。

2.2.1.1 向量-LLM

在城市方案中,专业职员常常难以从大规模数据集中找到干系材料。
这个任务可以建模为在文档凑集S中识别最干系文档跨度s∗,定义为s∗=argmaxs∈S Relate(q,s),个中Relate(q,s)表示讯问q和文档跨度s之间的相似度函数。

2.2.1.1.1 Plan-Emb

前辈的嵌入方法被认为是提高语义理解的常见地决方案,但由于两个缘故原由,它们在城市方案领域的效果仍旧不足优化:(1)专业术语:城市方案拥有自己的措辞系统,其特点是缩写和更换专业术语。
例如,法规可能提到分区法规,地皮类型指地皮利用分类,这会导致歧义,特殊是在中文中。
(2)方案师对词汇的不雅观点:像地皮利用这样的常用词对方案师来说具有更丰富的意义。
虽然常日理解为地皮利用,但方案师将其视为人类、地皮和生态系统之间的互动。
这种不雅观点差异会影响语义理解和搜索准确性。

借鉴之前关于嵌入模型的事情,论文为城市方案领域引入了嵌入模型Plan-Emb。
Plan-Emb是一种为了理解城市方案领域专业知识而定制的嵌入模型,具有两阶段的演习过程:首先利用通用中文文本标签进行预演习,然后在自网络的城市方案数据集上进行监督微调。
在第二阶段引入了正则化InfoNCE丢失,以防止对先前模型能力的灾害性遗忘。

个中q和a+表示句子及其正样本,而P和Q分别表示预演习阶段和微调阶段后的模型输出分布。
对付微调数据的网络,论文最初利用LLM筛选与论文自编传授教化大纲对齐的关键词或关键句子。
随后,采取涉及扰动、阐明和重写的经济高效方法天生正样本。
后续实验确认了PlanEmb的有效性。

2.2.1.1.2 Plan-HS(分层搜索)

为办理信噪比低且较长句子的嵌入能力低落的问题,论文引入了一种针对查询处理的新颖分层嵌入方法(如算法1所示)。
在数据预处理阶段,采取定制的关键词提取方法PlanKeyBert从输入文档D中提取干系关键词di,并将它们存储在哈希映命中,将每个块di映射到其相应的ki,同时保留必要信息。
在搜索过程中,利用查询Q根据关键词和语义相似度得分从vectorDB中召回干系文档。
随后,采取硬匹配得分和前辈的交叉把稳力得分对召回结果进行重新排序。

2.2.1.2 本地-LLM

大型措辞模型常日难以整合特定领域的知识,如城市方案,从而导致与既定约定偏离的措辞天生。
这里的寻衅不仅在于缺少特定领域的数据,而且在于模型无法在这个专业领域中综合和运用知识。
为办理这些寻衅,论文进行了两阶段的模型适配:城市方案知识激活和详细能力开拓。

2.2.1.2.1 城市方案知识激活

受鲸背(Humpback)方法的启示,论文提出了一种针对城市方案的自标注技能,此后称为城市方案标注,如图3所示。
该方法的步骤如下:

初始化无标签数据:来自城市方案存储库、网络档案和知识图谱的文本数据经由质量检讨、去重和采样,以产生高质量的无标签文本数据D。
凑集分割:论文利用不同的窗口大小i和相邻段之间的重叠Δ将无标签数据D分割成多个段Si,以确保信息完全性和粒度之间的平衡。
潜在质量评估:论文自主演习评分模型来评估每个段的潜在城市方案知识代价,选择得分较高的段作为候选段Pi。
自问与随机标签:受WizardLM(Xu等,2023)的启示,论文利用不同维度和类型的随机标签来提示大型模型根据Pi天生被认为具有知识代价的指令Ii。
然后,无标记文本Pi直接作为回答进行相应,或根据文档-查询对天生相应,形成<指令,输入,输出>对。
多维过滤:通过多维过滤细化天生的指令,包括指令去重、质量、繁芜度和多样性过滤。
为评估质量和繁芜度,利用稀疏注释微调褒奖模型。
借鉴LIMA(Zhou等,2024)和MoDS(Du等,2023)的方法,采取k中央(Sener and Savarese,2017)算法增强天生指令的多样性。
论文将通过这五个步骤得到的细粒度数据称为核心数据,并利用它来微调根本模型,从而激活与城市方案干系的知识。
2.2.1.2.2 详细能力开拓

与城市方案部门和研究机构的打仗表明,大型模型可以帮助方案师天生方案的章节、转换风格、评估量划和提取信息,但根本模型有限的指令遵照能力意味着仅凭提示学习是无法有效办理这些任务的。
为适应该领域的实际需求,论文进一步网络了全国各省、市、区和县的4000多份历史官方方案版本,以针对性地开拓能力。
论文从中选择了具有潜在用场的段落,并为四项任务构建了自主标注流程。
例如,在文本风格转换中,论文提示模型简化或口语化相应段落,然后让模型重写以匹配期望的风格,天生指令对t<原始文本,回应>。
然后,论文利用不同温度或不同模型的提示学习来天生不同质量的相应,实现自动注释以对微调评分模型的等级进行评分。

2.2.1.3 PlanAgent

在城市方案领域,专业职员须要对特定领域的知识有踏实的节制,同时也必须闇练利用与该领域干系的工具。
受到古人关于agent的事情的启示,论文设计并开拓了一个与城市方案任务和哀求紧密结合的agent。
这个agent被称为“PlanAgent”,它被精心定制以适应城市方案事情的繁芜性。

2.2.1.3.1 自主天生待办事项列表

为了帮助城市方案专业职员实行文本审查、审计或评估等繁芜任务,PlanAgent根据方案师的输入自主天生和优化任务列表,然后按顺序实行。

2.2.1.3.2 定向网络搜索

PlanAgent利用网络LLM访问实时方案法规和更新。
借鉴WebGLM的网络爬虫,它采取向量查询和URL爬虫来确保精确度。
为进一步提高搜索准确性,论文实现了专门设计用于识别与城市方案干系信息源的定向URL爬虫。

2.2.1.3.3 专业工具调用

PlanAgent闇练利用专业的特定领域模型来实行对城市方案至关主要的任务。
这些任务包括逆地理编码、知识图谱构建和图像字幕。

此外,PlanAgent还集成了城市方案研究职员开拓的前辈工具,用于空间韶光剖析、公交导向型发展(TOD)设置、社区生命周期城市方案、地皮利用和交通方案一体化、城市仿照、数字孪生城市平台等聪慧城市举措的必不可少的组成部分。
这种整体方法确保了对城市方案事情固有的繁芜寻衅的学术性和全面性的参与。

2.2.1.3.4 信息整合与校准

PlanAgent通过前辈技能自主整合来自各种LLM(如向量LLM、本地LLM)和专业模型的输出。
它可以在DPO或RLHF(中采取定制的褒奖模型来选择最佳答案,同时利用总结模型来增强来自多个来源的创造。
PlanGPT的总体架构如上图2所示,封装了其多方面的功能。

2.3 论文效果

实验结果表明,PlanGPT有效地办理了上述所有寻衅,知足了方案师日常事情中四项范例任务的需求,优于其他最前辈的模型。

2.3.1 实验

在本节中,论文通过大量离线实验展示了论文模型的效果。

2.3.1.1 实验设置2.3.1.1.1 演习语料库

对付城市方案知识激活,论文从各种来源整理了一个城市方案的专业数据集,包括学习材料、城市方案论坛高评分的问答线程、干系专业的优质教材以及近年来地方政府发布的官方文件。
详细统计信息见附录8.3。
在利用城市方案标注进行仔细筛选后,论文从语料库中整理出近5万个高质量指令对,并结合了ShareGPT或Alpaca-52k3等通用领域微调数据集的一部分,然后用其微调根本模型,增强其城市方案能力。
对付详细能力的开拓,论文采取第3.2.2节详述的城市方案数据和自我注释天生下贱任务的数据集,如表1所示。
受LIMA的启示,论文再次证明,纵然是少量的微调数据也能产生满意的结果,只管有些不稳定。

2.3.1.1.2 下贱任务

下贱任务描述如下:

文本天生:大型措辞模型在天生城市方案文档(包括综合地皮利用方案、开拓方案和分区条例)方面供应了显著上风。
利用这些模型,城市方案专业职员可以简化起草繁芜文件过程,确保清晰、连贯,并遵守法律和监管框架。
为评估天生内容的质量,论文创建了一个0到3的评分系统,四个级别表示从差到精良的质量。
四名专业城市方案师进行了主不雅观评估,他们的均匀评级确定了每个模型的终极质量得分(Human),然后将其转换为100分制。

文本风格转换:城市方案师常日在事情流程中采取文本风格转换技能。
大型措辞模型可以帮助将简明或非正式文本转换为城市方案互换的详细风格,从而提高城市和屯子事情者的效率。
评估方法与文本天生类似。

文本信息提取:大型措辞模型可以从各种文本源(包括城市方案报告、公众评论和学术研究)中提取关键信息,以支持基于数据的城市和空间方案决策支持。
论文为每个测试用例自主标注前5个关键词,并打算准确率(Acc),即论文的模型在可以接管的语义变革范围内能否预测出与论文预期相同的关键词。

文本评估:LLM可以通过评估各种项目的可行性、可持续性和社区影响,帮助城市方案师评估城市方案方案,从而供应客不雅观的评估和建议。
值得把稳的是,论文通过为每段笔墨分配0到3的风格等级来简化评估过程,将其处理为一个分类任务,以准确率(Acc)和F1分数为指标。
此外,论文利用演习好的模型自动评估两个任务,并报告分数(PlanEval)。

2.3.1.2 离线结果2.3.1.2.1 常见城市方案任务评估

对付上述任务,论文选择了ceval和cmmlu排行榜上评分较高的谈天模型,在零样本或少样本条件下进行试验。
试验结果及相应的评估指标记录在表2中。
在四项任务中,PlanGPT明显优于所有规模相似的其他模型,包括专有模型如ChatGPT,与城市方案师的认知高度吻合。
PlanEval与人类评估的均匀斯皮尔曼干系系数达79%,反响了PlanGPT在评估文本方面的有效性。
但是,它在进行细微区分时仍面临寻衅,例如“最佳”和“良好”质量之间的区分。
此外,论文演示了模型在问答过程中的表现。

(1)为何不该用更大规模的模型,如330亿参数或以上?试验结果表明,微调更小的模型就可以达到方案师的满意结果。
考虑到各地区城市方案机构的有限预算和硬件配置,论文认为精心定制的更小模型已经足够胜任城市方案领域的特界说务。

(2)为何不该用提示学习来完成任务?在仔细制作ChatGLM3的提示并将其在2样本条件下的表现与PlanGPT在0样本条件下的表现进行比较后,试验结果仍显示人类评估存在明显差距。
在某些任务中,ChatGLM3-2样本的表现乃至低于0样本条件。
论文认为不雅观察到的差异可以归因于两个紧张成分。
首先,LLM固有的指令遵照能力的限定可能阻碍它们对繁芜任务的理解和实行。
其次,高下文长度的限定可能阻碍模型区分城市方案文本中的共性的能力。
此外,方案师可能难以设计繁芜的提示,影响事情效率。

(3)为何不该用GPT、Gemini、Claude2等前辈模型,或来自GLM4、Kimi谈天等在线平台的模型?城市方案领域对数据隐私有极强的关注,与政府高度干系。
城市方案机构优先考虑机构内的数据安全,以防数据透露。

2.3.1.1.2.2 城市方案知识评估

为确保公正和全面性,论文利用CEval中的urban_and_rural_planner_test,简称v1,包含418个问题。
C-Eval被认为是根本模型的可信赖的中文评估套件,包含13,948个多项选择题,超过52个不同学科和四个难度级别。

此外,为了更广泛地评估模型的城市方案能力,论文手动整理了约3500个评估问题,包括过去十年城市和屯子方案考试的真实问题,形成urban_and_rural_planner_test v2。
论文打算了两个评估之间的分数比率δ,个中更高的值表示对模型能力的更老实的评估。
值得把稳的是,

论文严格遵照了lm-harness-test和C-Eval推举的提示模板,选择概率最高的选项。
采取零样本设置,论体裁系地测试了排行榜上可比规模的模型,并报告了它们的分数,如表3所示。
在利用第3.2.1节先容的核心数据集进行微调后,论文的模型在相似规模的开源模型中达到了最前辈的性能。
与根本模型比较,其准确率提高了约5%。
此外,δ值靠近0.8表示论文的模型的老实性和领域泛化能力。

2.3.1.2.3 评估Plan-Emb在表达城市方案专业术语和措辞系统中的闇练程度

为评估Plan-Emb在表达城市方案专业术语和措辞系统方面的表现,论文采取前面所述的方法天生了urban-rural-STS-B-test(URSTS-B),其由两级组成:0表示无关,1表示词语及其阐明之间存在较强干系性。
论文严格评估了Plan-Emb各个阶段在URSTS-B和其他通用数据集上的表现,采取斯皮尔曼干系系数进行评估。
如表4所示,显然在微调阶段的帮助下,Plan-Emb在城市方案方面携带的信息明显多于任何通用模型,这表明论文的嵌入策略具有卓越的聚合效能。
此外,值得把稳的是,随着演习的进展,BERT-cse明显优于BERT-base,这突出了第一阶段预演习的关键主要性。

Plan-Emb和BERT-cse之间的t-SNE投影可视化如图4所示。
从标记的例子可以得出结论,在大多数情形下,Plan-Emb学习城市和屯子方案中的关系要比BERT-cse好得多。
“地皮利用”和“利益”这些词汇以及代表古都型和文物的词汇在Plan-Emb的t-SNE投影空间中的间隔明显小于BERT-cse。

其余,标准住宅平面布局、培植用地方案容许证和方案总面积示意图这些表示区域方案领域知识的词汇在Plan-Emb中也表现出更好的聚合特性。

2.3.1.2.4 向量-LLM的勉励研究

在向量LLM上进行了勉励实验,以证明自定义模块对提高下贱任务性能的有效性。
遵照之前的实验设置设计,论文从大规模语料库中提取适当的段落来回答urban_and_rural_planner_test中的问题,并打算score@k,表示在前k个段落中回答精确问题的准确率。

为确保公正性,禁用了网络检索工具,模型判断仅基于高下文和内在知识。
论体裁系地去除了Plan-Emb和Plan-HS,并记录了实验结果,如表5所示。
论文的创造表明,去除任何任务组件都会导致性能低落。

详细来说,去除每个组件(Plan-Emb和Plan-HS)分别导致0.7%和3.6%的得分低落。
这间接突出了Plan-Emb在表达城市方案文本方面的卓越能力。
其余,值得把稳的是,Plan-HS有效地办理了与低信噪比文本相关的问题,大大提高了信息利用率和准确性。

2.3.1.3 案例研究

在本节中,论文将谈论现实天下城市方案领域的干系任务,并供应潜在办理方案。

2.3.1.3.1 任务:审查

如第1节广泛谈论的,审查是城市方案机构员工的紧张任务,它占用了大量韶光。
通过利用向量LLM识别文档查询的参考标准,然后利用PlanAgent进行审查,论文认为LLM可以检测文本中的不一致、不准确或差异,确保城市方案方案的完全性和质量。

然而,在实际事情中,论文创造只管利用繁芜的提示,大型模型的输出每每无法与人类意识对齐,表现出两个极度:要么检测出可以忽略的细微缺点,要么过度放宽标准,导致召回率降落。
论文的办理方案是利用GPT-4随机在城市方案文本中引入部分缺点,并指明其位置。
论文的员工然后识别缺点缘故原由,将其分类为三种类型:

事实缺点拼写/语法缺点文体缺点(包括有害措辞)

起初,论文提升了大规模模型识别缺点存在的认知能力。
随后,论文指示它们标识和标记缺点。

2.3.1.3.2 任务:评估

在城市方案领域,文本评估是一个繁芜的任务,包括验证文本的框架,审查文本的细节和文体(如前述审查步骤),以及对整体文档性子的评分。
文档的整体性子包括新颖性、可行性和效用。

新颖性:评估与历史城市方案的差异和联系。
可行性:城市方案须要考虑当地经济水平、地理条件和人际关系等综合条件。
效用:城市方案是否能办理实际问题。

在实际操作中,论文的办理方案如下:

新颖性:论文将利用向量LLM快速检索和匹配历史城市方案。
可行性:PlanAgent集成了网络搜索工具和多模态能力来办理。
效用:为评估拟议操持的有效性,论文将开拓一个仿照环境,多个PlanAgent将参与角色扮演活动。
通过仿照互动和情景剖析,可以在不同环境中评估该操持的有效性。

论文标题:PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

论文链接:https://arxiv.org/pdf/2402.19273.pdf