开云体育- 开云体育官方网站- APP下载 KAIYUN SPORTS热点更新云顶娱乐官网手机网页版_社会新闻_大众网

2025-06-15

  开云体育官方,开云体育app,开云app下载,开云棋牌,开云官网,开云体育,开云电竞,开云,开云体育官网, 开云体育平台, 世界杯开云, 开云体育app下载, 开云体育网址, 开云体育2025

开云体育- 开云体育官方网站- 开云体育APP下载 KAIYUN SPORTS热点更新云顶娱乐官网手机网页版_社会新闻_大众网

  由华东师范大学李翔老师带领的的Planing Lab团队推出高效解决方法E²GraphRAG

  并且值得关注的是,该方法在构建索引时间上是GraphRAG的1/10,在查询时间上是LightRAG的1/100

  现有的RAG方法中,大部分都是依赖于文本知识库,通过向量检索的方式,从中检索到与问题相关的一些文档片段作为补充知识。

  这种方法难以实现对整个文档知识库的全局理解,比如通过普通RAG的方法,模型仍然无法回答“这篇小说的主旨是什么”这类问题。

  为了解决对知识库的全局理解问题,RAPTOR提出了先对文档块进行聚类,然后递归构建文档总结树,然后在这个文档总结树上进行向量查询的方法,来引入不同粒度的信息;

  GraphRAG则利用了大模型强大的信息抽取能力,由大模型从逐个文档块中抽取出三元组,然后构成一张图,之后再通过图分割算法分割成多个社区,再由大模型对社区进行总结,从而得到了不同粒度的信息。

  然而,GraphRAG在图构建以及查询的过程中需要调用太多次大模型,导致其开销过重,难以实用。

  为了解决这一问题,LightRAG让大模型一次性抽取出所有粒度的三元组,从而减少了总结不同社区带来的大模型调用开销;

  FastGraphRAG则是在查询的过程中利用了PageRank算法来聚合全局信息,从而避免了查询时的大模型开销。

  严重依赖于大模型自身的能力,当模型参数量较小或者不支持Json格式输出的时候,这些方法难以实现;

  因此,本文中提出通过使用SpaCy来进行文档中的实体识别,利用实体之间的句现关系构成一张图,然后利用大模型对文档块按顺序递归总结,将其构建成不同粒度的文档总结树,之后结合利用图和树来进行查询,实现高效率、高性能。

  首先和普通RAG一样,先将长文档进行分块,本文中选取1200tokens一块,相邻块间有100tokens的重叠,follow了LightRAG的实验设置。然后构建阶段主要有两个任务:

  利用LLM递归总结文档树:将文档块按照顺序排列,每g个文档块一组,交给大模型来进行内容总结,由于文档块是连续的,这里的相邻文档块之间的重叠可以合并,节约token消耗;

  通过这种方式,团队得到了不同层次、不同粒度的信息,越接近根节点,信息越全局;

  利用SpaCy抽取实体图:对于每一个文档块,团队利用SpaCy抽取其中的实体以及名词(他们可能是潜在的实体的代称),然后在同一句子内出现的实体以及名词之间构建连边,体现二者之间存在一定关系。

  然后将所有的文档块对应的子图合并到一起,构成一个针对整个文档中的实体关系的实体图。

  同时,团队构建两个index,来描绘文档和实体之间的关系,即文档块中抽取出哪些实体,一个实体能从哪些文档块中抽取出来。

  通过这两个任务,团队得到了上图中的四种数据结构以及两个索引,即总结节点、文档节点、实体、边;以及实体到文档块的一对多索引,文档块到实体的一对多索引。

  团队的检索方式可以根据问题的内容来自动选择local or global的检索方式,为了区分这两种检索方式,在下文中用斜体来表示global检索,以示区分。

  利用SpaCy从问题中抽取出来实体,然后将这些实体两两组合(无序),假设有n个实体,团队会得到*个候选实体对(即图中Entity Extraction步骤)。如果步骤1中不存在实体,那么认为这是一个全局的问题,同时无法利用实体信息来辅助检索,直接通过向量检索的方式,从文档树上检索到相关的文档块。候选实体对中肯定存在噪声,因此拿它到团队构建好的图中去过滤,即两个实体如果在图中的距离超过h跳,那么就认为他们是无关的,将其排除(即图中Graph Filtering步骤)。根据上一步剩余的实体对数量,团队如果有剩余的实体,进行5的local检索,如果没有,则执行步骤6的全局检索:如果有剩余的实体对,团队利用实体到文档块的索引将每个实体对中的两个实体映射到各自对应的文档块上,然后对这两个文档块集合取交集,即得到了和这两个实体均相关的文档块(即图中的Index Mapping步骤)。如果没有剩余的实体对,那么也就意味实体并非紧密相关,那么这也更可能是一个全局查询,因此团队首先通过向量检索检索到树上的top- 2k个相关的文档块作为候选;然后由于问题中也有实体,因此实体可以辅助进行查询,即计算每一个候选文档块中实体的出现次数作为权重,如果这个候选文档块是总结块,那么其对应的权重即为其子节点的权重之和,向下一直递归。这样的设计自然会给总结块更高的权重,自然符合了这是一个全局查询的假设(即图中的Occurrence Ranking步骤)。如果步骤5返回了超过k个文档, 那说明团队的约束太松,因此团队令h =h-1,然后重新执行步骤5,循环至只剩下不超过k个文档。如果步骤7返回了0个文档,那么取缩紧约束之前的一个查询结果,从其中进行筛选,具体筛选指标为:看这个文档包含了多少个不同的问题相关的实体;看这个文档中问题相关的实体出现了多少次。

  团队首先比较指标1,当指标1打平时,比较指标2,取最高的k个文档作为结果。

  团队在7-8B的相对易部署的模型上进行实验,确保了该方法在资源受限的情况下仍然能够有良好表现。

  在性能上,在大部分实验设置下超过或者接近了最优的GraphRAG方法,实现了效率与性能的均衡。

  值得关注的是,该方法在构建索引时间上是GraphRAG的1/10,在查询时间上是LightRAG的1/100。

  同时,团队绘制了文档token数量和构建索引时间的散点图,并且拟合成直线。

  团队发现该方法构建索引时间随着文档token数量以最低的斜率线性增长,体现该方法可以扩展到更大的文档上。

  针对团队整体方法必要性的消融:只用向量检索,确保团队的local-global检索系统是有效的;针对local检索的消融:分别以及同时消去Graph Filter以及Entity-aware Ranking,确保团队的local检索的部件是有效的;针对global检索的消融:分别以及同时消去Dense Retrieval以及Occurrence Ranking,发现在NovelQA上出现了一个异常的升高,可能是由于模型的幻觉导致的。

  通过结合树与图,该团队达成了GraphRAG效率与效果的平衡,在该方法中,图主要用于信息点的关系发现以及过滤噪声,而树则主要用于提供具体不同粒度的信息内容,二者各有所长,相互依赖。

  过去的一年,我们围绕中心,大力实施招商引资, 扎实推进重点项目建设。 先后引进 投资51.1亿元 的 中铁置业集团公司合作实施高铁新区起步区建设、投资6.6 亿元的 化工技师学院迁建项目、投资100亿元的奥特莱斯生态购物城项目、投资3 亿元的 世界公园项目、投资5亿元的光大垃圾发电项目顺利招商签约、落户高铁新区。完成投资1.8亿元, 基础设施建设实现投资 7200万元,完成了 平安路项目30 万M3 土方清运和20xx 余米管道铺设部分工程、洪河桥项目底板预制、桩基施工等工程、站前广场综合改造部分工程、联迪商务中心改造工程项目等,新区建设步伐进一步加快。

  一声莽牛咆哮,声传上百里,离火冲天,一头赤红如血的巨牛,高达十几米,长达三十米,自一座裂开的大山中冲出,带着岩浆,裹着火光。

  出成绩就要出在创特色上,“五里不同风,十里不同俗”。不同的地方,不同的条件,只要开动脑筋,就不怕找不出特色。唯我独有是特色,唯我最多是特色,唯我独优是特色,知名度高也是特色。“大道无门,干差有路”只有因时制宜、因地制宜,把特色文章做足了,把优势发挥好了,全乡各项工作才会百花齐花、精彩纷呈。

  据中国青少年研究中心的全国性大型调查发现,安全事故已经成为青少年儿童的第一杀手。我国每年大约有1、6万名中小学生非正常死亡,平均每一天有40多人,也就是说每一天有将近一个班的学生在“消失”。

  06月05日,188元买的“100%山羊绒衫”实为“0羊绒”?二者原材料价差可达三百倍,

  狈风眸子一冷,停止了放箭,轮动多半人高的大弓,猛力抽向那块巨石,轰的一声,这么沉重的一块山石顿时崩裂,散落向四方!

  06月05日,和评理|美新法案禁止国防部采购六家中企电池:于人无益,于己不利,

  2、要联系实际,活学活用。大家在学习的时候,要对照自己的村情,结合各自的实际,有针对性地学,特别是结合工作实践中的疑难问题和薄弱环节,带着问题学,使这次学习培训取得良好效果。我们的各位中层干部,都要结合这次学习内容,立足自身岗位,写一篇高质量的学习体会或论文,月底前交乡组织部。

  新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证

地址:开云体育永久网址【363050.com】 客服热线:363050.com 传真:363050.com QQ:363050.com

Copyright © 2012-2025 开云体育网站 版权所有 非商用版本