澳门新莆京娱乐网站 - 官方注册入口真人视讯棋牌娱乐注册送88元彩金体育app下载
栏目:下载 发布时间:2025-06-13
  澳门新莆京,澳门新莆京娱乐网站,澳门新莆京注册,澳门新莆京app下载,真人视讯,棋牌游戏平台,澳门博彩。澳门新莆京娱乐网站为广大用户提供真人视讯、棋牌游戏、电子游艺等高端娱乐服务,注册送88元体验金,安全稳定,支持APP下载,海量游戏全天开放,尽享澳门级娱乐体验。由华东师范大学李翔老师带领的的Planing Lab团队推出高效解决方法E²GraphRAG   并且值得关注的是,该

  澳门新莆京,澳门新莆京娱乐网站,澳门新莆京注册,澳门新莆京app下载,真人视讯,棋牌游戏平台,澳门博彩。澳门新莆京娱乐网站为广大用户提供真人视讯、棋牌游戏、电子游艺等高端娱乐服务,注册送88元体验金,安全稳定,支持APP下载,海量游戏全天开放,尽享澳门级娱乐体验。由华东师范大学李翔老师带领的的Planing Lab团队推出高效解决方法E²GraphRAG

  并且值得关注的是,该方法在构建索引时间上是GraphRAG的1/10,在查询时间上是LightRAG的1/100

  现有的RAG方法中,大部分都是依赖于文本知识库,通过向量检索的方式,从中检索到与问题相关的一些文档片段作为补充知识。

  这种方法难以实现对整个文档知识库的全局理解,比如通过普通RAG的方法,模型仍然无法回答“这篇小说的主旨是什么”这类问题。

  为了解决对知识库的全局理解问题,RAPTOR提出了先对文档块进行聚类,然后递归构建文档总结树,然后在这个文档总结树上进行向量查询的方法,来引入不同粒度的信息;

  GraphRAG则利用了大模型强大的信息抽取能力,由大模型从逐个文档块中抽取出三元组,然后构成一张图,之后再通过图分割算法分割成多个社区,再由大模型对社区进行总结,从而得到了不同粒度的信息。

  然而,GraphRAG在图构建以及查询的过程中需要调用太多次大模型,导致其开销过重,难以实用。

  为了解决这一问题,LightRAG让大模型一次性抽取出所有粒度的三元组,从而减少了总结不同社区带来的大模型调用开销;

  FastGraphRAG则是在查询的过程中利用了PageRank算法来聚合全局信息,从而避免了查询时的大模型开销。

  严重依赖于大模型自身的能力,当模型参数量较小或者不支持Json格式输出的时候,这些方法难以实现;

  因此,本文中提出通过使用SpaCy来进行文档中的实体识别,利用实体之间的句现关系构成一张图,然后利用大模型对文档块按顺序递归总结,将其构建成不同粒度的文档总结树,之后结合利用图和树来进行查询,实现高效率、高性能。

  首先和普通RAG一样,先将长文档进行分块,本文中选取1200tokens一块,相邻块间有100tokens的重叠,follow了LightRAG的实验设置。然后构建阶段主要有两个任务:

  利用LLM递归总结文档树:将文档块按照顺序排列,每g个文档块一组,交给大模型来进行内容总结,由于文档块是连续的,这里的相邻文档块之间的重叠可以合并,节约token消耗;

  通过这种方式,团队得到了不同层次、不同粒度的信息,越接近根节点,信息越全局;

  利用SpaCy抽取实体图:对于每一个文档块,团队利用SpaCy抽取其中的实体以及名词(他们可能是潜在的实体的代称),然后在同一句子内出现的实体以及名词之间构建连边,体现二者之间存在一定关系。

  然后将所有的文档块对应的子图合并到一起,构成一个针对整个文档中的实体关系的实体图。

  同时,团队构建两个index,来描绘文档和实体之间的关系,即文档块中抽取出哪些实体,一个实体能从哪些文档块中抽取出来。

  通过这两个任务,团队得到了上图中的四种数据结构以及两个索引,即总结节点、文档节点、实体、边;以及实体到文档块的一对多索引,文档块到实体的一对多索引。

  团队的检索方式可以根据问题的内容来自动选择local or global的检索方式,为了区分这两种检索方式,在下文中用斜体来表示global检索,以示区分。

  利用SpaCy从问题中抽取出来实体,然后将这些实体两两组合(无序),假设有n个实体,团队会得到*个候选实体对(即图中Entity Extraction步骤)。如果步骤1中不存在实体,那么认为这是一个全局的问题,同时无法利用实体信息来辅助检索,直接通过向量检索的方式,从文档树上检索到相关的文档块。候选实体对中肯定存在噪声,因此拿它到团队构建好的图中去过滤,即两个实体如果在图中的距离超过h跳,那么就认为他们是无关的,将其排除(即图中Graph Filtering步骤)。根据上一步剩余的实体对数量,团队如果有剩余的实体,进行5的local检索,如果没有,则执行步骤6的全局检索:如果有剩余的实体对,团队利用实体到文档块的索引将每个实体对中的两个实体映射到各自对应的文档块上,然后对这两个文档块集合取交集,即得到了和这两个实体均相关的文档块(即图中的Index Mapping步骤)。如果没有剩余的实体对,那么也就意味实体并非紧密相关,那么这也更可能是一个全局查询,因此团队首先通过向量检索检索到树上的top- 2k个相关的文档块作为候选;然后由于问题中也有实体,因此实体可以辅助进行查询,即计算每一个候选文档块中实体的出现次数作为权重,如果这个候选文档块是总结块,那么其对应的权重即为其子节点的权重之和,向下一直递归。这样的设计自然会给总结块更高的权重,自然符合了这是一个全局查询的假设(即图中的Occurrence Ranking步骤)。如果步骤5返回了超过k个文档, 那说明团队的约束太松,因此团队令h =h-1,然后重新执行步骤5,循环至只剩下不超过k个文档。如果步骤7返回了0个文档,那么取缩紧约束之前的一个查询结果,从其中进行筛选,具体筛选指标为:看这个文档包含了多少个不同的问题相关的实体;看这个文档中问题相关的实体出现了多少次。

  团队首先比较指标1,当指标1打平时,比较指标2,取最高的k个文档作为结果。

  团队在7-8B的相对易部署的模型上进行实验,确保了该方法在资源受限的情况下仍然能够有良好表现。

  在性能上,在大部分实验设置下超过或者接近了最优的GraphRAG方法,实现了效率与性能的均衡。

  值得关注的是,该方法在构建索引时间上是GraphRAG的1/10,在查询时间上是LightRAG的1/100。

  同时,团队绘制了文档token数量和构建索引时间的散点图,并且拟合成直线。

  团队发现该方法构建索引时间随着文档token数量以最低的斜率线性增长,体现该方法可以扩展到更大的文档上。

  针对团队整体方法必要性的消融:只用向量检索,确保团队的local-global检索系统是有效的;针对local检索的消融:分别以及同时消去Graph Filter以及Entity-aware Ranking,确保团队的local检索的部件是有效的;针对global检索的消融:分别以及同时消去Dense Retrieval以及Occurrence Ranking,发现在NovelQA上出现了一个异常的升高,可能是由于模型的幻觉导致的。

  通过结合树与图,该团队达成了GraphRAG效率与效果的平衡,在该方法中,图主要用于信息点的关系发现以及过滤噪声,而树则主要用于提供具体不同粒度的信息内容,二者各有所长,相互依赖。

  同学们,我们要时刻提醒自己:珍惜时间,用心学习,让自己人生的每一步都走得扎扎实实。

  ,恒彩88注册登录,澳门哪能玩梭哈,大发体育在线德文厦门工学院马拉松赛开跑,

  各位家长知道动物之王老虎是怎么培养幼虎的吗?据专家提供的资料讲解:母虎培养幼虎有三个过程,开始,它出去捕食回来,把最嫩的肉用爪子斯成肉片,喂给幼虎吃,后来,它捕食回来,自己把肉吃掉,把剩下的骨头扔给幼虎,再后来,它捕食回来,自己把肉吃掉,把骨头扔掉,幼虎上前要吃,它就冲着它怒吼,伸出爪子抵挡,不让幼虎吃,这样过了好几天,幼虎饿得实在受不了,就会离开母亲,自己去找食吃。开始,幼虎走了几步,回头来,母虎就冲它怒吼,扬起尖利的前爪,幼虎又转过头去往前走,这样反复几次,直到幼虎真正离开。这种“残忍”的爱,逼幼虎长大。我们人类应该像动物学习。

  ,完美国际体验服,缅甸玉和,澳门百老汇网站注册。06月03日,中国支持央企发起设立创业投资基金 重点投硬科技,“哧,app体育下载安装官方免费下载,日博体育注册彩金,澳门银银河官网app。

  06月03日,广州市一轿车与行人和电动自行车发生碰撞致11伤 肇事司机已被控制,

  ,微信红包充值捕鱼游戏,bet366app下载手机版,金沙在线个点,勤奋学习、快乐生活、全面发展是我们党前一代领导人_在全国第五次少代会上向全国青少年提出的希望。勤奋学习,是我们的主要任务;快乐生活,是我们的迫切需求;全面发展,是我们的成长目标。希望同学们在新学期中,严格要求自己,付出更多的努力,珍惜每一天大好的时光,学会学习,学会做人,学会生活,学会劳动,学会审美,促进每一个人生动、活泼、主动、全面地发展。,在线斗地主网络,kok平台app,赌钱奔驰宝马。

  宝骨莹莹发光,散发瑞霞,弥漫出混沌气,小不点这一次是如此的祥和宁静,完全的投入了进去。

  ,太阳娱乐场官网下载,必威网页手机版,线日,京津冀地区首艘智利直航“车厘子快线、掌握必须的消防安全常识。如遇到火警应立刻逃到安全的地方,然后打119报警。值得注意的是,在我们学校,上个礼拜举行过一次消防疏散演习,同学们也掌握了必须的知识。但我们的教师和同学还要增强意识,随时留意安全消防报警讯号,遇到突发情景学会逃生自救。