百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测新数据

cac55 2024-09-19 16:56 28 浏览 0 评论

OpenGraph 投稿向 凹非寺

量子位 | 公众号 QbitAI

图学习领域的数据饥荒问题,又有能缓解的新花活了!

OpenGraph,一个基于图的基础模型,专门用于在多种图数据集上进行零样本预测。

背后是港大数据智能实验室的主任Chao Huang团队,他们还针对图模型提出了提示调整技术,以提高模型对新任务的适应性。

目前,这项工作已经挂上了GitHub。

据介绍,这项工作主要深入探讨增强图模型泛化能力的策略(特别是在训练和测试数据存在显著差异时)

而OpenGraph旨在通过学习通用的图结构模式,并仅通过前向传播进行预测,实现对全新数据的零样本预测。

为了实现目标,团队解决了以下3点挑战:

  • 数据集间的token差异:不同图数据集常有不同的图token集,我们需要模型能够跨数据集进行预测。
  • 节点关系建模:在构建通用图模型时,有效地建模节点关系至关重要,这关系到模型的扩展性和效率。
  • 数据稀缺:面对数据获取的难题,我们通过大型语言模型进行数据增强,以模拟复杂的图结构关系,提升模型训练质量。

通过一系列创新方法,如拓扑感知的图Tokenizer和基于锚点的图Transformer,OpenGraph有效应对上述挑战,在多个数据集上的测试结果证明了模型的出色泛化能力。

OpenGraph模型

OpenGraph模型架构主要由3个核心部分组成:

1)统一图Tokenizer;
2)可扩展的图Transformer;
3)基于大语言模型的知识蒸馏技术。

首先来说说统一图Tokenizer

为了适应不同数据集的节点和边的差异,团队开发了统一图Tokenizer,它将图数据标准化为token序列。

这一过程包括高阶邻接矩阵平滑化和拓扑感知映射。

高阶邻接矩阵平滑化即利用邻接矩阵的高阶幂来解决连接稀疏的问题,而拓扑感知映射则是将邻接矩阵转换为节点序列,并使用快速奇异值分解(SVD)最小化信息损失,保留更多的图结构信息。

其次是可扩展的图Transformer

在token化后,OpenGraph使用Transformer架构模拟节点间的依赖,主要采用以下技术优化模型性能和效率:

一来是token序列采样,通过采样技术减少模型需要处理的关系数量,从而降低训练的时间和空间复杂度。

二来是锚点采样的自注意力机制。此方法进一步降低计算复杂度,通过分阶段学习节点间的信息传递,有效提高模型的训练效率和稳定性。

最后是大语言模型知识蒸馏

为了应对培训通用图模型时面临的数据隐私和种类多样性问题,团队从大语言模型(LLM)的知识和理解能力中获得灵感,使用LLM生成各种图结构数据

这一数据增强机制通过模拟真实世界图的特征,有效提升了数据的质量和实用性。

团队还首先生成适应特定应用的节点集,每个节点拥有文本描述以便生成边。

在面对如电子商务平台这种大规模节点集时,研究人员通过将节点细分为更具体的子类别来处理。

例如,从“电子产品”细化到具体的“移动电话”“笔记本电脑”等,此过程反复进行,直到节点精细到接近真实实例。

提示树算法则按树状结构将节点细分,并生成更细致的实体。

从一般的类别如“产品”开始,逐步细化到具体的子类别,最终形成节点树。

至于边的生成,利用吉布斯采样,研究人员基于已生成的节点集来形成边。

为了减少计算负担,我们不直接通过LLM遍历所有可能的边,而是先利用LLM计算节点间的文本相似度,再通过简单的算法判断节点关系。

在此基础上,团队引入了几种技术调整:

  • 动态概率标准化:通过动态调整,将相似度映射到更适合采样的概率范围内。
  • 节点局部性:引入局部性概念,只在节点的局部子集间建立连接,模拟现实世界中的网络局部性。
  • 图拓扑模式注入:使用图卷积网络修正节点表示,以更好地适应图结构特征,减少分布偏差。

以上步骤确保了生成的图数据不仅丰富多样,而且贴近现实世界的连接模式和结构特性。

实验验证与性能分析

需要注意,该实验专注于使用仅由LLM生成的数据集训练OpenGraph模型,并在多样化的真实场景数据集上进行测试,涵盖节点分类和链接预测任务。

实验设计如下:

零样本设置

为了评估OpenGraph在未见过的数据上的表现,我们在生成的训练集上训练模型,然后在完全不同的真实测试集上进行评估。确保了训练和测试数据在节点、边和特征上均无重合。

少样本设置

考虑到许多方法难以有效执行零样本预测,我们引入少样本设置,基线模型在预训练数据上预训练后,采用k-shot样本进行微调。

在2个任务和8个测试集上的结果显示,OpenGraph在零样本预测中显著优于现有方法。

此外,现有预训练模型在跨数据集任务中的表现有时不如从头训练的模型。

图Tokenizer设计影响研究

同时,团队探索了图Tokenizer设计如何影响模型性能。

首先,通过实验发现,不进行邻接矩阵平滑(平滑阶数为0)会显著降低性能,说明平滑处理的必要性。

然后,研究人员尝试了几种简单的拓扑感知替代方案:跨数据集的独热编码ID、随机映射和基于节点度数的表示。

实验结果显示,这些替代方案性能均不理想

具体来说,跨数据集的ID表示效果最差,基于度数的表示也表现不佳,而随机映射虽稍好,但与优化的拓扑感知映射相比,性能差距明显。

数据生成技术的影响

团队调查了不同预训练数据集对OpenGraph性能的影响,包括使用基于LLM的知识蒸馏方法生成的数据集,以及几个真实数据集。

实验中比较的预训练数据集包括从团队生成方法中移除某项技术后的数据集、2个与测试数据集无关的真实数据集(Yelp2018和Gowalla)、1个与测试数据集类似的真实数据集(ML-10M)

实验结果显示,生成数据集在所有测试集上均展示了良好性能;三种生成技术的移除都显著影响了性能,验证了这些技术的有效性。

使用与测试集无关的真实数据集(如Yelp和Gowalla)训练时,性能有时候会下降,这可能是由于不同数据集之间的分布差异。

ML-10M数据集在与之类似的测试数据集(如ML-1M和ML-10M)上取得了最佳性能,突显了训练和测试数据集相似性的重要性。

Transformer采样技术的研究

在这部分实验中,研究团队探讨了图Transformer模块中使用的两种采样技术:

token序列采样(Seq)锚点采样(Anc)

他们对这两种采样方法进行了详细的消融实验,以评估它们对模型性能的具体影响。

实验结果表明,无论是token序列采样还是锚点采样,两者都能在训练和测试阶段有效地减少模型的空间和时间复杂度。这对于处理大规模图数据尤为重要,可以显著提高效率。

从性能的角度分析,token序列采样对模型的整体性能产生了正面影响。这种采样策略通过选取关键的token来优化图的表示,从而提高了模型处理复杂图结构的能力。

相比之下,在ddi数据集上的实验显示,锚点采样可能对模型性能产生负面影响。锚点采样通过选择特定的节点作为锚点来简化图结构,但这种方法可能会忽略一些关键的图结构信息,从而影响模型的准确性。

综上所述,虽然这两种采样技术都有其优势,但在实际应用中需要根据具体的数据集和任务需求仔细选择合适的采样策略。

研究结论

本研究旨在开发一个高适应性框架,该框架能够精确地识别和解析各种图结构的复杂拓扑模式。

研究人员的目标是通过充分发挥所提出模型的能力,显著增强模型在零样本图学习任务中的泛化能力,包括多种下游应用。

模型是在可扩展的图Transformer架构和LLM增强的数据增强机制的支持下构建的,以提升OpenGraph的效率和健壮性。

通过在多个标准数据集上进行的广泛测试,团队证明了模型的出色泛化性能。

据了解,作为对图基础模型构建的初步尝试,未来,团队工作将着重于增加框架的自动化能力,包括自动识别噪声连接和进行反事实学习。

同时,团队计划学习和提取各种图结构的通用且可迁移的模式,进一步推动模型的应用范围和效果。

参考链接:

[1]论文:

https://arxiv.org/pdf/2403.01121.pdf

[2]源码库:

https://github.com/HKUDS/OpenGraph

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关推荐

14款健身APP蹿红 看看下载最多的是哪款?

Zombies,Run!($3.99,安卓,iOS)如果你的运动理念是:除非有人追,否则绝不跑起来,那么这款APP应该适合你。Zombies,Run!这款程序把单调的跑步过程变身为躲避僵尸的游戏...

微软官方彩蛋庆祝《回到未来》纪念日

2015年10月21日,是MartyMcFly和Brown博士回到未来的时间。现在,这一天真的到了,那么当时影片中展示的一些科技产品究竟有多少实现了呢?作为一家走在技术前沿的公司,日前,微软就在M...

时尚圈最潮同志情侣 帅到没朋友(同志情侣微信头像)

来源:MSN时尚综合|2015-03-0419:45:15男演员ZacharyQuinto(中)与男模MilesMcMillan(右)于纽约街头公开热吻。情人节这个拥有不同起源传说,最早可以...

IE浏览器阻止过期ActiveX控件或将影响网银的使用

IE浏览器网银IE浏览器网银如果经常使用IE浏览器浏览网页的用户,可能都有遇到过浏览器窗口提示安装ActiveX控件的情况,一般情况下用户也是会选择直接安装。ActiveX控件广义上是指微软公司的整...

如何使Microsoft Band连接到WP设备

如果你幸运地购买到了MicrosoftBand,那么恭喜你。现在我们(winbeta)推出了“帮助系列”,那些尚未买到MicrosoftBand的朋友可以了解设备的一些新功能,以及设备的其他关键特...

毕业生不得不看的五大骗局全揭秘(毕业生防骗)

目前,距离高校大学生毕业已不足100天,大部分毕业生都十分忙碌。论文定稿、答辩,参加招聘、面试等成了应届毕业生的头等大事。但随着毕业季的临近,不法分子专门针对毕业生的诈骗高发期也随之来临。360手机安...

菠萝觅生活是O2O应用流量入口最大的供应商

现在主流的传统O2O生活服务,他们其实都有一个共通点,那就是各行其道。打车有快的,滴滴,外卖有饿了么,买机票有去哪儿网…每个APP都有着自己的核心竞争力。而用户呢?既想拥有海量有趣应用,又担心占用过多...

WP8.1版MSN健康应用,现已支持锁屏计步

IT之家(www.ithome.com):WP8.1版MSN健康应用,现已支持锁屏计步@WP之家报道,微软今天已将必应系列应用品牌归为MSN,除此之外,WP8.1版MSN健康和天气应用也获得一些新的...

短信就能传播手机病毒?看完推理惊呆了!

很多人都收到过一种带网址的陌生短信,有的人会点击网址看看,有的还会在好奇心驱使下回复短信。近日《北京新发现》栏目报道了一起离奇的电信诈骗案,事主耿先生的银行卡从未离身,但是在收到一条带网址的陌生短信,...

微软OneClip:我承包了你的剪贴板(微软onedrive云空间)

不久前,Twitter用户WalkingCat曝光了微软一款名为OneClip的应用。这是一款剪贴板应用,根据描述这款应用将覆盖Windows10(包括桌面和移动)、iOS和Android平台,可以...

Windows 10手机应该是什么样?微博用户给出了概念图

随着Windows10发布的不断临近,WindowsPhone的用户对Windows10的旗舰手机的期望也越来越高,我们WP中文网也在微博上发出了同样的问题,搜集用户对Windows10的硬...

云管家出席武汉2015年支付宝O2O生态峰会

2月4日,蚂蚁金服O2O生态峰会在武汉启幕。此次峰会展现了2015年蚂蚁金服在O2O领域的开放思路和策略,以及合作伙伴对O2O的创新观念及思路分享,吸引了武汉近3000名企业大佬、众多创业者、第三方服...

微软将于下周开启Windows开发中心帐号迁移工作

自下周开始微软将启动Windows开发中心的帐号迁移工作。根据WindowsBuildingApps博客透露Windows开发中心帐号迁移工作将会分为几个阶段。首个阶段从下周开始持续到今年7月份...

如何解绑已经合并的MSN账户和Skype账户?

如果您绑定的账户已经充值,建议您把产品消耗完毕后,再进行解绑。当您需要解绑合并的账户时,可登入Skype点卡账户自助操作。输入Skype或MSN账号、密码登录账户:登录后,可在页面左下角选择语言"中文...

微博账号已显示所属MCN机构,成为目前第二个上线该功能的平台

7月25日,多位网友发现,部分微博大V的个人主页已经显示其所属的MCN机构名称,微博也成为目前第二个上线该功能的平台。【来源:中新经纬】声明:此文版权归原作者所有,若有来源错误或者侵犯您的合法权益,您...

取消回复欢迎 发表评论: