助力解决图基础模型可信任危机,科学家设计新型大模型微调方法,可用于金融科学等领域
图数据是一种遍布于微观世界(如蛋白质、细胞、化学分子)和宏观世界(如知识图谱、金融交易网、社交网络)的数据类型。相较于传统意义上的图片、音频和视频,它具有自己独特的几何结构。
而在深度学习或人工智能领域以图数据为基础的一类方法,则被叫做图基础模型。
近年来,人工智能技术的快速发展,推动图基础模型在多个领域获得广泛应用,并取得令人瞩目的进展。
尽管如此,截至目前,其依旧存在决策不可靠、推理不稳定、模型不透明、模态不对齐、价值不以人为本等诸多可信任危机。
中国科学技术大学王翔教授的研究着眼于“可信赖的图基础模型”。他秉持着“以人为本”与“技术向善”的信念,围绕增强图基础模型的“精确性-泛化性-可解释性-价值对齐”这一完整科学链条开展研究,助力这类模型更好地应用于科学、金融等关键领域。
具体来说:
针对精确性,他将图基础模型引入个性化推荐场景,与协同过滤、知识图谱等进行有机结合,大幅提高了个性化推荐的准确度。
针对泛化性,他将因果推理引入泛化机制,捕捉开放环境里多变分布中稳定不变的因果性,提升图基础模型的泛化鲁棒性。
针对可解释性,他探索知识驱动的“事前-事中-事后”全周期解释框架,突破纯数据驱动下的黑盒瓶颈。
针对价值对齐,他在考虑图数据-语言大模型存在的模态差异和人机价值差异的基础上,设计了面向模态对齐和偏好对齐的微调方式,开发了以2D图、3D图、图交互为核心的多模态AIforScience大模型,促使大模型能够可信地理解、生成化学分子与蛋白质。
凭借聚焦于“可信赖的图基础模型”这一领域,在推荐大模型方向实现了对人类行为和价值观的可信建模与对齐,在生化大模型方向实现了对化学分子和蛋白质的可信理解与生成,王翔成为2023年度《麻省理工科技评论》“35岁以下科技创新35人”中国入选者之一。
开发模态对齐微调方式与鲁棒偏好学习方法,攻克图基础模型可信任危机
当下,那些仅利用纯文本数据训练而成的大模型,只能理解和生成文本,无法理解和生成图片、视频、图数据等其他模态的数据,这就会导致模态不对齐问题的出现。
在这种情况下,当我们向大模型输入一个知识图谱或一个化学分子,并向它提问相关问题时,它给出的回答在大多数时候既不靠谱,又容易出错。
为解决这一问题,王翔与合作者提出了一种面向模态对齐的微调方式。
从技术上看,该方法主要分为三步。
第一步,收集数据。比如,在给定一个化学分子的前提下,需要收集与它相关的化学活性、结构属性等一系列文本数据。
第二步,进行表征学习。将此前收集到化学文本数据,投影到大模型的语言空间中。
第三步,为大模型设计一些具有条件性质的损失(loss),助力解决图基础模型可信任危机,科学家设计新型大模型微调方法,可用于金融科学等领域并基于此进行微调,从而让大模型获得理解多模态数据的能力。(编者注:在人工智能领域,损失(loss)这一概念主要用来评估模型预测值与真实值之间的差距。)
“在此基础上,我们再把扩散模型嫁接到大语言模型上,让它具备生成化学分子和化学结构的能力。”王翔表示。
据他介绍,目前这套范式已经在化学分子大模型和推荐系统大模型上得到验证,既能很好地处理和生成化学分子和蛋白质等图数据,又可以实现对人类行为和价值观的可信建模与对齐。
如上所说,价值不以人为本,也是图基础模型面临的一种可信任危机,并且在现有的大模型场景中异常突出。
“由于人类价值观包含的范围非常广泛,因此由图基础模型生成的内容,既可能与人类的偏好不一致,又可能与人类的价值观相违背。”王翔表示。
那么,出现这种情况的背后原因是什么呢?
“该领域的研究者目前也在探讨这背后的机理。我个人认为是大模型以数据驱动为主的训练范式导致的。简单来说,大模型在训练过程中,仅仅机械式地拟合人类创造的所有数据,这就造成一些代表破坏性和偏见性的噪声数据也会被大模型吸收。”王翔解释道。
而为克服这个问题,王翔与合作者提出了一种鲁棒偏好学习方法,能够优化大模型的训练过程,从噪声数据中寻找符合人类价值和行为的偏好数据,进而帮助大模型做出可信的预测和决策。
在第一个算法中,他们通过设计一种新的loss,即增加一个分布鲁棒优化(DRO,DistributionallyRobustOptimization)算法的项,就能实现在偏好数据中去除噪声使偏好更加鲁棒的目标。
在第二个算法中,他们设计一种直接偏好优化(DPO,DirectPreferenceOptimization)算法,通过动态地调整其中的贝塔参数,让模型可以自动地选择那些高质量的用户偏好数据。
值得一提的是,研究人员之所以能够开发出这种鲁棒偏好学习方法,很大程度上得益于在大模型诞生之前,他们曾研究过大模型的鲁棒性增强这一问题,并从理论上证明了DRO和DPO之间存在一种极强的关系。
正是基于上述方法,王翔有效地推动了大模型在金融和科学等领域的可信应用。
“在金融领域,我更关注面向网络用户的个性化推荐,希望帮助用户更快更智能地找到自己想要的信息,或购买需要的商品。”王翔说。
在这方面,他和团队开发了一款名为LLaRA[1]的大型语言推荐助手,能够在理解用户过去行为偏好的前提下,为其推荐更加精准的个性化内容。
在科学领域,他和团队首先开发了分子图-语言建模方法MolCA[2],能够帮助大模型理解2D结构的化学分子,并完成相关问答和性质预测等任务。
在此基础上,他们又提出三维分子语言建模方法3D-MoLM[3],让大模型可以实现对3D分子结构的解析和分析。
计划探索智能体博弈技术,让大模型为人类决策提供有效推演和辅助
据王翔介绍,他成长于山西省的一个普通县城,父母都在严谨且规律的银行系统工作,并给予他略显严肃但充满爱与温馨的家庭氛围。
“正是这样的家庭与成长环境,让我从小在稳定、自律的表层下,养成了一种隐性的‘叛逆’内核,也在无形中塑造了我面对科研工作时的思维模式,即大部分时候‘按部就班’,但在一些关键问题上‘遵从内心’。”王翔说。
2010年,他考入北京航空航天大学计算机科学与技术专业;2014年至2019年间,在新加坡国立大学人工智能实验室NExT 完成博士学业,师从蔡达成(ChuaTat-Seng)教授。
正是在博士阶段,他接触到当时已成燎原之火的人工智能,并选择智能信息推荐与可信图深度学习,作为自己的研究方向。
博士毕业后的三年时间里,他继续在该实验室从事博后研究。
2022年,他以国家高层次青年人才身份入职中国科学技术大学,担任教授和博士生导师。
现阶段,除了专注于图基础模型研究,他也将目光放到了探索大模型驱动的智能体博弈技术。
“从智能体的合作模式出发,我们可以想象在一个沙盒或一个虚拟世界中,有N个智能体存在。其中,每个智能体可以自主地完成一些任务,它们的输入和输出之间不会产生任何交集。并且,它们也可以通过合作或非合作的方式,来实现某个共同的目标。”王翔解释道。
具备上述能力的智能体,足以理解以及模拟复杂的博弈场景,譬如经济市场、社会互动等,以提高模型在现实世界应用中的准确性和可靠性。
例如,可以通过打造一个沙盒世界,让智能体在其中扮演每一个真实人类。研究者可以在智能体上施加一些社会性实验,并观察他们的所作所为会对这个沙盒世界产生哪些影响。推演出的最终结果,则有助于为真实世界的人类决策带来可信性较高的辅助参考。
在这方面,他提出了一种基于推荐场景的用户模拟器Agent4Rec[4],评估了由大模型赋能的生成式智能体,能在多大程度上忠实模拟推荐系统中真实、自主的人类行为。
不过,王翔也指出:“由于当下智能体的发展势头方兴未艾,因此我们目前正处于大量的探索和验证中。”
参考资料:
1.LiaoJ,LiS,YangZ,etal.Llara:Largelanguage-recommendationassistant.Proceedingsofthe47thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2024:1785-1795.https://doi.org/10.48550/arXiv.2312.02445
2.LiuZ,LiS,LuoY,etal.MolCA:Moleculargraph-languagemodelingwithcross-modalprojectoranduni-modaladapter.arXiv
:2310.12798.https://doi.org/10.48550/arXiv.2310.12798
3.LiS,LiuZ,LuoY,etal.Towards3dmolecule-textinterpretationinlanguagemodels.arXiv
:2401.13923.https://doi.org/10.48550/arXiv.2401.13923
4.ZhangA,ChenY,ShengL,etal.Ongenerativeagentsinrecommendation.Proceedingsofthe47thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2024:1807-1817.https://doi.org/10.48550/arXiv.2310.10108
运营/排版:何晨龙