文章详情

在生命科学领域,人工智能(AI)正逐渐展现出巨大的潜力,为科研带来前所未有的突破。近日,美国Arc研究所与NVIDIA公司、斯坦福大学和加州...
2025-04-03 12:25:03
文章详情介绍
在生命科学领域,人工智能(AI)正逐渐展现出巨大的潜力,为科研带来前所未有的突破。近日,美国Arc研究所与NVIDIA公司、斯坦福大学和加州大学伯克利分校等机构合作,发布了迄今为止最大的公开可用生物学AI模型Evo 2,有望彻底改变人们对生命遗传信息的理解和应用。
与初代Evo模型相比,Evo 2拓展了训练数据范围并在架构与数据处理能力上实现了大幅升级。Evo 2基于12.8万个物种基因组的9.3万亿个核苷酸进行训练,涵盖人类和其他动物、植物和其他真核生物,完整版高达400亿参数。Evo 2处理与分析生物数据的能力上远高于现有的同类模型,可广泛应用于生物分子研究、药物研发、 农业、 合成生物等领域。相关内容以预印本形式发表在Arc网站。
2024年11月,Arc研究所团队及美国斯坦福大学团队推出了首个基因组基础模型Evo,能够分析和生成跨DNA、RNA 和蛋白质的生物序列,是基因组研究领域的一个突破性里程碑。Evo训练数据包括80,000 种细菌和古细菌(称为原核生物的简单生物)的基因组及其病毒和其他序列,共涵盖70亿参数。Evo模型核心是其创新的深度学习架构StripedHyena,这是一个结合了29个Hyena层的混合模型,能够克服传统 Transformer模型的限制,使Evo在单核苷酸分辨率下高效处理131kb长度的上下文。该模型能够将微小的序列变化与系统级和有机体级的影响联系起来,弥合分子生物学与进化基因组学之间的差距,是基因组研究领域的一个突破性里程碑。( 查看更多相关内容请点击 )
图:Evo模型
如今,Evo迎来了重大升级——Evo 2。Evo 2基于NVIDIA的DGX Cloud平台构建,并在覆盖生命三域(原核生物、古菌、真核生物)超12.8万个物种基因组上进行训练,累计处理9.3万亿核苷酸序列。与仅关注原核基因组的Evo相比,Evo 2纳入了来自人类、植物以及真核生物域中其他更复杂的单细胞和多细胞物种信息,实现了前所未有的跨物种泛化,并显著拓宽了其应用范围。
在技术层面,Evo 2模型使用了一种名为StripedHyena 2的新架构,其基于卷积的多混合设计,可实现三倍优于传统Transformer的训练效率提升 ;并能捕捉基因组的相互作用,自主学习外显子—内含子边界以及转录因子结合位点等信息。该模型还具有400亿个参数,与Meta、DeepMind或OpenAI发布的当前主流大语言模型处于同一量级。Evo2囊括了生物学的基本语言(DNA、RNA 和蛋白质),显著扩大了上下文窗口,能一次性处理多达100万个碱基对,这使得其能够理解基因组中相距较远部分之间的关联。
“
Arc研究所的联合创始人Patrick Hsu博士表示,这种长上下文处理能力突破基因组远程调控解析的技术瓶颈、解锁了多个分子尺度,可从短生物分子(如tRNA)或基因簇(如操纵子)到整个细菌基因组或真核生物染色体,这使Evo 2成为多模态和多尺度生物建模领域的领导者。
”图:Evo 2模型概述
Evo 2 的扩展训练数据和优化架构使其能够在各种生物应用中表现卓越。
在医疗保健领域,了解哪些基因变异与某种疾病相关,对于治疗方法的研发来说至关重要。初步验证表明,Evo 2模型可以确定基因突变如何影响蛋白质、RNA和生物体适应性,预测BRCA1基因(与乳腺癌和卵巢癌风险相关)致病突变的准确率超90% 。
Evo 2是唯一能够预测编码突变和非编码突变影响的模型。Patrick Hsu博士说道:“对于编码突变的预测,它是第二优秀的模型;但在非编码突变方面,它处于最先进的水平,其超越了DeepMind的AlphaMissense等单任务模型无法对非编码突变进行评估这一局限。”
图:Evo 2预测所有生命领域的蛋白质、 RNA 和生物体适应性的突变效应
由于生物功能并非由单个蛋白质分子独立完成,构建合成基因组可为研究更广泛的生物背景提供有利条件,而Evo 2正致力于此。斯坦福大学化学工程助理教授Brian Hie表示:“到目前为止,许多生物设计都聚焦于分子层面。如果我们有一个强大的模型,能够在完整生物体的尺度上进行生成,这将开启许多具有广泛应用场景的下游任务。”
在预印本论文中,研究团队描述了Evo 2在三项跨越不同基因组复杂程度的设计任务中的表现 :1.线粒体基因组;2.常用最小基因组模型——生殖支原体原核基因组;3.代表真核生物的酵母染色体。在这三项任务中,Evo 2均展现出良好的基因组连贯性。例如,在线粒体基因组设计中,成功构建了编码电子传递链所有成分的基因(由AlphaFold 3预测);在酵母染色体设计中,不仅存在天然同源物,还准确重构了内含子等更复杂的基因组结构。
在农业方面,Evo 2可通过提供对植物生物学的见解并帮助科学家开发更具气候适应性或营养更丰富的作物品种来帮助解决全球粮食短缺问题。在其他科学领域,Evo 2可用于设计生物燃料或设计分解石油或塑料的蛋白质。
此外,预印本还介绍了一种 “生成式表观基因组学” 工作流程,通过设计具有理想染色质可及性的 DNA 序列,来模拟真核基因调控。研究团队正在与华盛顿大学DNA生物学团队合作,计划通过小鼠细胞实验验证其表观基因组设计功能,特别是染色质可及性调控序列的体内有效性。展望未来,Arc研究所将通过构建“虚拟细胞”来进一步探索生物学复杂性。研究团队将Evo 2 视为”操作系统”,或者说是一个基础层,其为广泛的生成性功能基因组学提供了一个平台 ;希望科研界能够在这些基础模型之上进行拓展研究,合理利用这个生物学的“应用商店 ” 。目前,Evo 2已向公众全面开放。专业研究人员可通过NVIDIA BioNeMo平台调用完整功能;公众用户则可通过交互式界面Evo Designer进行基础操作。此外,Evo 2的训练数据集、核心代码以及模型权重均已开源,为全球科研人员提供了宝贵的资源。
最新思能攻略
更多- Google推出的双子座机器人AI模型让我对未来感到惊讶不已
- 原神丘丘梦工坊配方全解析与使用策略分享
- PSP世界传说光明神话2全角色NPC实用性分析与深度探讨
- 阴阳师冬雪相伴活动详细攻略及玩法介绍
- 平价三防 AI 手机来袭!OPPO A5 Pro 5G 現在只需 7,990 元即可享受军规抗摔、IP69/IP68/IP66 三重防尘防水技术以及丰富的 AI
- 英雄联盟无限火力2025年开启时间详细预告-无限火力活动时间安排
- 燕云十六声烈不熄对话的答案究竟是什么-烈不熄对话的答案全揭秘
- 炉石传说深暗领域版本32.0新增成就详尽列表一览
- 打破编码器束缚!无编码3D多模态大模型绩效超越13B现有SOTA | 上海AI Lab与港中文等团队最新研究
- 原神伊安珊的技能解析与使用技巧-全面了解伊安珊的技能特点
- 四川少女-B站-2023:游戏热潮中的青春风采与个性表达
- OpenAI计划转型为营利性企业,董事会应得到合理的补偿额度是多少?
- 中国式相亲中各角色的声优详细介绍与一览
- 对话式人工智能的爆发在即,未来的沟通方式将迎来巨变
- 天国拯救2波塞拉德图纸获取攻略-详细位置与获得方法介绍
最新思能智能
更多- 金铲铲之战祝你发财的乌鸦攻略阵容推荐与玩法分析
- 中国人工智能蓬勃兴起:从智能聊天机器人到未来玩具的创新之路
- “你好,我是Mac电脑。” “而我则是智能人工助手。”
- Saga与虚拟世界的结合 — 探索人工智能推动的数字经济未来
- 摩尔代理人自我治理法律:人工智能引发的指数革命
- 魔兽争霸1中人类战役完整剧情梳理与分析
- 穿越火线中的AC是什么意思-深入解析穿越火线中AC的具体含义
- 燕云十六声中九剑枪装备获取攻略-九剑枪装备刷取的实用建议
- 燕云十六声杏花不见的获得方法解析-如何获取燕云十六声杏花不见
- PSP刺客信条血缘详细攻略流程解析(一)
- 天国拯救游戏控制台代码大全2025年—所有控制台代码均可永久使用
- 英雄联盟手游梅尔最佳装备搭配攻略2025-详细解析梅尔最强出装方案
- 如何通过有效的写作技巧(而非依赖AI)来减轻我的超速罚单
- 远传AI技术助力跨年夜网络畅通 2,300座新基站覆盖全台主要商圈
- 全面解析英雄联盟双边无畏征召模式的玩法与特色