张佳欣
2003年,科学家首次对人类基因组进行测序,揭开了我们生命“蓝图”中全部98%的DNA序列,并揭示了它们如何通过调控基因和细胞的功能而发挥着深远的影响。尽管这些区域并非直接编码蛋白质,但目前正被人们视为生物学秘密藏身的地方,“垃圾DNA”,被认为是隐藏生物界的重要资源。

6月25日,“深度思维”公司宣布开发出AlphaGenome(阿尔法基因组)的人工智能模型,在破解“暗物质”这一难题上有望取得突破。《自然》杂志报道指出,这款模型能通过识别DNA序列中的微妙变化来预测一系列分子过程的变化,并为人类基因调控机制的解读提供了新途径。

讲解有关于解析DNA序列一体化的方法
深度思维公司在2020年推出“阿尔法折叠2”(AlphaFold 2)颠覆了科学界对如何精准预测蛋白质三维结构的认识,该技术不仅重新定义了结构生物学的研究方式,并为新药物开发开辟了一条全新的道路。
相比而言,解释DNA序列的功能要比识别蛋白质序列更为复杂,原因在于后者通常含有明确的“标准答案”,而前者则主要依赖于它如何影响基因表型、调控基因何时开启或是关闭、决定在何处启动或停止表达、并以哪种程度进行表达。
如果将蛋白质结构预测想象成拼凑出零件立体模型的话,那么DNA功能预测就需要理解说明书中的每一个符号注释开关命令甚至是“暗物质区域”的真正含义,而涉及的信息层级比这个更为复杂且关联更为广泛。一个典型的DNA片段可能在不同的时间不同类型的细胞中扮演不同的角色,因此其建模难度远超于蛋白质结构预测。
在过去的数十年间,遗传学家一直在尝试使用各种计算方法来揭开DNA中复杂且隐秘调控机制的秘密,但这些模型往往聚焦于单个功能上。因此,私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596在寻求一种能够解释DNA序列的“一体化工具”的过程中,“阿尔法基因组”应运而生。
据美国趣味工程网站报道,与以往需在“序列长度”与“预测精度”之间取舍的模型不同,“阿尔法基因组”实现了二者兼得。它既能捕捉长程基因组上下文信息,又能提供碱基层面的精准预测,从而拓展了疾病生物学、罕见变异研究及合成DNA设计等领域的研究视野。
可以处理的碱基数量达百万级别。
据深度思维网站所言该模型一次处理多达100万个碱基对,并可预估出数千种分子属性,包括基因表达、剪接模式、蛋白质结合位点及染色质可及性,并覆盖多种细胞类型。这是首次有AI系统能同时建构如此广泛的调控特征。
“阿尔法基因组”所使用的数据库样本来自多个公开的海量数据平台。令人吃惊的是,训练一个完整的模型仅需四个小时就可完成,并且所需的计算量仅为前代模型的一半。在包含二十六个基准测试中,有二十四项表现优于或与专用于该任务的模型水平持平。
这款新模型的一项显著特性在于其变异评分机制,这个机制可以准确地比较基因变化前后不同物种的DNA序列,并且能够从多个不同的生物学通路中对这种变异进行综合分析。
“阿尔法基因组”提供了剪接位点的建模功能,这在以往是无法做到的,此前尚无任何已有的模型能够分析出与囊性纤维化、脊髓性肌萎缩等疾病相关的RNA剪接异常。
在合成生物学领域,“阿尔法基因组”能够专门设计调节元件,比如选择性激活特定基因表达,并抑制私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596在非目标组织中的转录。此外,阿尔法基因组也可以用来研究对罕见疾病影响较大的遗传变异,如引发孟德尔遗传病的突变体。
一项验证显示,研究人员将“阿尔法基因组”应用到此前确定某种白血病相关突变的研究中。结果表明,某些非编码区变异会间接激活靠近的TAL1致癌基因,这是白血病中已知致病机制之一。
这个模型目前还无法用于个人诊断。
尽管阿尔法基因组在基因解读领域显示出相当的成就,然而深度思维团队对此系统的使用有着自己的限制性观点。他们表示虽然阿尔法基因组目前提供了非常有吸引力的数据处理能力,并且其表现也相当突出,但就目前而言,该系统并未被设计用来个人基因组分析或者解读。因此它不能用于个体诊断或者是医疗决策中。
“阿尔法基因组”当前的训练数据主要集中在人类和小鼠身上,但尚未扩展到其他物种。因此它在处理跨物种适应性方面存在不足。此外,“阿尔法基因组”尚无法全面模拟细胞在其不同的状态以及不同组织中动态调控机制之间的关系。
美国冷泉港实验室的计算生物学家彼得·库指出:“这些模型往往是在固定条件下进行训练,然而,现实中的细胞是动态变化着的。蛋白质水平、DNA化学修饰以及转录状态等都会随时间和环境的变化而改变。这会导致同一段DNA序列的行为显著地发生变化。”因此,在未来需要引入更多的“多模态”因素和“多时间尺度”的模拟,来更准确的模拟生物过程。
顶: 761踩: 46182



评论专区