人类基因组缠绕的物理特性为何可能让AI困惑
人类基因组并非简单的蓝图或算法,而是一个复杂、动态的三维结构,通过转录因子、增强子、染色质环和表观遗传修饰等精细机制调控基因表达。这种复杂性对假设简单输入输出关系的AI模型构成了挑战。
自20世纪50年代DNA分子结构被揭示以来,许多生物学家将DNA视为生命的秘密。他们将基因组(生物细胞中存储的遗传信息)解读为蓝图、代码或计算机。然而,随着研究的深入,人类基因组更像是一个拼图,越接近越困难。2003年完成的人类基因组计划显示,仅有约2%的基因组由编码蛋白质的基因组成,其余98%曾被认为是“垃圾DNA”,但现在发现它们参与基因调控的关键过程。
基因调控决定了哪些基因在何时、何地以及如何表达。人体中不同类型的细胞(如肌肉、脑、皮肤)均源自相同的DNA,但通过不同的基因表达模式实现功能分化。这一过程涉及转录因子、增强子、染色质环和表观遗传修饰等多种机制,它们相互作用,形成一个高度动态和局部的调控网络。
传统观点认为,转录因子像钥匙一样与DNA上的特定结合位点结合,启动转录。但在人类等复杂生物中,转录因子的结合特异性较低,且通常以组合形式发挥作用,产生“与”逻辑而非简单的“或”逻辑。增强子是转录因子的聚集点,但人类基因组中可能存在数百万个增强子,每个基因可能受多个增强子调控,而每个增强子也可能影响多个基因。更令人困惑的是,许多增强子位于距离目标基因数百万个核苷酸之外的远端区域,通过染色质环化才能与基因接触。
染色质的三维结构是基因调控的核心。通过凝聚素(cohesin)等蛋白质的环挤压作用,DNA形成拓扑关联结构域(TAD),将共调控的基因聚集在一起。染色质还分为紧密的异染色质(通常沉默)和松散的常染色质(通常活跃)。此外,表观遗传标记(如组蛋白修饰和DNA甲基化)可以改变染色质的包装状态,从而影响基因的可及性。这些标记在细胞分裂时也会被复制,形成一种“记忆”。
AI模型如Evo 2、Genos和AlphaGenome被训练处理大量基因组数据,试图预测DNA序列差异对生物学过程的影响。然而,这些模型通常假设基因组是一个线性代码,忽略了其物理三维结构和动态变化。例如,它们难以模拟染色质环的瞬时性、转录聚集体的液-液相分离特性,以及不同细胞间调控的异质性。生物学家指出,基因组更像是一个纠缠的物理实体,其行为依赖于空间和时间上的复杂相互作用,这超出了当前AI的简化假设。
总之,人类基因组的调控复杂性可能使得基于模式识别的AI方法无法真正理解生命的运作。要破解这一谜题,需要整合三维基因组学、动力学和表观遗传学的新视角,而不仅仅是更强大的计算模型。