2026-06-20站内改写2 分钟阅读更新: 2026-06-20

人类基因组缠绕的物理特性为何可能让AI困惑

人类基因组并非简单的蓝图或算法，而是一个复杂、动态的三维结构，通过转录因子、增强子、染色质环和表观遗传修饰等精细机制调控基因表达。这种复杂性对假设简单输入输出关系的AI模型构成了挑战。

自20世纪50年代DNA分子结构被揭示以来，许多生物学家将DNA视为生命的秘密。他们将基因组（生物细胞中存储的遗传信息）解读为蓝图、代码或计算机。然而，随着研究的深入，人类基因组更像是一个拼图，越接近越困难。2003年完成的人类基因组计划显示，仅有约2%的基因组由编码蛋白质的基因组成，其余98%曾被认为是“垃圾DNA”，但现在发现它们参与基因调控的关键过程。

基因调控决定了哪些基因在何时、何地以及如何表达。人体中不同类型的细胞（如肌肉、脑、皮肤）均源自相同的DNA，但通过不同的基因表达模式实现功能分化。这一过程涉及转录因子、增强子、染色质环和表观遗传修饰等多种机制，它们相互作用，形成一个高度动态和局部的调控网络。

传统观点认为，转录因子像钥匙一样与DNA上的特定结合位点结合，启动转录。但在人类等复杂生物中，转录因子的结合特异性较低，且通常以组合形式发挥作用，产生“与”逻辑而非简单的“或”逻辑。增强子是转录因子的聚集点，但人类基因组中可能存在数百万个增强子，每个基因可能受多个增强子调控，而每个增强子也可能影响多个基因。更令人困惑的是，许多增强子位于距离目标基因数百万个核苷酸之外的远端区域，通过染色质环化才能与基因接触。

染色质的三维结构是基因调控的核心。通过凝聚素（cohesin）等蛋白质的环挤压作用，DNA形成拓扑关联结构域（TAD），将共调控的基因聚集在一起。染色质还分为紧密的异染色质（通常沉默）和松散的常染色质（通常活跃）。此外，表观遗传标记（如组蛋白修饰和DNA甲基化）可以改变染色质的包装状态，从而影响基因的可及性。这些标记在细胞分裂时也会被复制，形成一种“记忆”。

AI模型如Evo 2、Genos和AlphaGenome被训练处理大量基因组数据，试图预测DNA序列差异对生物学过程的影响。然而，这些模型通常假设基因组是一个线性代码，忽略了其物理三维结构和动态变化。例如，它们难以模拟染色质环的瞬时性、转录聚集体的液-液相分离特性，以及不同细胞间调控的异质性。生物学家指出，基因组更像是一个纠缠的物理实体，其行为依赖于空间和时间上的复杂相互作用，这超出了当前AI的简化假设。

总之，人类基因组的调控复杂性可能使得基于模式识别的AI方法无法真正理解生命的运作。要破解这一谜题，需要整合三维基因组学、动力学和表观遗传学的新视角，而不仅仅是更强大的计算模型。