Adnan很快肯定了前面那位华尔街伙计的发现:代码的熵显示出的信息几乎是清晰的,这不是什么复杂的加密系统,不像是很难解决的问题。Adnan开始进行差异性密码分析及执行相关的标准密码分析技术。
他在这个项目上花了两个月时间,这时他注意到所有非代码序列都以一段短的DNA序列开头,而在这些垃圾代码的结尾也有类似的代码。 这些部分,生物学家都知道是ALU序列,其遍布于整个人类基因组之中。作为非代码、垃圾序列本身,Alu序列是所有基因中最常见的。
Adnan受过的是密码破译员及电脑程序员的训练,他没有任何的微生物学知识,他把基因代码当作电脑程序代码来研究。在试着类推分析时Adnan将源码放入短序列符号统计程序中进行分析,这个分析工作常用来破解信息。最常见的符号是什么?当然,它是“/”号,这是一个注释的符号!在Pascal语言里,这个符号是{ 和 }!当然,在C语言里,在两个斜杠之间的代码永远不会被执行,也是永远没有要被执行的意思;它不是代码,它是代码的注释!
无法抵挡的诱惑使Adnan更进一步地进行类推,他开始比较电脑程序注释与基因代码之间的统计性状的区别。这里头肯定有很大的不同。在统计的结果中应该会显现出来。然而,垃圾DNA与活跃的代码序列没有什么不同。为了确定一下,Adnan在分析中加了一个程序:惊异的是,代码与注释的统计结果几乎是一样的。他检查了一下源代码,明白了原由:在斜杠之间只有很少的注释,将其排除在执行之外,这与C语言码的程序员通常的做法差不多。
