联 系 人:吉恩特客服
手 机:136-0866-9917(微信同号)
地 址:河南省洛阳市高新区火炬创业园
医生在诊断没有明确病因的疾病时,依靠基因测序技术可能有助于诊断。但是测序生成的大量数据让他们难以招架。
直到几年前,位于利马的美国海军医学研究 6 单位(US Naval Medical Research Unit-6, NAMRU-6)的医生必须将序列数据发送回美国进行分析,这个过程需要几周——如果需要尽快做出医疗决定,这个时间太久了。该中心基因组学和病原发现部门的负责人 Mariana Leguia 表示,如果你能做的就是取得数据,然后不得不送回美国分析,那么这个技术毫无用处。
但是现在 Leguia 不再需要等待美国发回分析结果,就可以在几天甚***几个小时内得到结果了——她可以在自己的实验室进行相关分析工作!她所在的单位开始利用 EDGE(Empowering the Development of Genomics Expertise)——一个可以完成常见微生物基因组学任务,如序列组装和物种鉴定的生物信息学工具。用户只需在界面上操作,就可以得到精确的结果。Leguia 等人现在可以在现场操作,而且可以快速做决定。
EDGE 并不是***个只需点击就可使用的生物信息学工具。事实上,相对于 Galaxy 和 Illumina 的 BaseSpace 等生信平台,EDGE 缺乏灵活性,且适用范围小。但它的简单性吸引了一些不擅长生物信息学的用户。美国疾病控制与预防中心(US Centers for Disease Control and Prevention)的 Clinton Paden 指出,使用 EDGE 的用户现在不需要学习命令行工具了。Paden 在他的病毒发病机制研究中使用了 EDGE。EDGE 代表了基因组信息学大众化的一种趋势——这有助于遗传分析技术在纯生物学家中的推广。
信息学领域
EDGE 开发者、洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory, LANL)的 Patrick Chain 指出,EDGE 的目的是填补日益普遍的低成本 DNA 测序仪和缺乏解读数据所需专业人才之间的空白。海军医学研究中心(Naval Medical Research Center)生物防御研究局(Biological Defense Research Directorate, BDRD)的计算生物学家 Joe Anderson 则认为,EDGE 主要面向缺乏生物信息学专业知识的人群。
EDGE 也是开源、自包含的,针对微生物基因组学,提供从原始序列读取到物种鉴定和系统发育的完整分析服务。Anderson 表示,EDGE 系统运行起来相对便宜,因为推荐的硬件配置(256 G 的内存和 64 位处理器)售价不到 10,000 美元。这意味着,大多数能够运行测序项目的实验室都能负担得起这样的硬件设备。Anderson 认为,这笔钱花起来一点不浪费,因为真心便宜。同时,EDGE 设置不依赖网络连接,并且可以由发电机供电。
具有可靠网络连接的用户可以将这类生物信息学系统安装到云网络。英国伯明翰大学(University of Birmingham)的生物信息学家 Nicholas Loman 开发的微生物生物信息学云基础设施(Cloud Infrastructure for Microbial Bioinformatics, CLIMB)就是安装在云网络的生信平台。CLIMB 对英国微生物基因组学研究者免费开放。
CLIMB 得到了来自英国医学研究委员会(UK Medical Research Council)的 840 万英镑(折合 1050 万美元)的资金支持,并且整合了几个信息工具,包括序列数据库和一个名为基因组学虚拟实验室(Genomics Virtual Laboratory)的分析平台。Loman 也在考虑把 EDGE 纳入 CLIMB 系统。
BDRD 基因组学和生物信息学负责人 Theron Hamilton 指出,总体而言,美国国防部和 17 个合作国家的实验室都正式安装了 CLIMB,并且除了南极洲以外的大陆都有安装。
其中一个安装了 CLIMB 的实验室是柬埔寨金边的美国海军医学研究 2 单位(US Naval Medical Research Unit-6, NAMRU-2)。NAMRU-2 使用 CLIMB 系统来跟踪传播疾病的媒介。Anderson 表示,传统生物信息学并不会做这类研究,但 EDGE 改变了这一切。Anderson 意识到,如果研究人员有了新工具,那么他们就能做很多你意想不到的事。
去年 10 月发布的 EDGE 1.5 版本包括 54 个第三方工具。所有组件,包括算法、数据库、可视化工具和参考基因组都被安装在一个服务器上。该服务器驱动六个互锁分析模块:序列清理、组装和注释、与参考基因组比较、分类鉴定、进化分析以及 PCR 引物设计。Chain 指出,即将发布的 EDGE 2.0 版本会新增一些模块,包括 RNA 分析和病原体检测。
去年 11 月,Chain 等人在一项研究中展示了 EDGE 的能力。在这项研究中,他们使用平台组装、分类和绘制了细菌炭疽杆菌(Bacillus anthracis)和鼠疫耶尔森氏菌(Yersinia pestis)的进化关系,破译了部分人类微生物组,并分析了一系列人类临床样品,包括埃博拉病毒和大肠杆菌(Escherichia coli)感染病人的样本。但 EDGE 系统***在发表的文献中出现所对应的则是之前的另一项研究。该研究中,Leguia 的实验室使用 EDGE 来优化登革热病毒的全基因组测序方法——该成果于去年 6 月发布。 用户可以通过 LANL 的免费样片浏览这些数据。但如果需要分析自己的数据,就只能下载该系统。EDGE 的代码可以从 GitHub 上免费下载,Docker 容器和虚拟机映像也都可以免费试用。不过 Chain 指出,安装这些东西可能需要一位 IT 专家。EDGE 系统允许用户调整源代码,添加其它工具和工作流。Chain 承认,大部分用户的 IT 技术都达不到这个程度。而他的团队正在开发简化流程的机制。
Paden 自己有计算机科学方面的经验。他认为 EDGE 非常简单,那些没有 IT 背景的生物学家可以很快上手,而不用去学生信领域***常用的工具——复杂的命令行。
然而加州大学(University of California)戴维斯分校的计算科学家 Titus Brown 警告说,***软件长期使用的因素可能会影响 EDGE 发挥潜力。他表示,EDGE 提供一系列专门适用于特定情况的软件,提供很棒的图形摘要和输出。但是,其他研究者会怎么改进该软件,以及资金短缺后该软件能否继续提供服务等都是潜在问题。
Chain 则回应,EDGE 开放源代码部分是因为对未来资金的担忧,同时也为后续开发提供信息。可持续发展是 Chain 等人必须考虑的一个问题,这就是他们将尝试允许第三方软件植入的原因,当然***有可能的第三方软件就是 Docker。
大批工具
EDGE 不是***个提供用户友好界面的生物信息学系统。2005 年***发布的 Galaxy 允许研究人员自由添加网络接口提供的各类生物信息学插件。用户可以通过以不同的方式组合这些工具来解决他们想解答的任何问题。
但 Galaxy 用起来非常麻烦。与 EDGE 生成的图形表示,如系统发育树或饼图中分层的交互式数据不同,Galaxy 的输出结果往往是处理过的数据文件格式,用户需要进行一些操作才能将结果可视化。
宾夕法尼亚州费城儿童医院(Children's Hospital of Philadelphia)生物医学和健康信息学部门(Department of Biomedical and Health Informatics)的软件开发人员 Jeremy Leipzig 指出,Galaxy 更像一个厨房,但没有餐厅。这个系统的输出结果没有那么直接。而 EDGE 就已经考虑了报告的格式问题。
澳大利亚阿德莱德大学(University of Adelaide)的生物信息学家 Nathan Watson-Haigh 表示,EDGE 有助于缓解生物信息学家的压力。但他告诫说,鉴于 EDGE 还是很复杂的,所以没有经验的计算生物学家在确定结果之前***好咨询专业人士。
加利福尼亚大学(University of California)圣地亚哥分校计算生物学和生物信息中心(Center for Computational Biology and Bioinformatics)临时主任 Kathleen Fisch 补充指出,与任何工具一样,用户需要了解算法实现的是什么功能,以及不同的参数如何影响其输出。你可以使用这个工具,并不意味着你必须使用这个工具。
幸运的是,随着生物信息学工具变得越来越简单,信息学可能不再那么复杂。对于生物学家来说,这意味着生信工具能得到广泛使用,以及更为大众化。