专注于分享
分享好资源

“拼命三郎”鲍一明和他的“最美”团队

中国科学报 冯丽妃

在中国科学院北京基因组研究所(以下简称北京基因组所)一楼的机房里,伴随着大型计算机运转的嗡鸣声,各种大大小小的红绿色指示灯不停地闪烁着。

这里承载着两块沉甸甸的“国字头”招牌——国家生物信息中心和国家基因组科学数据中心(NGDC)。

建成国际一流生物信息中心,曾是我国几代生命科学研究者30年的渴望。北京基因组所研究员、NGDC主任鲍一明和团队在短短7年内让这个梦想初步实现。为了共同的目标,研究团队里的每一个成员都在全力以赴,加班加点、“轻伤不下火线”,在这个团队里是常有的事。

作为团队带头人的鲍一明更是有着“拼命三郎”的绰号。北京基因组所一位相关负责人向《中国科学报》记者透露,有一次她去鲍一明家里拜访,不意间发现他冰箱里的一个“秘密”。“为了节省时间,他会一次性煮十几个鸡蛋放在冰箱里,每天早上拿出来吃两个就上班了。”

这种敢拼敢干、协同奋进的团队文化让鲍一明和团队在基因组学数据库建设方面做出突出贡献,他和团队获评2023年北京市朝阳区“最美科技创新团队”,他本人也荣获“全国归侨侨眷先进个人”荣誉称号。

圆一个持续30年的中国梦

自上世纪八九十年代基因组学诞生以来,全球基因组学研究数据逐渐被汇交给三大数据中心——美国国家生物技术信息中心、欧洲生物信息学研究所、日本核酸数据库。三大中心又建立了国际核酸序列共享联盟(INSDC),形成领域内数据存储和共享使用的标准。

作为世界上产生数据量最大的国家,很长时间内,中国科学家不得不把自己的数据送往国外的数据库,同时也严重依赖国外数据库以获取数据。

对标国际三大数据中心,在我国建成一流生物信息中心,曾是我国几代生命科学研究者30年的渴望。

郝柏林、陈润生、赵国屏等院士曾多次为此奔走呼吁。

2016年2月,北京基因组所成立生命与健康大数据中心,并构建了组学原始数据存储归档系统(GSA)。其目标是立足国内,服务全球。

2017年,在美国国家生物技术信息中心工作了16年的鲍一明,在时任北京基因组所所长薛勇彪的邀请下来到北京基因组所,将国际一流生物数据库建设经验带回国内。

“放着国外的三层大别墅不住,与家人远隔重洋,一个人在国内拿着比原来低得多的工资,后不后悔?”同事经常这样调侃他。

“在这里有想做的事,我对身外之物没那么看重。”鲍一明总是笑着回答。

在他眼里,北京基因组所年轻有活力、踏实团结做事情的团队就是家人。他经常说:“一个人单枪匹马的努力起不到多大作用,中心的发展需要大家一起使劲。”

鲍一明和生命与健康大数据中心原有科研骨干章张、赵文明、肖景发一起被大家亲切地称为“四大金刚”,团队里的每一项任务,他们总是冲在第一线。在他们的带领下,团队的凝聚力和战斗力不断提高。

“拼命三郎”鲍一明和他的“最美”团队

鲍一明 北京基因组所供图

“拼命三郎”鲍一明和他的“最美”团队

NGDC的“四大金刚”。 北京基因组所供图  

通过团队不断努力,GSA先后被威利、爱思唯尔、施普林格·自然等全球主要出版集团认可。

2017年,他们还受到INSDC邀请,作为国际三大数据中心之外唯一一家机构参加联盟年会并在会上作报告。

2019年,生命与健康大数据中心迎来了里程碑的时刻:这艘生命科学数据的“小舟”脱胎换骨,成为20个国家科学数据中心之一,NGDC这艘“旗舰”应运而生。

同年,北京基因组所也挂上了“国家生物信息中心”牌子,依托NGDC承担国家生物信息大数据统一汇交、集中存储、安全管理与开放共享,以及前沿交叉研究和转化应用等工作。

“撸起袖子加油干”

在北京基因组所二楼楼道曾有一面文化墙,上面有用NGDC团队成员的头像组成的“家谱树”,旁边写着习近平总书记的金句:“撸起袖子加油干”。

这句话是团队里每个人的座右铭。“我们中心是一个大家庭,氛围很温馨,团队带头人有情怀,大家做事都很认真。”北京基因组所高级工程师王彦青对《中国科学报》说。

作为生物信息数据库的一名工作者,她和同事经常碰到研究人员紧急发稿的时候。有一次五一假期,国内一个学生着急发文章,想把数据传到GSA,但格式不匹配,生病发烧的王彦青二话不说从床上爬起来做完。一个澳大利亚科学家团队近两年以来一直把NGDC作为首选数据递交库,并说“送往国际数据库的基因组序列有时候三个月还没处理完,你们这边更快!”

其实,论硬件设施,NGDC至今与国际三大库仍有差距。比如带宽不如国外高,数据储存空间不够高。“有一阵子传输的数据多,我们需要把好多硬盘同时接在一台机器上,通过‘小米加步枪’的原始办法加快速度,同事们费了很多精力做这些事情。硬件不够,人来补充。”北京基因组所网络安全工程师陈焕新笑言。

“我们NGDC的团队是一个勇于开拓、团结协作、艰苦奋斗、无私奉献的队伍。”北京基因组所书记黄铁青如是说。

“拼命三郎”鲍一明和他的“最美”团队

人在一起叫聚会,心在一起叫团队。 北京基因组所供图

“拼命三郎”鲍一明和他的“最美”团队

研究团队的家谱树(2018年)。北京基因组所供图

2020年1月,突如其来的新冠肺炎疫情,给刚成立不久的NGDC带来了一次考验。得知新冠疫情暴发后,北京基因组所迅速部署开发新冠病毒信息库。鲍一明与团队临危受命,克服所有困难,火速完成任务。

彼时正值春节关口,青年科学家邹东在回老家的火车上接到电话,不等下车,就开始着手数据库测试版开发工作。

青年科研骨干陈旭、陈梅丽夫妇二人都是数据中心科研人员,同时参与了信息库开发工作。大年三十依然坚守岗位,年夜饭也只能抽空给年幼的孩子煮了一碗速冻水饺。“如果我的工作停下来,其他的同事就会受到影响,数据整合汇交时间肯定要滞后。”陈梅丽说。

作为团队“领头羊”,鲍一明的拼劲更是出了名。“他经常加班到凌晨两点,早上又是第一个到数据中心的。”“开发新冠病毒信息库期间,好几次我凌晨一点给鲍老师发信息,他都是速回。”“他为了节省时间,中午有时候连食堂都不去,就在办公室胡乱对付一口零食……”北京基因组所多位青年科研人员对《中国科学报》说。

长期熬夜工作加上饮食不规律,鲍一明因为肠胃病不得不住进医院,术后住院期间,他每天仍不忘工作。“鲍老师就是我们身边的榜样,有时候我们觉得自己挺拼了,看看鲍老师,就觉得还不够。”邹东对《中国科学报》说。

那段时间,NGDC团队里的很多人都把实验室当成了家。他们从凌晨到黎明,加班加点更新数据,白天黑夜连轴转。

研究团队在短短十天内就开发上线集全球新冠病毒基因组序列整合、质控、变异分析、文献为一体的综合性新冠病毒信息库(RCoV19),并与国际实现数据同步共享。国外科学家来信称:“NGDC在极短的时间内建立了一个十分优秀、令人印象深刻的信息库”。

这一数据库为此后开展病毒分子溯源、追踪病毒株变异路径、制定疫情防控策略等提供了数据基础与决策支持。在世界卫生组织来华开展的新冠病毒溯源联合研究中,研究团队全程参与提供数据支撑。

截至今年5月世界卫生组织宣布新冠肺炎疫情全球大流行结束,RCoV19已收录全球1500多万条新冠病毒基因组序列信息,服务全球181个国家/地区280多万名访客,累计数据下载超118亿条,为推动中国和全球新冠病毒生物信息数据汇交与共享、服务科技抗疫发挥了重要作用。

在鲍一明和同事的努力下,NGDC收录的新冠基因组数据有了国内与国际“双重身份证号码”,在标注NGDC编号的条件下与INSDC实现共享。这也为NGDC与INSDC进一步合作打下了基础。

这些成果让RCoV19被列入《抗击新冠肺炎疫情的中国行动》白皮书,入选国家“十三五”科技创新成就展,研究团队也被科技部授予“全国科技系统抗击新冠肺炎疫情先进集体”称号。

“2016年,我们中心成立的时候,我刚怀孕。这些年来看着中心的成长,就像看着自己的孩子成长一样。工作虽然有点累,但我们一直在前进,特别有成就感。”北京基因组所副研究员马利娜对《中国科学报》说。

“数据是原材料,有了它才能做出更好的菜”

从诞生至今7年来,NGDC已经建立了包含九大数据类型的63个数据库,形成“数据—信息—知识”一体化数据资源体系。依托这一数据库,我国科学家在国际生物数据库期刊《核酸研究》集中发表了一批前沿成果,连续多年被该刊评价为与国际三大数据库并列的全球主要生物数据中心。

目前,这里拥有的生物数据资源总量已超过34PB,支持各类科技项目1.5万多个,为国家重点研发计划、国家自然科学基金、中国科学院战略性先导科技专项等国家重大、重点研究计划及任务的科学数据安全管理和开放共享提供了重要支撑。

在北京基因组所的楼道里,有一幅世界地图呈现了这些年NGDC国际合作的发展步伐。在“一带一路”国际科学组织联盟的支持下,北京基因组所还依托NGDC建立了以我国为主的国际生物多样性和健康大数据共享联盟,当前已与12个国家的28个机构建立了数据共享和科研合作关系。

谈到未来,北京基因组所研究员肖景发向《中国科学报》表示:“工作的重心还是数据存储,数据是中心发展的基石和原材料,有了它才能做出更好的菜,才能实现‘存管用’一体化。”

“虽然我们起跑的时间晚了点,但只要努力慢慢接近,一定能够赶上国际一流水平。”鲍一明说。

“拼命三郎”鲍一明和他的“最美”团队

国家基因组科学数据中心团队。北京基因组所供图