中国IDC圈6月22日报道:由中美创新协会, 北京市科协和动点科技三方联合举办的“Big Data Innovation Summit”在北京国际会议中心拉开帷幕。而在本次峰会上,来自华大基因首席运营官尹烨的演讲赢得了观众的“满堂彩”。
尹烨跟大家分享了大数据基因对我们的生活带来的影响。他认为,大数据这个词现在有点“泛滥”,甚至很多人错误地理解为数据大就是大数据,或者认为大数据是一个新鲜的事物,其实不然。人类肯定不是第一次遇到大数据的问题,只不过“大”的定义在不断的变化之中。尹烨在演讲中表示,生命科学会成为世界的主角,而整个生物组学的大数据已经达到10的60次方的数量级,而人类现在只完成了10的21次方,如果没有大数据,我们将寸步难行。
“科技再先进,我们能收集和处理的数据也只是世界上极其微小的一部分。当我们在使用大数据的时候,应该怀有谦恭和敬畏之心,铭记人性之本!”这是尹烨在演讲结束时阐述的一段话。这次演讲给在场的观众留下了深刻的印象,在整个演讲过程中,掌声不断。下文是演讲整理:
在古罗马时,人类还无法计算10000以上的数据;在阿波罗登月的时候,当时导航的芯片只有4K大小;10年前,我们还认为20G的数据永远填不满;但是在曼哈顿原子弹计划的时候,其裂变的数量级已经达到了ZB.其实人类肯定不是第一次遇到大数据的问题,只不过“大”的定义在不断在变化。
生命科学会成为世界的主角
人类有史以来,整个工业史随着科学发现、技术发明和产业的变革不断发展。从发现数学,然后走到了地理大发现,最终发现了太平洋,而且太平洋和大西洋还是连在一起的。从最早的亚里士多德,到牛顿,到爱因斯坦,这中间产生了一个又一个大数据。今天走到了生命科学大数据,生命科学会成为世界的主角。
与过去相比,我们今天的确处在一个大数据的时代。2005年整个人类(据不完全统计)创造了150EB的数据,而在2010年,就达到了1200EB.现在华大基因一年的数据产生量就高达20PB.这是该领域内大的数据。
没有大数据,我们将寸步难行
整个生物组学的大数据到底有多大?我们曾经粗略估算了一下,至少要达到10的60次方的数量级,而现在只是完成了10的21次方。我们的生长都是一颗所谓的生命之树,这是一个从低等到高等的过程。生命之树给出了所有的遗传道理,今天生物科学大的挑战是什么?如果把地球51亿年的经历算成一年:那么1月1日地球诞生;9月20日才诞生了真核细胞;最后一个月第一天终于出现了恐龙;12月25日出现了灵长目动物;12月30日猿类出现;12月31日才出现了会说话的人类。我们的一生跟地球相比,还不到一秒。而我们要用不到一秒的时间,去理解过去23个小时59分钟所有发生的事情。没有大数据,我们今天将寸步难行。
一个人的生命相对于地球史来说,存活时间还不到一秒。一个个体有3G的基因组,还有超过一个PB的基因。为什么讲基因组学会是人类大数据的先锋?因为把每个人的单体拿出来,一个人就需要100GB的数据,中国有10亿人,全世界有70亿人,这是多么大的一个数据量。所以基因组测序必然是大数据的先锋。
不要随机样本,而要全体数据
连线的主编克里斯。安德森认为,数据爆炸使科学的研究方法都落伍了。如果要计算什刹海的鱼,原来的统计方式,是先测量每段水域内鱼的数量,然后根据样本估计,其实这种方法在现在来说已经不准确了。现在用一种极端的方式来说,就是抽干什刹海的水,然后一条一条数。统计学盛行不过百年,但是现在已经过时了,好的统计方法就是穷举,这就是统计学的革命。全数据模式:样本=总体
第一个人的基因组,全世界做了13年,花费了近30亿美金;第一个黄种人的基因组,华大基因做了大半年,花费数千万;而今天,个人的基因组测序成本已经逼近了1000美金大关。这说明,人人基因组的时代即将到来。我们从实验科学,到理论科学,到计算科学,最后到密集数据分析,这是一个自然科学研究方式的发展过程。生命科学是不是实验科学?一个实验室经过五六代人的努力,经过成百上千次的实验,终于发明了一种新型农药。而今天基于组学的全新科学研究,就会发现这些已经是全时全景的数据,这也是整个生命科学非常核心的一个方法和手段。
华大基因作为一个研究机构,在去年发表了36篇重量级论文,而且每一篇文章的背后都是高达TB级的数据。大数据到底能给人类带来什么?我们就回答一个基本的问题,人到底追求什么?吃饱,不病,有点零花钱。不过对中国来讲,我们还希望能吃得安全一些,希望能够病得便宜一点,希望我们的零花钱不要贬值太快。
亩产过吨的水稻,群体研究
亩产水稻过一吨是一个梦吗?华大基因在全世界找到了25种栽培稻和24种野生稻,并对所有的水稻做基因分析。从1988年以来,只有37个被克隆。用华大基因的方式,我们直接扫描了这49种水稻,一共找到162个基因,这些基因决定了可以培养出亩产上吨的水稻。
华大在和比尔。盖茨合作的过程中,不在地里种粮食,而是在计算机算出来。一个玉米基因组是250G,测完5000珠,R的2次方是0.78,需要30T的计算能力。这就是全新的挑战,我们会发现在电脑上算一下,要比在地里种一下快很多。
微博有140个字,每条微博就是一个基因。医院关心1%的病人,而华大基因关心的是99%的健康人。华大基因的口号:“你的基因你知道,你的健康你作主!”
大数据是未来整个生物产业的全新方向
医疗产业和健康产业是两个根本不同的产业。虽然全世界都在搞医改,其实现在的医疗模式根本不适合人类现有的生产和生活方式。而大数据就是未来整个生物产业的全新方向。吃药不可能让一个民族富强!
基因决定每个人生命的表情。人类和猩猩的差距其实只有千分之一的分别。通过一滴血就可以很轻松得到我们的基因信息。
干吃不胖,喝凉水都长肉,怎么改变?
?科学研究表明,在一个体重100斤的正常人体中,细菌的重量高达4斤。“其实不是你在吃海鲜,而是你肚子里的细菌在吃。”?斯坦福大学开创了一个基因组的新篇章。联合转录组、蛋白组、代谢组和自身抗体组,及时预测出糖尿病风险。在本年内,治愈了糖尿病,这也是第一例通过自己治好了糖尿病。?一点粪便可以准确辨别出人类的肠道中成千上百种细菌的型号。“干吃不胖,喝凉水都长肉”是有原因的。在未来,饮食减肥可能是最更重要的减肥手段。想干吃不胖,就给一点这种人的菌群。
--------------------------------------------------------------------------------
“其实调节菌群可以治糖尿病,我们只需分析你的粪便,查看一下你的基因的连锁菌群,就可以知道你身体的具体情况。华大做了各种各样的酸奶,喝酸奶就可以治糖尿病。”
--------------------------------------------------------------------------------
图:两只小白鼠,现在体型已经得到完全的变化。瘦的变胖,胖的变瘦
人类到底能活多少岁?
人类到底能活多少岁?所有哺乳动物的寿命都是性成熟年龄的5-7倍,而人类的性成熟年龄是20岁,我们是可以活到100-140岁的。人类的第一种死亡方式,基因不好先天夭折;第二种就比较幸福了,可以活到40-50岁,但是中国人的平均寿命只有73岁,其中一部分人在这个时候就发现自己身体有问题,然后通过自己的方式进行干预,其实最后的15年他活的并不幸福。
思考一下,我们所有的人都在给医院打工,因为85%的积蓄都花在人生最后的五个月。如果说,当我们知道退休之后的一些指标不好,就“转换”一下基因,完全可以健康地活下去,最后一个曲线是我们所希望的一种方式,结合自己的基因,饮食菌群运动,最终实现“吃得对,保养好,活得长,死得快!”其实死得快是一件非常美好的事情,特别是安详的死去。
科技再先进,我们能收集和处理的数据也只是世界上极其微小的一部分。当我们在使用大数据的时候,应该怀有谦恭和敬畏之心,铭记人性之本。预测未来好的方式就是创造未来。