普拉伯特:10个巨大的科学难题需要大数据解决方案

浏览量:22 次

在劳伦斯伯克利国家实验室超级计算中心,我领导国家能源研究科学计算中心NERSC数据和分析小组。在这个角色上,我追踪需要大数据分析来解决前沿科学问题。超过6000个用户使用了NERSC超级计算平台来解决各类科学问题,从天文学到有机生物学,从分子一直到亚原子物理。典型数据集从十万兆字节到帕字节不等。

尽管NERSC已经有先进计算和存储资源可以处理复杂逻辑,但真正挑战在于选择可扩展分析方法和软件框架。在本文中,我科研合作者和我评论了在科学数据分析中最难一些问题,希望能够邀请更多数据科学社区参加到正在发展中科学研究工作中。

问题一:为宇宙中所有天体创建目录


智利帕拉纳尔天文台所与银河系,这世界上最先进地面天文观测站
来源:欧洲南方天文台/约翰·科洛西莫,Flickr

每一天,世界各地天文望远镜都在进行“巡天”以收集图像数据集。这些数据集包含关于大量恒星、星系和类星体等宇宙天体位置和结构有价值信息。不幸,这些数据集不便于科学家们进行访问或者共享。

由劳伦斯伯克利国家实验室天体物理学家、统计学家和计算机科学家组成团队为了寻求这一他们认为科学界最大图模型问题解决方案,正在开发一个全新、完全可生成宇宙模型,称为“塞莱斯”(Celeste)。通过对庞大图形模型使用复杂变分推理(一个高可扩展算法)以及分布式蒙特卡洛马尔科夫链推理(MCMC-Markov Chain Monte Carlo),塞莱斯项目旨在为所有在可见宇宙中天体创建统一目录。这意味着从500万亿字节图像数据或约一万亿像素数据中推理O(1000亿)数量级参数。

主要合作者:大卫·施莱格尔(David Schlegel,劳伦斯伯克利国家实验室),乔恩?麦考利夫(Jon McAuliffe,加州大学伯克利分校),以瑞恩·亚当斯(Ryan Adams,哈佛大学)

问题二:确定宇宙学基本常量


由NyX code产生宇宙模拟,用来在大规模并行计算器上进行大规模宇宙学模拟
来源:由普拉伯特(Prabhat)和博伦·洛林(Burlen Loring)完成数据可视化,劳伦斯伯克利国家实验室,经许可使用

如今宇宙中物质结构自从宇宙大爆炸开始便受到将物质牵引到一起重力引力作用以及暗物质“负压力”膨胀影响。为了理解宇宙组成(例如,那里有多少物质,以及暗物质由什么组成),宇宙学家研究了从天文调查中得出星系分布。随后,他们观察结果与涉及几万亿粒子理论模拟预测结果进行了比较。但,这里就有一个分析问题:由于数据集大小从30到300万亿字节不等,用于特征化物质结构统计数据计算起来太过密集,他们包含了星系集群、2度关联计算以及3度关联计算。

最近我们开发了BD-CATS系统,这一个数据集群算法DBSCAN高可扩展版本,它可以在超级计算平台上完整聚集数万亿粒子数据集。BD-CATS正在帮助理解在等离子物理(关于带电粒子和流体与电场和磁场相互作用研究)中粒子加速背后机制,并在宇宙学数据聚合能力方面呈现出优越性能。

主要合作者:黛比·巴德(Debbie Bard,劳伦斯伯克利国家实验室),泽里亚·卢基奇(Zarija Lukic,劳伦斯伯克利国家实验室),莫斯托法·帕特瓦里(Mostofa Patwary,英特尔)

问题三:特征化变化气候中极端天气


CAM5 0.25度模拟中水蒸气可视化图形
来源:由普拉伯特(Prabhat)和迈克尔·魏纳(Michael Wehner)完成数据可视化,劳伦斯伯克利国家实验室,经许可使用

气候变化问题人类最为紧迫问题之一。在NERSC,我们对于研究未来全球变暖会如何影响气候各种方式均深感兴趣(远远不止平均海平面上升和全球平均温度上升)。我们还感兴趣,在极端天气事件统计数据中检测否将会有气候变化。比如飓风,在未来我们认为飓风会变得更弱还更强?我们认为四级和五级飓风会更频繁登陆吗?天气数据分析中一个很大挑战性问题涉及到因果推理:我们否可以识别异常事件并将它们和一些机制建立因果关系?这些机制在未来会怎样变化?

通过分析大量数据集来识别极端天气模式与视频数据中语音检测相类似,我们不仅需要处理一百万个网格点,每个点又有一大堆变量。解决这样挑战需要我们开发出高可扩展模式识别能力,让我们可以挖掘100万亿字节到1帕字节大规模时空数据集。我们已经成功应用了MapReduce框架(在极端天气分析工具包(Toolkit for Extreme Climate Analysis)中实现),并且正在积极探索使用深度学习来解决这一问题。

主要合作者:普拉伯特(Prabhat,劳伦斯伯克利国家实验室),迈克尔·魏纳(Michael Wehner,劳伦斯伯克利国家实验室),威廉·德鲁·科林斯(William D. Collins,劳伦斯伯克利国家实验室)

问题四:从科学文献中抽取知识


位于纽约约克高地沃森系统,由IBM公司开发
来源:由Clockready提供于公共维基多媒体

在互联网时代,对于我们来说在一瞬间发布、交流以及共享结果变得十分平凡。然而,对海量信息便捷访问带来了独有问题:对于个人而言,对在一般科学以及特定主题最新进展进行追踪变得难以管理。此外,所有信息来源并不同等可信,我们需要在得出重要结论之前考虑信息数量和质量。最后,科学界迫切需要对科学文献进行自动整理、挖掘和质量评估。

与这个问题关联数据分析挑战很大程度上与处理出版物中非结构化数据有关。比如说文本、表格、图表、图像、原理图、等式以及引用。每一个科学领域都有一个约定分类法,可能编写成文也可能没有。因此,关键挑战要从出版物中根据主题(比如说疾病或者疗法)抽取科学实体,以知识图谱形式建立实体之间关系,并且基于多条线索为实体和关系进行加权。最后,支持基于知识图谱反馈流利问答功能,并要具有相当置信度和关联推理,这将对改进更广泛科学界生产力十分关键。许多有发展前景技术眼下正在开发之中:IBM 沃森系统庆祝了广为人知胜利,它在Jeopardy!(一个美国人机智能问答)大赛中战胜了人类专家。而由斯坦福开发DeepDive数据管理系统在一些科学领域展示了令人期待结果。未来随着这些技术以及类似技术更多定制化开发,征服更多科学领域只时间问题。

主要合作者:亚当·阿金(Adam Arkin,劳伦斯伯克利国家实验室),安纳博阿夫·贾恩(Anubhav Jain,劳伦斯伯克利国家实验室),普拉伯特(Prabhat,劳伦斯伯克利国家实验室)

问题五:研究关于语言生成大脑皮层机制


DARPA基于系统神经技术新兴疗法项目旨在通过开发记录和分析大脑活动近实时神经模拟疗法来降低神经性疾病影响程度
来源:由马萨诸塞州总医院和德雷珀实验室在维基公共对媒体上提供

数十年间,人类一直试图理解人类大脑神经活动如何看似毫不费力地生成语音。大脑哪一部分功能性组织负责计算并生成语音?功能独立大脑区域如何互相沟通来产生协调模式并进而产生语音?从语言组织到发音在大脑皮层上有哪些交互?在这个独特人类能力上深入理解对于语音修复学发展十分重要,语音修复学旨在为失去语音能力人恢复该能力。

理解大脑皮层生成语音过程要求记录大面积皮质上高时空分辨率神经活动。记录人类这一活动只能通过侵入性脑电图技术来完成,这使得数据非常稀有。我们最初调查旨在将大脑活动时空模式“翻译”成有意连续语音。然而这些数据有长时间时间依赖性、大量噪声并且受到样本数限制。当前数据集大小约在10兆字节。此外,将来自多个发言人样本数据组合起来具有挑战性,但最后成功关键所在。

我们使用深度神经网络在对感觉运动皮质上数据基于57个元音辅音音节分类上取得了最前沿结果。此外,为了实现一个混合式连续分类系统,我们正在调研递归网络。对于最终为人们开发发声器来说,用于语音生成相关神经分析计算组件必须实时且非常低能耗

主要合作者:克里斯·布沙尔(Kris Bouchard,劳伦斯伯克利国家实验室),爱德华·昌(Eddward Chang,加大旧金山分校),彼得·徳内斯(Peter Denes,劳伦斯伯克利国家实验室)

问题六:为生物成像而实现谷歌地图


耐甲氧西林金黄色葡萄球菌(MRSA)以及一个死人中性粒细胞扫描电子显微图
来源:由NIAID_Flickr在公共维基多媒体上提供

生命以多尺度形式组织和持续,从单个蛋白质到细胞器,细胞,以及微生物群到组织,器官到生物有机体。捕获这些数据在规模上有巨大差异,从宏观和中观到微观和纳米级,这要求多模态成像。然而,没有一个单独成像技术可以捕获整个范围。此外,每一种技术提供在不同长度、时间、分辨率上有些许互补数据。

这一特定问题数据分析挑战包括分割技术、生物实体分类技术开发,以及实现一个以地图为中心数据库用以执行量化分析。这项工作最终目标整合所有相关时空信息(一个大小约在100兆字节到1万亿字节数据集)到一个通用坐标系,从而得到统计上有意义定量地理信息量(例如计算一个形状表面积或者体积),并且将生物实体分类到一个可视化数据库,使得它们可以通过这些地理信息模式进行查询。这使得生物学家可以使用定量信息,通过三维结构标识、分子/代谢组成以及核心高分子成分(如蛋白质)本地化等,来区分不同疾病状态和发展情况。

主要合作者:曼弗·雷德奥尔(Manfred Auer,劳伦斯伯克利国家实验室),华金·科雷亚(Joaquin Correa,劳伦斯伯克利国家实验室)

问题七:执行极大规模基因组序列拼接


脱氧核糖核酸(DNA)双螺旋链
来源:Pixabay

从头测序序列拼接现在基因学中最重要计算之一。这个过程涉及到将短小、随机抽样“鸟枪”基因序列转化成一个连续、准确复杂基因组重构。复杂基因组重拼接要求大量序列数据。因此,由于海量计算需求以及拼接大规模基因组和宏基因组算法复杂度,从头拼接已经不能跟上洪水般数据(大约在1到10万亿字节)步伐。例如,高重复度小麦基因组比人类大五倍,从结合复杂度和规模来看,这样拼接、映射特别具有挑战

在从头测序基因组拼接中,起始处理和数据约简(K-mer分析法)受到带宽约束,随后徳布鲁金图(de Bruijn graph)构造和遍历受到延迟约束,序列对齐受到计算量限制。许多针对低直径图开发图处理技术不适用于徳布鲁金图,因为它有非常低度和大直径。我们通过HipMer系统来解决这一挑战。这一个高性能、端对端基因序列拼接器,通过并行地在一个超级计算机多集群上同时执行代码,从而简化和加速基因组拼接以及映射。以前需要花费数月处理过程,比如拼接整个人类基因组,现在能在大约8分钟之内完成。

主要合作者:伊万格洛斯·乔格纳斯(Evangelos Georganas,加州大学伯克利分校),艾登·布拉克(Aydin Buluc,加州大学伯克利分校),丹·洛克萨(Dan Rokhsar,加州大学伯克利分校),凯西·伊列克(Kathy Yelick,劳伦斯伯克利国家实验室)

问题八:采用精确毒理学


淡水加壳水蚤被用于研究化学物质对生态影响,最近也被用于研究对人类影响
来源:由基尔大学简·米歇尔斯(Jan Michels)博士提供,经允许使用

大约80%新药因为不可预期对人体毒性而失败。此外,每年有超过500种基础工业用化学品被开发,其中大部分将不会接受任何种类毒性检测。毒理学一种我们所依赖科学原理,来保护我们不受癌症、出生缺陷、心血管以及神经退化性疾病侵害。对它们风险评估仍然依赖于一个较小集合模型物种,每种化合物要花费超过五年时间以及超过150万美元。通过风险评估,我们了解到了致命剂量,以及在一些情况下最小致病剂量。但我们对于毒理机制一无所知。

我们每个人有独特生活史、遗传基因、微生物以及生理特征,它们相互作用产生我们个性化对周边环境挑战易受影响部分和适应恢复能力。毒物对于胎儿影响与成人完全不同,在一个基因背景下有效药物可能对于另外一个人来说极少剂量都致命

尽管我们不能在每一种遗传基因背景,甚至每一种最终受众物种上测试每一种化合物,但我们可以通过可得到、性价比高数据将毒物与毒理画像以及中毒后分子状态关联起来。我们可以认识个体易受性基础,并将我们易得疾病和毒性反应映射到整个生命树上。利用生物科学潜力来达到准确毒理学测试将使得在产品开发前期就可以进行精确分析和风险评估,有助于减少开发开销。

这个问题天生就一个计算问题,并对我们社会和星球一个巨大挑战。我们对于这一挑战最主要解决方案分子系统毒理学(在多物种环境下暴露生物体):我们以一小群易驯服生物为模型进行测试,然后使用定量生物进化工具(包括针对多物种分析新形式张量回归、应用量子计算路径发现、深度学习以及基于随机森林回顾学习机)来对公共祖先和所有现存物种做出预测。这一方案通过映射和利用大约18万亿字节高容量数据集来完成。在两年之内,我们预期这些数据集大小将会增长到1帕字节。

主要合作者:本·布朗(Ben Brown,劳伦斯伯克利国家实验室),约翰·科尔伯恩(John Colbourne,英国伯明翰大学)以及环境学和毒理学协会

问题九:寻找新设计材料


部分被孔雀石覆盖铜矿石和赤铜矿
来源:由Didier Descouens在公共维基多媒体上提供

技术创新很大程度上受新材料发现所驱动。我们经常被给到一组理想中材料属性(例如:硬度、透明度、电导率、可承受电压等),并要求发现具有这些属性材料挑战。如今计算机模型可以近似可靠地预测材料属性,并且有收集了上千种这类预测数据库可供使用。例如,Materials Project 一个公开可访问数据库,该数据库在NERSC收集了成千上万种材料信息。下一步分析这一庞大数据集(大约100万亿字节),测试和发现新解释材料行为科学原理,展现复杂数据(例如,周期性三维水晶),并将发现和开发新材料所需要时间从现在大约20年减少到很短时间。

材料自动化分析要求我们解决两个关键问题:自动化特征学习以及高维回归。一旦这些问题被解决了,那么我们可以想像一个在线系统,它能自适应地探索材料部分选定设计空间来决定最有前景值得模拟和制造材料。

主要合作者:安纳博阿夫·贾恩(Anubhav Jain,劳伦斯伯克利国家实验室),克里斯丁·佩尔松(Kristin Persson,劳伦斯伯克利国家实验室)

问题十:决定物质基本成分


欧洲粒子物理研究大型强子对撞机(LHC)CMS检测器内部视图,大型强子对撞机一个粒子加速器和碰撞器。人们希望大型强子对撞机成为世界上最大能量最高粒子加速器。
来源:由Tighef在公共维基多媒体上提供

高能粒子物理旨在从最基本亚原子层面了解宇宙秘密。尽管我们了解已经进步了不少,并在最近发现希格斯玻色子后达到一个高峰,但我们知道仍然有许多关键未解之谜需要解决,比如暗物质来源以及重力在万物理论中扮演怎样角色。探索这些未解之谜需要最庞大最复杂实验设施。比如,大亚湾反应堆中微子实验就这样一个例子,它旨在推进我们对于中微子了解。中微子由衰减中放射性元素生成,比亚原子粒子少一个电子。另外一个例子大型强子对撞机,它有所有粒子加速器中最高能量,旨在发现从未见过粒子和相互作用。

这些设备使用了数十亿管道模式和异常检测器,以纳秒精确度收集数据,产生了极大规模数据管道。其数据集大小从上百万亿字节到上百帕字节,快速而准确分析很有必要。这一领域已经应用“模式检测”技术有一段时间了,但用它们直接对物理事件在原始数据规模下进行分类仍然一个挑战。我们目前使用深度神经网络来学习新数据高层次表达方式。转化后数据将会被用于快速数据分析,包括信号和背景源可视化和特征化。

主要合作者:克雷格·塔尔(Craig Tull,劳伦斯伯克利国家实验室),瓦希德·佩姆奇(Wahid Bhimji,劳伦斯伯克利国家实验室),彼得·萨多夫斯基(Peter Sadowski,加州大学欧文分校)

作者:普拉伯特(Prabhat) 普拉伯特在劳伦斯伯克利国家实验室以及美国能源部经营国家能源研究科学计算中心NERSC带领数据和分析服务小组。他研究方向包括数据分析(统计学、机器学习)、数据管理(并行读写、数据格式、数据模型)、科学可视化以及高性能计算。普拉伯特在2001年获得布朗大学计算机科学硕士学位,1999年在印度新德里理工学院所获得计算机科学与工程学士学位。他目前在加州大学伯克利分校地球与行星科学系就读博士学位。

 
®关于本站文章™ | 若非注明原创,默认 均为网友分享文章,如有侵权,请联系我们™
㊣ 本文永久链接: 普拉伯特:10个巨大的科学难题需要大数据解决方案