一、 NASA大数据发展现状
美国国家航空航天局(NASA - National Aeronautics and Space Administration),又称美国宇航局、美国太空部署,是目前世界上最权威的航空航天科学机构,负责制定、实施美国的太空计划,并开展航空科学暨太空科学的研究。
在NASA研制、运行和发布航天计划和任务的整个过程中都会产生大量数据,进而引发出对大数据的应用问题。这里提到的大数据具有以下四个特征简称4V。
1)Volume,容量巨大,已从TB(太字节)级别跃升至PB(拍字节)。
2)Variety,数据类型纷繁,包括结构化、半结构化和非结构化数据,无规律可循。
3)Value,价值密度低,但隐含的价值巨大。
4)Velocity,处理速度快,在很多场合需要实时分析和处理。大数据技术就是从各种类型的数据中快速获得有价值信息的技术。
为充分利用大数据中的潜在价值,全球各国各组织都加入到从海量数据中提取有价值的信息的行列中。NASA得益于其先进的设备和完备的组织,可以称得上最早认识到这些结构复杂、价值巨大的数据的价值的机构。NASA大数据主要从太空中的航天器处持续获取信息,而且其生成速度要远高于当前的数据管理、存储与分析速度。NASA主要拥有两种航天器类型,其一为深空飞船,其二则为近地轨道卫星。深空飞船的作用在于以每秒MB量级向地球发回数据,而近地卫星尽管在运转机制上与深空飞船类似,但传输的数据量却为每秒GB级别。面对如此快速的数据产生能力,NASA利用激光等通信技术将大规模数据的下载能力加速至上千倍。除了航天器之外,NASA还需要处理来自在线平台、低成本传感器以及移动设备的数据,但就目前而言,NASA无法处理这么多数据。当下NASA设定的目标为在一天之内处理24 TB数据。如果将其整体数据量视为单一任务,那么其单日数据处理量将达到国会图书馆的2.4倍[1]。
2012年3月29日美国政府发布了全球首个国家层面的大数据战略——《大数据研究与发展计划倡议》,这标志着美国政府正式将大数据研究作为国家层面战略计划。目的在于推动大数据管理与处理、存储、归档与分发、分析、可视化、商业云计算服务等方面的技术创新与工具开发。目前,NASA建立了多个数据中心,配置了超级计算机,并且积极的与多家信息技术公司合作,开发了一系列云计算、可视化和大数据分析软件系统。
NASA作为大数据应用领域的领导者,正拼尽全力利用创新方法顺应环境变化,为政府、研究者乃至公众提供良好的数据平台和研究环境。积极配合全球策略,力争在解决全球问题上发挥更加巨大的作用。
二、 NASA大数据面临的挑战
首先,事实上,NASA面临的大数据挑战在大数据时代兴起之前。这与NASA致力于美国太空计划部署任务有直接关系。太空领域要对尺度远比地球大无数倍的广阔空间进行探索,其数据总量多、数据质量要求高、应用也十分广泛。另一方面,在处理航天任务时数据的精准性十分重要。此外,为了远距离控制航天器的飞行和执行任务,必须以最快的速度处理数据。因此,太空领域大数据不仅具有一般大数据的特点,而且要求更高的可靠性和更高的处理速度。
其次,尽管空间大数据的数据量很大,增长速度很多,品种多,但价值密度却很低,很多垃圾数据;从现实数据中采集的空间数据都是有污染的,即无论以何种方式采集数据,均不可避免的带来一些错误的信息,例如内容残缺,精度问题等。
最后,对于NASA而言,数据的收集能力正在以指数程度进行增长,而数据的下载和存储能力则跟不上数据收集的速度,并且要将所有数据都从航天器处传回并存储到本地会带来极其高昂的成本。
总之,随着数据规模的提升,与之相关的转移、索引以及搜索等各类挑战都在呈指数级增长,算法与设备的复杂性亦在持续走高,技术更新速度加快且预算水平趋于下降,这一切都对NASA的大数据处理产生了重大影响。然而,NASA 收集到的数据亦非常宝贵,并在相关科学研究工作当中发挥着巨大作用。NASA 方面正在努力简化这些数据的使用流程,将其融入日常工作以及对宇宙变化趋势的预测当中,同时希望借此通过创新与创造性方式为全人类谋求福祉。