随着社会生产和生活,装备生产和应用日益变得信息化和网络化,其产生的数据信息呈指数化增长。据IDC发布的数字宇宙研究报告(Digital Universe)显示,2013年全球产生的数据量达到了4.32ZB,而之后的年增长达到了50%,2015年这一数字达到了8.61ZB,预计到2020年产生的数据量将超过40ZB。但是这些数据中大约有80%是混乱的,非结构化的,被人们真正利用起来的数据只是极小的一部分。如此海量的数据通过分析,可以获得很多人们所需要的衍生信息,所以大数据开始为人们所重视。而其在军事领域所蕴藏的巨大发展潜力和应用价值,也使其成为军事领域各国竞相追逐新“武器”。
大数据就是信息爆炸时代产生的海量数据,其特征可以用五个V来概括:
(1)Volume,容量巨大,已经从TB(太字节)级别跃升至PB(拍字节);
(2)Variety,数据类型多种多样,包括结构化、半结构化和非结构化类型的数据,无规律可循;
(3)Velocity,处理速度快,在很多场合需要实时的分析和处理。大数据技术就是从各种类型的数据中快速获得有价值的信息的技术。
(4)Veracity,大数据的来源可能不完全可信,例如社交媒体上的数据。
(5)Value,价值密度低,但隐藏的价值巨大;
对美军而言,武器装备数据量的增加所带来的问题越来越明显。例如,美军已积累了总价值达数十亿美元的侦察机和战场传感器。随着这些传感器捕获数据量的激增,传感器数据存储、分析和融合的难度与挑战也与日俱增。因此,其急需大数据技术来对已有的数据进行分析,实现大数据5V特征到1V(Value)的增值。
美国政府和军方在大数据领域率先发力以抢占先机。2012年3月29日美国政府发布了全球首个国家层面的大数据战略——《大数据研究与发展计划倡议》,该计划涉及美国国家科学基金、美国能源部、美国国防部等六个联邦政府部门,超过2亿美元的科研经费被用于推动数据提取、存储、分析、发现等领域的技术创新与工具开发。美国政府将数据定义为“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来。此外,该报告还指出国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力;国家数字主权体现对数据的占有和控制。数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。除了出台支持大数据研发的政策文件外,美国还实施了一系列计划,推动大数据在军事领域的应用。以美国防高级研究计划局(Defense Advanced Research Projects Agency,DARPA)为主导,推进大数据辅助决策,集中在情报、侦查、网络间谍等方面,汇集传感器、感知能力和决策支持建立真正的自治系统,实现操作和决策的自动化;美国地质勘探局通过给科学家提供深入分析的场所和时间、最高水平的计算能力和理解大数据集的协作工具,催化在地理系统科学的创新思维等。为此,美军启动了一系列有关装备和大数据的研发项目,涵盖大数据基础技术、大数据处理平台和应用等诸多方面。其目的旨在:
(1)发展大数据前沿核心技术,以满足搜集、存储、防护、管理、分析和共享海量数据的要求;
(2)利用大数据相关技术,推动科学与工程领域的发明创造,增强国家安全,转变教育方式;
(3)储备人力资源以满足和利用大数据技术的需求。
美军所启动的装备大数据项目是美国国家项目的重要组成部分,美军期望通过推进大数据研发,强化数据处理能力,加速“从数据到决策”的进程,确保战场信息主导权。
对于美军来说,随着信息化的继续深入发展,各种新技术、新武器不断涌现,以及各级别的“系统集成”越来越复杂,在处理信息以及数据方面也开始遭遇各种挑战,主要有以下几种情况。
首先,海量战场数据无法得到及时、高效的处理。信息化条件下的作战,战场态势数据呈现出新的特点:来源广泛、容量巨大、更新频繁。为了提高对战场态势的感知,美军综合运用了无人机、传感器等侦察手段,其雷达、光电、声音、影像侦察能力已经实现了对战场的全覆盖。但所带来的问题是:随着数据量的大幅增加,仅仅依靠现有信息技术,美军已不能及时高效地分析和处理这些数据,而且持续更新的数据对系统的存储能力也提出了更 高的要求,海量数据甚至会造成系统瘫痪。
其次,数据壁垒高阻碍了数据融合。美军认为,影响数据融合的壁垒主要有:在体制上,相关部门往往各自为营,存在重复开发、标准各异等问题.而且出于对自身利益的考虑,可能会独享情报,无法做到信息共享;在格式上,随着网络技术的不断发展。博客、聊天室、论坛等成为获取情报数据的新来源。这就带来了除结构化数据以外的新型数据结构。如半结构化的HTML、XML数据以及非结构化的图形、图像、视频、音频数据。这些数据拥有自己的特性和模式。为了适应信息集成的需要,各种数据必须建立统一的格式标准,建立一种能够容纳和处理各种数据格式的综合集成的数据库。
最后,数据库漏洞增多,信息安全存在隐患。信息安全是一个存在已久的问题,而数据则是信息的重要载体。随着数据量的爆炸性增长,一方面,数据库漏洞越来越多,可攻击的目标也随之增加,且攻击目标将更为暴露;另一方面,隐藏在海 量数据中的攻击行为往往难以被及时探测。数据安全是大数据应用的根本保障,核心数据的泄露 将对整个战局造成致命性影响。因此,必须研发出可靠的防护措施,以确保信息安全。
当前,美军大数据项目中仍存在不少关键技术挑战,主要表现在三个方面:
一是数据存储挑战。本地服务器的磁盘或政府、企业和研究所搭建的大容量数据仓库仍难以解决数据存储问题,而网络存储的安全性问题仍难以得到有效保障;二是数据分析挑战。算法是数据分析的实质,大数据算法必须依靠机器学习,但语义网等机器学习技术仍在发展初期;三是数据共享挑战。受控保障数据的安全性,依据现有的基于统计学的模型和算法不能实现则以目的;不同需求用户的共享则是应用层面的客观需求,但针对同一数据源为不同用户提供不同信息的可视化模型和算法仍在起步阶段。