暂无
上海智能电子有限公司

NIST最终的“大数据”框架将帮助我们了解数据匮乏的时代

2019-11-22

  NIST大数据互操作性框架(NBDIF)旨在帮助创建软件工具(在此以电子表格页面表示),该软件工具可以使用任何类型的计算平台来分析数据,并且可以轻松地从一个平台移动到另一个平台。

  为了改进分析大量数据的方法,美国国家标准技术研究院(NIST)的计算机科学家发布了有关如何构建更广泛有用的技术工具的广泛规范。

  经过多年的努力,该机构发布了NIST大数据互操作性框架的最终版本,该框架是NIST与来自行业,学术界和政府的800多位专家之间的合作。该框架共九册,旨在指导开发人员如何部署可以使用任何类型的计算平台(无论是一台笔记本电脑还是最强大的基于云的环境)来分析数据的软件工具。同样重要的是,它可以使分析人员将工作从一个平台转移到另一个平台,并替代更高级的算法,而无需重新设计计算环境。

  NIST的计算机科学家,协作组织之一的召集人Wo Chang说:“我们希望使数据科学家能够使用他们选择的或可用的任何平台来进行有效的工作,但是其操作却在增长或变化。” “该框架是如何为工具创建创建“不可知论”环境的参考。如果软件供应商在开发分析工具时使用框架的准则,那么即使目标改变和技术进步,分析师的结果也可以不间断地流动。

  该框架满足了数据科学家们的长期需求,他们被要求在不断变化的技术生态系统中从越来越大和变化更多的数据集中提取含义。随着越来越多的平台(从望远镜和物理实验到我们连接到物联网的无数微型传感器和设备)涌入的大量数据,互操作性变得越来越重要。几年前,世界每天生成2.5艾字节(十亿亿字节)的数据,但到2025年,这一数字预计每天将达到463艾字节。。(这超出了2.12亿张DVD的容量。)

  计算机专家使用“大数据分析”一词来指代从这些超大型数据集中获取见解的系统方法。随着工具可用性的快速增长,数据科学家现在可以选择将其工作从单一的小型桌面计算设置扩展到具有许多处理器节点的大型,基于分布式云的环境。但通常,这种转变对分析师提出了巨大的要求。例如,可能必须使用不同的计算机语言或算法从头开始重建工具,这会浪费员工的时间并可能需要时间紧迫的见解。

  该框架旨在帮助解决这些问题。与NIST先前发布的框架草案版本一样,最终版本包含共识定义和分类法,以帮助确保开发人员在讨论新工具的计划时位于同一页面上。它还包括这些工具应具备的对数据安全性和隐私保护的关键要求。最终版本中的新增功能是参考体系结构接口规范,它将指导这些工具的实际部署。

  Chang说:“参考架构接口规范将使供应商能够构建任何工具都可以在其中运行的灵活环境。” “以前,没有关于如何创建可互操作解决方案的规范。现在他们将知道如何。”

  这种互操作性可以帮助分析人员更好地解决许多数据密集型的当代问题,例如天气预报。气象学家将大气分成小块,并使用大数据技术跟踪每个块的分析模型,以跟踪暗示未来的变化。随着这些模块变得越来越小,以及我们分析更精细细节的能力不断增强,如果可以将我们的计算组件替换为更高级的工具,则预测可以改善。

  Chang说:“您可以使用多个nist方程对这些立方体进行建模,这些nist方程的变量会平行移动。“很难跟踪所有这些信息。框架的不可知论环境意味着气象学家可以交换对现有模型的改进。这将为预报员提供很大的灵活性。”

  另一个潜在的应用是药物发现,科学家必须在一轮测试中探索多种候选药物蛋白质的行为,然后将结果反馈给下一轮。与天气预报不同,天气预报中的分析工具必须跟踪同时变化的多个变量,而药物开发过程会生成一长串数据,这些数据按顺序变化。尽管此问题需要采用不同的大数据方法,但由于药物开发已经是一项耗时且昂贵的过程,因此仍然可以轻松进行更改,从而从中受益。

  无论是解决这些问题还是其他与大数据相关的问题之一(从发现医疗保健欺诈行为到从DNA样本中识别动物),该框架的价值都在于帮助分析师相互交流并更轻松地应用所有数据他们实现目标所需的工具。

  Chang表示:“使用最新的机器学习和AI技术进行分析,同时仍采用旧的统计方法都是可能的。” 这些方法中的任何一种都行得通。参考架构将让您选择。”

上一篇:法医科学中毛问题的解决方案
下一篇:JILA团队演示了用于分配更准确的时间信号的模型系统