什么是大数据?什么是数字化实验室?你了解多少?

2020-09-22 09:45:49

近年来,高通量和高内涵分析成为数字化实验室分析方法的大趋势,而这必然导致产生相较于以前几倍甚至几十倍的数据,但要知道大量的数据并非就是所谓的大数据。几乎每个行业都会产生大量的数据,且随着时间呈快速增长趋势。

什么是大数据

的数据本身并非就是大数据:只有当这些数据能够按照一定的格式保存,并能有效的被查询、进行综合分析后可以获取某种新的相互关系,并从中得到更有用的信息时,这样的‘大量数据’才能被称之为大数据。

能够使人易于理解的大数据实际上都是经由实验得到的,犹如乱麻般的大量过程、结果数据。过去,虽然已经进行了测试,但得到的这些所谓的源数据却不能被有效的利用起来。此时,非常简单的大数据应用就能让您节约时间、金钱和资源。
成熟的高通量和高内涵分析方法,都会融入互联网技术加以使用。加上和研究机构、药品生产企业以及小型实验室之间越来越多的合作都使得数据量大幅增加。不断增长的数据量不仅仅对实验室的IT系统提出了挑战,而且也给数据的处理分析,提供了更多的新可能性,以及与此有关的价值增值过程,这些都可以概括到大数据这一概念中去。
要把积累的大量数据到变成大数据还有很多工作要做。许多实验室数据和信息都被存储在本地的数据库中,更多的是记录在纸张报告、记录表中,被分散在一个个文件夹中,这都使得它们不能用于大数据分析。


数字化实验室面临的挑战
多年来,实验室数据的数字化就是对实验室日常工作中的一个严峻挑战。目前已经有许多不同类型的电子实验室记录(ELNs)和实验室信息管理系统(LIMS)可供使用,但不是所有的实验室都使用统一的系统管理数字化文件。某些移动输入设备,例如平板电脑和智能手机的不同发展趋势都有利于数字化系统的应用和推广。许多数字化实验室都有这样的要求:使用数据格式完全不同的数据。其中不乏一些像Word、Excel、PDF和图像格式的通用数据格式,但也常常要用到一些特殊格式的数据。
为了能够在更大范围内使用这些数据,根据数据产生的过程来管理组织数据这种方法很有必要。例如:光谱的图谱数据可作为数字化检测报告。图像数据其实也能和其他格式的数据相互比较,而无需把所有的图谱并排进行对比,只把具有可比性的谱图文件相互比较就可以了。这一例子告诉我们,要利用大数据首先要解决小数据的问题,但大多数实验室都存在有太多难以关联的小数据存在的难题。
在利用大数据的过程中,首先要制定标准,利用制定的标准可以把实验过程中的数据轻松的汇总到一起,进行整理分类,实现相互比较。但迄今为止还没有能够将跨学科实验室过程进行统一的数据格式。


实验室中大数据的应用
大数据的应用条件首先是要把实验室中所有的数据都保存在统一的数字化平台上。这种平台允许对所有数据进行分类,而且还有统一的、结构化的数据采集过程,从而能够在过程层面上对数据进行比较。为了能够处理越来越大的数据量,从长期发展的角度看,把分析用和生产用的仪器设备与IT系统直接连接起来就是必不可少的了,这样可以确保在任何时间都能连续跟踪数据,根据这些数据可以看出很多被隐藏的影响因素,对这些影响因素进行仔细分析后,可以搞清楚它们对过程的影响关联从而做出调整。


数据设备连接标准的建立
很多成功的案例都可以实现实验室各仪器设备间的连接了,例如,与数字化试验记录、实验室管理系统LIMS之间的连接,但这种连接常常是复杂的,且成本高。在未来,或许实验室仪器设备即插即用的连接是可以实现的。而把数字化试验记录集成到与实验室自动化标准SiLA兼容的过程管理系统中去,正如弗劳恩霍夫研究所协会与Labfolder公司合作开发的方案那样,可以极大地简化大量实验室仪器设备的常规连接。

下一个必要的方案就是:制定统一的连接协议标准,有了标准才能将在仪器设备上检测的数据和填写的数字化试验记录之间建立起相互关联。这一标准的目的应是:建立一个基础平台,并能够以最大的自由度的看清基础平台中保存的数据。当过去的数据自动在新过程优化中得到了应用时,使用集成、灵活的实验室就变得易如反掌了,这才可以说是真正实现了大数据应用。


仪器设备与IT系统的联网
试验设备和检测仪器都算是实验室的数据采集设备,它们可以记录生成大量数据。这些数据常常都被保存在联网的计算机中,没有联网接口的话,可以保存在网络驱动器中。除了因分散式的设备配置带来的缺点,限制了畅通无阻的数据传输,不同工作组之间除了分散式的数据结构缺点之外,即使使用U盘也很难自动把仪器的结果数据与实验室报告文档数据一一建立起对应的联系。
为了填补实验室仪器设备与IT系统间的空白,仪器设备制造商、数字化实验室用品生产厂、科研机构和制药企业合作成立了一个名为‘SiLA快速集成’的国际性组织,制定了实验室仪器设备控制的统一标准。这一标准的目的是:不同生产厂家生产的设备有着统一的接口,即所谓的PMS过程管理系统接口。这一PMS过程管理系统可以通过网络服务器或者经互联网的安全连接来登录、访问。
这样以来,同一实验室的同事就可以在不同的计算机上通过安全访问登录这一网络了,而登陆的计算机可以是在同一大楼内的不同计算机,也可以是另一个地区的任一计算机,登陆后可以任意访问一台仪器设备,进行过程参数的输入,同时接收设备数据。在自动化控制环境中,还可以对整个检测过程或文件录入过程进行远程遥控或监控。
SiLA实验室的自动化标准中有用以集成各仪器设备的不同途径。例如:通过与SiLA实验室自动化兼容的驱动器,它能把不符合标准规定的设备通讯纳入到网络服务器的管理之中。SiLA接口转换器能够为仪器的操作提供一个兼容的平台,经网络服务器与过程管理系统建立通讯。在第三层方案里,SILA兼容的仪器设备通过它的网络服务器把第三方与过程管理系统连接起来。有助于各种设备的兼容,且能把实验室中已经安装的仪器设备与实验室中的IT网系统连接起来。