大数据架构师指南
上QQ阅读APP看书,第一时间看更新

3.2 数据来源与数据质量

大数据时代,数据是组织最重要的资产,掌握了数据就掌握了发展的命脉。所以,数据获取能力,以及数据获取质量就成为项目成败的关键点。

一个综合性的系统,往往需要多个数据源提供数据,即使是在一个企业内部,往往也会有多套生产系统在同时运行,这些并行的生产系统共同为大数据平台提供数据。由于涉及数据的归属问题,以及企业内部业务流程的梳理问题等,与规划相比,往往数据的可获得性在现实中要困难很多。

在项目的规划初期,需要对相关数据源进行识别,并甄别出有风险的数据源,在项目规划初期即上升至决策层进行决策,避免出现项目做完后无米下锅的尴尬境地。甚至进一步说,如果关键的数据源无法获得,则整个项目的可行性都需要重新考虑。

关于数据质量,这往往是项目规划阶段容易被忽略但又非常关键的问题。由于涉及组织与系统之间的对接与配合,数据源往往并没有意愿主动输出高质量的数据。特别是利用这些数据生成考核KPI的场景下,数据源甚至有可能故意提供虚假数据或不完整数据。

所以在项目规划初期,就需要考虑后期运营过程中,如何对数据源通过技术手段进行数据质量评估,并对数据源的质量辅以相应的考核机制。只有针对数据质量形成闭环反馈,才有可能在未来的运营过程中逐步提高数据质量;而没有数据质量控制的大数据系统,在运营过程中很可能会逐渐退化,甚至最终失败。