ETL现状分析 数据仓库渐渐在国内电信、金融、企业等各个行业普及开来,对数据仓库的理解虽然还有很多争议,但这几年内已经有很多人做过各种尝试。虽然广为传颂的成功案例很少,但相当多项目都或多或少解决了一些需求,也为下一步发展给了指导性作用。针对数据仓库项目中,问题比较集中的部分:ETL和Metadata,本文总结了笔者参与过的一部分项目中遇到的问题,来介绍metadata到底是不是虚无飘渺,ETL到底怎样的来使用Metadata。常见的问题: 1. Metadata在项目中是一定会涉及到的,但经常因为项目牵扯数据较单一,业务分析需求不复杂,而隐含在项目的文档、代码、界面里面了。2. Metadata在一个大型项目中过分强调的副作用很容易是被虚化,为了迁就现有的业务系统,为了能在指定的时间内系统上线,元数据又不像展现等功能可以让业务人员直接看到工作结果,往往元数据被草草舍弃掉。 3. 如何提交一份可以真正帮到ETL实现的元数据,只有这样才会利用到项目前期的需求分析及业务系统调查结果4. 在赶工期的时候如何协调模型的变化及ETL的关系 体系结构中ETL的问题:独立数据集市(Independent Data Mart)也被称为部门级数据仓库,往往是针对特定部门的业务需求而设计的。这里之所以在数据集市前冠以“独立”两字,是为了强调当企业为多个部门建立数据集市之后,这些数据集市彼此之间相互独立,具有不同的数据存储模型。在这种结构中,企业没有一个统一的数据存储模型。 把用于数据分析与决策支持的数据集市与业务处理系统物理上分离,通过ETL流程把业务系统中的数据经过清洗与整理后加载到数据集市。业务人员通过OLAP工具直接访问数据集市中的信息来生成多维报表或者进行其它信息分析。 在这种结构中,IT人员必须针对每个数据集市设计独立的ETL处理程序,把各生产系统的操作数据按照需要分别转换到每个独立数据集市中。这种策略将使整个系统变得非常复杂和难于维护,在投资方面也是得不偿失。这种结构最主要的问题还是在于没有统一的企业数据存储模型,不能为企业提供统一的信息视图。很多企业的数据仓库系统在达到一定规模后不得不更换平台,主要也是这个原因。Hub and Spoke企业级数据仓库自行开发的问题:往往只是根据具体项目的需要,从需求分析开始,一步一步的完成ETL系统的开发,没有考虑到所开发的ETL的通用性。例如,关于数据源方面的信息,可能具体项目的数据源是什么,就按照什么来设计;关于ETL调度方面的信息,可能也只是按照固定的模式来进行,比如,间隔一定的时间就进行一次。要搞清楚一个问题:在自行开发和利用现有的工具这两个选择方面,现在都如何选择? 59页
TAG:
ETL
10秒注册会员 结交数据仓库朋友 分享你的精彩
