在电信行业经营分析系统设计中,数据仓库维度建模设计至关重要。并将作为企业经营分析中最为关心的主题之一。本文将以客户流失分析为例,研究在实施电信行业经营分析系统时,如何构建数据仓库的维度模型。
一、建模步骤
a) 面向经营分析系统的数据仓库与面向事务处理的数据库应用需求不同,所采用的建模方法也不同。数据仓库建模的两个重要特点是面向主题和集成性。面向主题与传统数据库面向应用相对应。主题是一个在较高层次将数据归类的标准,是用户使用数据仓库进行决策分析时所关心的重点方面。每一个主题对应一个分析领域,通常与多个操作型信息系统相关。集成性是指在来源复杂的数据进入数据仓库之前,必须经过数据加工和集成,消除源数据中的不一致性,以保证数据仓库内的信息是关于整个电信行业的一致的全局信息。
1. 模型关键数据结构的设计
数据仓库的建模分为物理建模和逻辑建模。物理建模侧重于对物理存储介质的访问存取性能优化。逻辑建模针对于具体应用。
1.1 模式选择
逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。目前较常用的两种建模方法是所谓的第三范式(3NF,即ThirdNormalForm)和星型模式(Star-Schema)。
范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解,这个过程也称为规范化(Normalize)。在数据仓库的模型设计中目前一般采用第三范式,它有非常严格的数学定义。如果从其表达的含义来看,一个符合第三范式的关系必须具有以下三个条件:
(1) 每个属性的值唯一,不具有多义性;
(2) 每个非主属性必须完全依赖于整个主键,而非主键的一部分;
(3) 每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。
第三范式的定义基本上是围绕主键与非主属性之间的关系而做出的。如果只满足第一个条件,则称为第一范式;如果满足前面两个条件,则称为第二范式,依此类推。因此,各级范式是向下兼容的。
星型模式是一种多维的数据关系,它由一个事实表(FactTable)和一组维表(DimensionTable)组成。每个维表都有一个维作为主键,所有这些维组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据,而维大都是时间、地域等类型的数据。
由于电信行业数据量非常大(达到TB级),在进行数据仓库设计时,多表连接、表的累计、数据排序、大量数据的扫描等操作是面临的主要问题。要解决这些问题,在设计模型时,就需要采取如对表进行预连接(Pre-Join)、在模型中增加有关小计数据(SummarizedData)的项、对数据事先排序、通过使用大量的索引来等措施。
基于系统的响应速度、系统的复杂度、系统的维护工作量等方面考虑,我们在实施某电信行业数据仓库系统的建设时,采用星型模式。星型模式之所以速度快,在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。
1.2 基础架构的建立
建立模型的关键是维度的选取、维度的分割、维度属性的选取、实事数据项的选取。在电信行业,经营分析的目的是发现数据中的趋势,这种发现数据中的趋势的能力在很大程度上受数据质量的影响。
10秒注册会员 结交数据仓库朋友 分享你的精彩

最新评论
删除 引用 mbpcn (2008-10-10 03:15:00, 评分: 0 )
删除 Guest (2008-10-05 22:28:21, 评分: 3 )