日期:2014-05-16  浏览次数:20575 次

转:数据抽取核心问题

第一章 简介

1.1??? 数据抽取核心问题

数据抽取是数据仓库技术中最谨慎的工作,因为其涉及到其它正式系统,成功的数据抽取必须保证对正式系统影响足够小,同时数据抽取性能足够好。这样就有如下结构性建设建议:

n???????? 链接正式系统用户只有查询权限,并且数据库链接用户及密码保密。我们公司的链接正式系统用户为MBBI,该用户密码由网络管理科管理,所以DBLINK由网络管理科进行配置;

n???????? 数据抽取速度足够快。数据抽取分初始化和增量抽取,抽取初始化数据量较大,需要网络管理开放一定的网络速度,按当前速度1小时可以抽取5000万条以上数据,增量抽取因为数据量较小,可以把网络速度控制在正常范围内。增量抽取分日志完全增量方式和关键字段增量抽取,现在大部分BI公司采用的是后者,比如说把近一个月数据抽取过来,每天更新,这种方式除了每天抽取数据量远远超过实际增量外,还在理论上存在数据空隙的风险。

n???????? 需要在DW端保留一个业务备用库。数据仓库的设计不可能一步到位,而如果每次数据仓库的改动都需要从业务库读取数据,那么对业务库的影响将非常明显,可用的解决办法就是在DW端保留一个业务映像库,该库保持和业务系统库完全一致的结构。

n???????? 必须清楚业务库的改动和DW之间的关系,知道其解决办法。常遇到的问题是业务库表结构变化,这时我们采用的武汉视图映像业务库技术就会遇到问题,其必须有解决办法。