Ch03 Logical Data warehouse design

11/9/2021 DataData warehouse

# Logical Data warehouse design

# Logical schema types

img

  • Star schemaimg
    • 其中junk dimension table一般记录了qualities(不可被聚合,表示一个状态)
  • Snowflake schemaimg
    • 3NF:列只被主关键字标识,与其他列无关
  • Informix schemaimg
    • 一个dimension table,多个attribute table
  • Compareimgimgimg

# Extended dimension table design

  • Production key(用在source中),Surrogate key(用在数据仓库中)img
  • bridge table: dimension与fact表多对多的关系img
  • slowly changing dimensions,如:一个产品的属性值发生改变
    • type1:直接替换原来的属性值
    • type2:创建一个新的产品,有新的id,并赋值
    • type3:产品多一个属性,用来存放旧的属性值,当新的属性值来的时候,就把旧的属性值存到旧属性中
    • 比较:img
  • Time stamp :员工合同表(R1右表,R2,R3左表)img
  • Large dimensions with frequent changes:img
    • 新建一张表,把频繁要改变的字段放进去
    • 使用band来表示一些离散的值,比如工资1000-2000的为一段
    • 新的表的主键是主表的外键
  • 多对多问题:如一个病人有很多症状img
    • 使用bridge tableimg
    • 关于时间的处理方式:每分每秒有一个记录就用dateTime字段,也可以以一天为基准拆成2个字段img

# Extended fact table design

  • 多国:img
  • 当一个fact有多种measure(取决于多个因素),并且有多种估值单位的时候img
    • 一种解决方案:可以把measure和估值单位都放在product的维表中
    • 但是另一种解决方案更好img
  • Model events&model coverage:如学生上课表,由一系列键组成(时间,学生,老师,地点...)imgimg
Last Updated: 11/19/2024, 1:54:38 PM