1.首先选一个自己敢兴趣的行业,对业务做深刻的研究(这里多数人从事的可能不是自己向往的行业,对业务也不一定有很深入的研究,充其量可能也就是了解而已),这样做出来的东西才会更靠谱,实用,才能更好的指导业务,辅助决策。
2.系统架构开始就有明确规划。包括硬件选型,软件使用,软件的话现在做数据仓库选择性很大,个人观点选团队熟悉的适合公司发展的,具体不赘述了。具体实施时可以先按产品、分主题,排优先级按集市来实施开发,一定阶段后再考虑整合创建全局数据仓库。注意系统间耦合性要降低。另外开发实施初期就要把性能考虑进去,可利用一些综合手段或方法(分区 并行 集合运算)使程序性能达到高效。(个人感觉数据仓库olap系统的优化很多时候按照传统的oltp系统的优化来做是不够的比如加索引,更改sql的执行计划等,觉得最有成效的做法是优化流程,拆分业务逻辑 ,逻辑拆分越简单越好,简单的才是最好的)。
3.指标定义明确(把指标相关定义加入到帮助文档,最好可以有伪sql。前期指标定义先精后广),指标定义要原子化、层级化、一致化,指标统计口径严格统一,上层展现只依赖一个地方出指标。
4.合理规划数据存储。仔细考量数据粒度,做好对数据量的预判,避免数据存储空间的浪费,多使用分区表,大表使用单独文件存储。
5.密切关注数据质量:对源数据应加强探查不断提升源数据的质量。而元数据应加强统一管理(有条件的话可以做成类mis的管理系统),元数据先行,贯穿项目的始终。还有一个很重要的就是etl的实施,etl的监控(监控这块儿各接口间一定要有比较详尽的日志反馈,父级调用一定需时刻跟踪子级的反馈状态)etl自动恢复。etl要做到战略上藐视,战术上重视。
6.最后就是关于文档的编写及维护要规范化。
阅读(7771) | 评论(1) | 转发(2) |