第六十集 大数据的关键技术——数据仓库

2020-12-10 03:50:43 5.9万
声音简介

“数据仓库”是一种数据库系统。我们现在经常说的“大数据”很多时候正是在“数据仓库”这种系统中进行查询和分析。这一集节目,我们来聊一聊数据仓库是什么、它的历史、它的关键技术,以及相关系统。


主播:斯图亚特、Sean Wang、Cat Chen
剪辑:王立冰


声明:本节目不提供任何投资建议。主播和节目中提到的公司都没有雇佣或商业关系。


时间线


01:34 什么是数据仓库

12:26 数据仓库的技术

36:29 ETL :抽取(Extract)、转置(Transform)、载入(Load)

43:06 数据仓库和机器学习


本期内容

什么是数据仓库


* 两套数据库系统:运营系统和数据仓库

* 数据仓库的历史

* 互联网公司引领的数据仓库潮流

数据仓库的技术


* 里程碑论文: Mike Stonebraker: "One size fits all": an idea whose time has come and gone (2005)

* 列存储

* 和运营系统技术特点的差别

* MapReduce及其争议。

* Hive开启的Hadoop生态系统中的SQL

* 几大云数据仓库系统(Redshift、BigQuery,Azure,Snowflake)

ETL :抽取(Extract)、转置(Transform)、载入(Load)


* 如何把数据载入数据仓库

* 数据清洗和数据整合

* HTAP(Hybrid transactional/analytical processing)

数据仓库和机器学习


节目邮箱

host@avocadotoast.live


相关链接


* Bill Inmon 1970年代提出这个单词? https://en.wikipedia.org/wiki/Bill_Inmon

* In 1988, IBM researchers Barry Devlin and Paul Murphy coined the term information warehouse, and IT shops began building experimental data warehouses. In 1991, W.H. "Bill" Inmon made data warehouses practical when he published a how-to guide, Building the Data Warehouse (John Wiley & Sons). https://web.archive.org/web/20080708182105/https://www.computerworld.com/databasetopics/data/story/0%2C10801%2C70102%2C00.html

* Mike Stonebraker的里程碑论文: Michael Stonebraker and Ugur Cetintemel. 2005. "One Size Fits All": An Idea Whose Time Has Come and Gone. In Proceedings of the 21st International Conference on Data Engineering (ICDE '05).

* 两位数据库大佬David Dewitt and Mike Stonebraker对MapReduce的批评: ”MapReduce: A major step backwards” https://homes.cs.washington.edu/~billhowe/mapreduce_a_major_step_backwards.html


封面图片:
Image by Pexels from Pixabay

片头片尾音乐
Exzel Music Publishing (freemusicpublicdomain.com)
Licensed under Creative Commons: By Attribution 3.0
https://creativecommons.org/licenses/by/3.0/
Courante 1st Cello Suite





用户评论

表情0/300
喵,没有找到相关结果~
暂时没有评论,下载喜马拉雅与主播互动
猜你喜欢
数字经济投资策略|关注大数据数据确权数据

安全数据要素概念|数字经济上升到顶层设计数字经济,作为一个内涵比较宽泛的概念,凡是直接或间接利用数据来引导资源发挥作用,推动生产力发展的经济形态都可以纳入其...

by:无住无念

数字经济投资策略|关注大数据数据确权数据

安全数据要素概念|生产力发展的经济形态点击此处链接加入主播淘金吧XiMi团畅听更多精彩内容!数字经济,作为一个内涵比较宽泛的概念,凡是直接或间接利用数据来引导...

by:葡萄吧啦

大数据|数据库|数据分析

数据库技术:关系型:PostgreSQL,MySQL,键值对:Redis,Geode,宽列:Cassandra,Hbase,文档:MongoDB,CouchDB...

by:架构师研究会

大数据Doris对海量大数据进行快速分析的MPP数据库

本课程基于MPP数据库Doris对海量数据进行大规模数据管理和分析。由0到1深入浅出剖析Doris使用,整个课程分为:基础入门篇、应用进阶篇和实战案例篇,涵盖最...

by:黑马程序员

数据治理-大数据时代,如何治理数据资产

可以加VX:avtech9获得课件,记得备注"数据治理"。●数字化时代,企业如何让数据发挥出更好的价值?你需要这样一套数据治理方法。艾威数据治理系列课程共9堂课...

by:艾威培训

数据架构,大数据,数据仓库以及data vault

企业数据,大数据,数据仓库,业务系统,架构,数据基础设施,企业数据分析,数据简史,并行处理,非结构化数据,文本消歧,结构化数据,数据架构简史

by:科技散人

六十日柱

六十日柱讲解,每日更新音频,欢迎大家收听本专辑已完结欢迎大家关注我的喜马拉雅,还有其他专辑在更新...

by:青未先生_

重估:大数据与治理创新|大数据|创新

【内容简介】尽管对大数据的定义和特征的描述存在这样那样的争议,但一个不容置疑的事实是,大数据时代正向我们大踏步走来。在这个以数据为资源和资产的新时代,拥有数据的...

by:电子工业_电子书

Python网络数据采集

特别说明:此音频仅作为更好地阅读此书的辅助工具,请大家购买正版书籍。所有音频全部免费供大家试听、转发和使用。目录第一部分创建爬虫第1章初见网络爬虫1.1网络...

by:贺函芬

大数据:挖掘数据背后的真相

日更5集,不定期爆更!订阅可以收到更新提醒哦~【内容简介】本书围绕当今*受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、...

by:浙江人民出版社电子书