您当前的位置: > 山寨币 >
科普|如何理解元数据、数据仓库和数据目次3.0?
2020年给我们的日常词汇带来了许多新词汇——想想冠状病毒、封锁、大风行、退款。但在数据世界中,另一个短语一直在传播……现代数据仓库
数据世界最近搜集了处置惩罚海量数据的最佳东西集,即“现代数据仓库”。这包括在同类最佳东西上配置数据基础架构,比方用于数据堆栈的 Snowflake、用于数据湖的 Databricks 和用于数据摄取的 Fivetran。
现代数据仓库的长处:现代数据仓库很是快,很收留易在几秒钟内扩铺,并且需要很少的开销。缺点:在数据治理、信任和上下文方面,它仍旧是个新手
数据仓库-元数据的来历那么,现代元数据在今天的现代数据仓库中应该是什么样子呢?根基数据目次如何成长成为数据民主化和治理的强盛东西?为什么要举行元数据办理需要一个范式的转变来满意今天的需求?
为什么现代数据仓库比以去任何时候都更需要“现代”元数据办理?几年前,数据主要由组织中的 IT 团队使用。然而,今天的数据团队比以去任何时候都越发多样化——数据工程师、阐明师、阐明工程师、数据科学家、产物司理、业务阐明师、公民数据科学家等等。这些人中的每一个都有本身喜欢的、同样多样化的数据东西,从 SQL、Looker 和 Jupyter 到 Python、Tableau、dbt 和 R。
这种多样性既是一种气力,也是一种斗争。这些人都有差别的解决问题的方式、东西、技术组合、技能仓库、事情方式……本质上,他们每小我私家都有奇特的“数据 DNA”。
成果去去是协作中的杂乱。令人沮丧的问题,比方“此列名称实际上是什么意思?” 和“为什么仪表板上的销售数字又错了?” 在需要使用数据时让快速团队陷进困境。
这些问题并不新鲜。究竟,Gartner 公布元数据办理解决方案魔力象限已经凌驾 5 年了。
可是仍旧没有很好的解决措施。大大都数据目次只不外是 Hadoop 时代的创可贴解决方案,而不是跟上当今现代数据仓库背后的立异和提高。
元数据办理的已往和将来就像数据一样,我们思索和使用元数据的方式在已往三年中一直在稳步成长。它可以大抵分为三个演入阶段:数据目次 1.0、数据目次 2.0 和数据目次 3.0。
数据目次1.0:IT团队的元数据办理时间:1990 年月和 2000 年月初
产物:Informatica、Talend
元数据在技能上自古以来就存在——比方 附在亚历山大书楼每卷卷轴上的描述性标签。然而,元数据的现代观点可以追溯到 1900 年月后期。在 1990 年月,我们光荣将软盘放在一边,并拥抱了这种称为互联网的新颖东西。很快,大数据和数据科学风靡一时,组织正试图弄清晰如何组织他们的新数据荟萃。
跟着数据类型和格局以及数据自己的爆炸式增长,IT 团队卖力创建“数据清单”。像 Informatica 这样的公司在元数据办理方面处于领先职位,可是对于 IT 职员来说,成立和保持新的数据目次一直是一项艰难的任务。
数据堆栈团队常常花费大量时间谈论、担忧元数据,并为元数据感应惭愧。因为大大都开辟职员生成厌恶文档的开辟和有序回档,因此只管每小我私家都认可元数据很重要,但元数据凡是会从项目打算中删除。”
– 拉尔夫·金博尔,2002
数据目次2.0:由数据办理员提供动力的数据库存时间:2008-2020
产物:collibra,Alation
跟着数据变得越来越主流并扩铺到 IT 团队之外,数据办理的设法主意开始生根抽芽。这指的是一组专门卖力办理组织数据的职员。他们将处置惩罚元数据、维护治理实践、手动记载数据等。
与此同时,元数据的设法主意产生了变化。跟着公司开始成立大范围的 Hadoop 实施,他们意识到简朴的 IT 数据清单已经不敷了。相反,新的数据目次需要将数据清单与新的业务情况相融合。
就像这个时代超等庞大的 Hadoop 系同一样,Data Catalog 2.0 很难配置和维护。它们涉及严格的数据治理委员会、正式的数据办理员、庞大的技能配置和冗长的实施周期。总而言之,这个历程可能需要长达 18 个月的时间。
这个时代的东西根基上是成立在整体架构上并布置在当地的。 每个数据系统都有本身的安装法式,公司无法通过推送简朴的云更新来推出软件更改。
技能债务不停增长,元数据办理开始稳步掉队于其他现代数据栈
元数据中范式的转变只管其他数据基础架构仓库在已往几年中获得了成长,并且 Fivetran 和 Snowflake 等东西让用户可以在不到 30 分钟的时间内成立一个数据堆栈,但数据目次却跟不上。纵然实验使用 Data Catalog 2.0 时代的元数据东西也需要花费大量的工程时间举行配置,更不消说至少与销售代表举行 5 次通话以得到演示
因为缺乏可行的替换方案,现代数据仓库的最早接纳者和大大都大型科技公司都诉诸于构建本身的内部解决方案。 一些闻名的例子包括 Airbnb 的 Dataportal、Facebook 的 Nemo、LinkedIn 的 DataHub、Lyft 的 Amundsen、Netflix 的 Metacat 和 Uber 的 Databook。
然而,并不是所有的公司都有这样的工程资源,并且构建几十个雷同的元数据东西并不是出格有效。
数据目次3.0:面向差别数据用户的协作事情区今天,我们正处于元数据办理的转折点——从缓慢的内部布置数据目次 2.0 转变为新时代数据目次 3.0 的开始。就像从 1.0 到 2.0 的跳跃一样,这将是我们对元数据的观念的底子转变
Data Catalog 3.0 的外观和感受与 Data Catalog 2.0 代的前辈差别。相反,数据目次 3.0 将成立在嵌进式协作的条件下,这是当今现代事情场合的要害,鉴戒了 Github、Figma、Slack、Notion、Superhuman 和其他当今司空见惯的现代东西的原则
数据目次3.0的4个特征1.数据资产 》表格
Data Catalog 2.0 天生的条件是“表格”是独一需要办理的资产。但此刻完全纷歧样了。
如今,BI 仪表板、代码片断、SQL 查询、模子、功效和 Jupyter 条记本都是数据资产
3.0代元数据办理将需要足够机动,以便智能地存储和将所有这些差别类型的数据资产链接在一个处所。
2.端到端数据可见性,而不是琐屑碎的解决方案
数据目次 2.0 时代的东西在改良数据发明方面取得了重大入铺。然而,他们并没有为组织提供数据的“单一事实来历”。有关数据资产的信息凡是漫衍在差别的处所——数据沿袭东西、数据质量东西、数据筹办东西等等。数据目次 3.0 将帮忙团队终极实现圣杯,即组织中每个数据资产的单一事实来历。
3.元数据为“大数据”的世界而构建
我们正在快速靠近元数据自己就是大数据的世界。 可以或许处置惩罚和理解元数据将有助于团队更好地舆解和信任他们的数据。
这就是为什么新的数据目次3.0应该不仅仅是一个元数据存储的原因。
它应该从底子上操纵元数据作为一种数据形式,可以以与所有其他类型的数据沟通的方式举行搜索、阐明和维护
今天,云的可扩铺性使这成为可能,这是前所未有的。 比方,查询日志只是当今可用的一种元数据。 通过解析 Snowflake 中查询日志中的 SQL 代码,可以自动创建列级沿袭,为每个数据资产分派风行度分数,甚至可以揣度每个资产的潜在所有者和专家。
4. 嵌进式协作已经成熟
Airbnb 在分享他们在鞭策接纳内部数据流派方面的经验时说了一些深刻的话:“设计数据东西的界面和用户体验不该该是过后的设法主意。”
因为数据团队的根基多样性,需要设计数据东西以与团队的日常事情流程无缝集成。
这就是嵌进式协作理念真正活跃的处所。嵌进式协作是指在您地点的位置举行事情,摩擦起码。
假如可以在得到链接时请求会见数据资产,就像使用 Google Docs 一样,而且所有者可以在 Slack 上得到请求并当即核准或拒尽它,该怎么办?或者,当您查抄数据资产并需要陈诉问题时,您可以当即触发与工程团队的 JIRA 事情流程完美集成的支持请求,该怎么办?
嵌进式协作可以同一数十个这样的微型事情流程,这些事情流程会挥霍时间、造成挫折并导致数据团队的东西疲惫,反而让这些任务变得有趣!
数据掩护与毗连元数据为什么掩护元数据如斯重要?
毗连元数据是您在线举行操作时天生的数据,比方会见网站、使用应用法式或发送动静。此元数据记载信息,比方谁发送了数据(以 IP 地址的形式)、他们将数据发送到那边(另一个 IP)、何时以及发送了几多数据。简而言之,它是关于数据的数据。
就其自己而言,这似乎并不多,但每次在线互动城市天生数十个元数据,险些都是公然的或易于查找的。假如有人收集了足够多的元数据,他们很快就会清晰地相识你的在线勾当,并相识你的线下糊口。纵然毗连是端到端加密的,这也是可能的。
为什么存在毗连元数据?
因此,假如存在这样的问题,为什么不断止创建所有这些元数据,或者至少将其设为私有?不幸的是,工作并没有那么简朴:大众元数据对于互联网今朝的运作方式至关重要,这是一个没有人可以或许想象互联网会成长到多大的时代的遗物,或者恶意行为者可能会如何滥用它。
根基上,可以把它想象成邮寄一封信。内收留可以密封在信封中,但要达到目的地,信封需要清晰地注明地址。任何人都可以读取此地址信息。假如他们愿意,他们可以记下信封的往向、信封有多大以及何时寄出。跟着时间的推移,他们可以成立这些信息的数据库并开始寻找模式。所有这些都无需打开信封。
假如我可以望到您在哪些商店购物、您正在使用哪些应用法式以及您向谁发送动静,我实际上不需要知道您的动静内收留或您购置的完整具体信息来揣度许多关于你的信息。
可是谁真正望到了这个元数据?每次上网时,数十家差别的公司和办事城市望到并可能记载此元数据。有互联网办事提供商 (ISP)、电信公司、使互联网正常事情的 DNS 办事器和内收留交付网络 (CDN),比方 Cloudflare,它们实际上为大部门 Web 内收留提供办事。大大都环境下,这些办事都在未经您同意的环境下收集和存储有关您的信息。
现代网络办事彼此联系关系的方式意味着这个列表只会增加。比方,假如会见一个嵌进了 YouTube 视频的网站,那么纵然不点击视频,Google 也会收到会见通知。这些信息可以通过IP 地址轻松链接到用户的姓名,谷歌通过用户的谷歌帐户知道用户的姓名,并添加到谷歌维护的关于用户的具体档案中。不仅仅是谷歌。同样的工作也产生在 Facebook,或者像 Medium 这样的博客托管网站,或者即时动静平台。这一切都不需要 cookie 或任何分外的代码,更改您的隐私配置也不会阻止它。这就是当今互联网的运作方式。
那时我们甚至还没有碰到黑客、当局过分干涉干与等问题,以及假如用户是在线企业,如何宁静地处置惩罚和掩护元数据的巨大问题,此刻羁系机构已经开始注意到这一点。但这些是将来剧集的主题。
大众毗连元数据在 Internet 的事情方式中根深蒂固,因此没有简朴的解决方案。解决它的独一要领是接纳全新的数据传输要领。
今朝,区块链项目开始存眷这一范畴。纵然得用户、公司和设备在完全隐私的环境下,举行在线互换信息。通讯和生意业务的人可以确保没有人可以或许知道正在共享哪些数据、谁正在发送或吸收数据,甚至有几多数据被发送。
最重要的是,具备往中央化的、完全透明且无需信任的特点,意味着永遥不必依靠第三方,也永遥不会被锁定在办事中或不得不抛却对数据的节制。
DAOrayaki DAO研究奖金池:
资助地址: 0xCd7da526f5C943126fa9E6f63b7774fA89E88d71
投票入铺:DAO Committee 3/7 通过
赏金总量:120 USDC
研究种类:DAO,?Metadata, Data Stacks, Data Catalog 3.0
原文作者:Prukalpa
孝敬者:?Dewei, DAOctor @DAOrayaki
原文: Data Catalog 3.0: Modern Metadata for the Modern Data Stack