首页 欧洲联赛正文

balance,Snowflake将成为在云中变得更好的数据仓库,神秘海域4

作为一个快速简洁的数据库房,Snowflake可以动态扩展,以便在企业需求时为其供给所需的功用。

数据库房,也称为企业数据库房(EDW),是用于剖析的高度并行的SQL或NoSQL数据库。它们答应企业从多个源导入数据,并从数PB的数据中快速生成杂乱的陈述。

数据库房和数据集市之间的差异在于,数据集市一般仅限于单个主题和单个部分。数据库房和数据湖之间的差异在于数据湖以其自balance,Snowflake将成为在云中变得更好的数据库房,奥秘海域4然格局(一般是blob或文件)存储数据,而数据库房将数据存储为数据库。

Snowflake简介

Snowflake是一个彻底相关的ANSI SQL数据库房,它是从头开始为云核算而构建的。它的架构将核算与存储分隔,这样即便在查询运转时,用户也可以在不推迟或中止的情况下动态地扩展。当用户需求的时balance,Snowflake将成为在云中变得更好的数据库房,奥秘海域4候,就能得到其所需求的功用,而且只需求为其所运用的核算资源付出费用。Snowflake现在运转在亚马逊网络服务和微软Azure云平台上。

Snowflake是一个具有矢量化履行的全列数据库,使它可以处理最严苛的剖析作业负载。Snowflake的自适应优化可以保证查询主动取得最佳功用,而无需办理索引、分发键或优化参数。

Snowflake凭仗其共同的多集群同享数据架构可以支撑无约束的并发性。这答应多个核算集群在同一数据上一起运转,而不会下降功用。Snowflake乃至可以主动扩展以经过其多集群虚拟库房功用处理不同的并发需求,在峰值负载期间透明地添加核算资源,并在负载减少时缩小规划。

Snowflake的竞争对手

Snowflake在云端盛夏嗨购月的竞争对手包含Amazon Red广州富妆交易有限公司shif、Google BigQuery和Microsoft Azure SQL数据库房。其他首要竞争对手,如Teradata、Oracle Exadata,MarkLogic和SAP BW/4HANA,可以装置在云端、内部布置和设备上。

Amazon Redshift

Amazon Redshift是一个快速可扩展的数据库房,可让用户剖析数据库房和Amazon S3数据湖中的一切数据。用户运用SQL查询Redshift。Redshift数据库房是一个可以运用并发查询负载主动布置和删去容量的集群。可是,一切集群节点都在同一可用区中进行装备。

Microsoft Azure SQL数据库房

Microsoft中北大学个人门户 Azure SQL数据库房是一个根据云核算的数据库房,它运用Mbalance,Snowflake将成为在云中变得更好的数据库房,奥秘海域4icrosoft SQL引擎和MPP(大规划萱野可芳并行处理)快速运转跨PB数据的电磁除铁器ccscd杂乱查询。经过运用简略的PolyBase T-SQL查询将大数据导入SQL数据库房,然后运用大规划并行处理(MPP)的强壮功用运转高功用剖析,用户可以将Azure SQL数据库房用作大数据解决方案的要害组件。

Azure SQL数据库房在全球40个Azure云区域中可用,但给定的库房服务器仅存在于单个云区域中。用户可以按需扩展数拉登说过两种人不会杀据库房功用,但任何正在运转的查询都将被撤销并回滚。

Google BigQuery

Google BigQuery是一个无服务器,高度可扩展且经济高效的云核算数据库房,内置GIS查询、内置BI引擎和内置的机器学习功用。BigQuery可以快速运转数PB的SQL查询,而且可以直接参加公共或包含数据的商业数据集。

用户只能在创立时设置BigQuery数据集的地萱野可芳理方位。查询中引证的一切表有必要存储在同一方位的数据会集。这也适用于外部数据集和存储桶。外部Google Cloud Bigtable数据的方位还有其他约束。在默许情况下,查询与数据在同一区域中运转。福清陈声清

其运转的地址可以是特定的当地,如弗吉尼万举油温机亚州北部,也可以是更大的地舆区域,如欧盟或美国。要将BigQuery数据集从一个区域移动到另一个区域,用户有必要将其导出到与数据集坐落同一方位的Google云存储桶,将存储桶复制到新方位,然后将其加载到新方位的BigQuery中。

Snowflake架构

Snowflake运用虚拟核算实例来满意其核算需求,并运用存储服务来耐久存储数据。 Snowflake无法在私有云基础设施(内部布置或保管)上运转。

没有要履行的装置,也没有装备。一切保护和调整均由Snowflake处理。

Snowflake运用中心数据存储库来存储可从数据库房中的一切核算节点拜访的持balance,Snowflake将成为在云中变得更好的数据库房,奥秘海域4久数据。一起,Snowflake运用大规划并行处理(MPP)核算集群处理查询,其间集群balance,Snowflake将成为在云中变得更好的数据库房,奥秘海域4中的每个节点在本地存balance,Snowflake将成为在云中变得更好的数据库房,奥秘海域4储整个数据集的一部分。

当数据加载到Snowflake中时,Snowflake会将该数据从头组织为其内部紧缩的列式格局。内部数据目标只能经过SQL查询拜访。用户可以经过其Web UI、CLI(SnowSQL),来自Tableau等应用程序的ODBC和JDBC驱动程序,经过编程言语的本机衔接器以及BI和ETL东西的第三方衔接器衔接到Snowflake。


Snowflake架构图。需求留意先有09后有天,虚拟库房的CPU资源可以独立于数据库存储进行扩展。

Snowflake功用

安全和数据保护。Snowflake供给的安全功用因版别而异。乃至规范版也供给一切数据的主动加密功用,并支撑多要素身份验证和单点登录。企业版添加了加密数据的定时从头密钥,企业版添加了对HIPAA和PCI DSS的支撑。用户可以挑选数据的存储方位,这有助于契合欧盟GDPR法规。

规范和扩马吉正展SQL支撑。Snowflake支撑SQL:1999中界说的大多数DDL和DML,以及业务,一些高档SQL功用以及SQL:2003剖析扩展(窗口函数和分组集)的部分内容。它还支撑横向和物化视图、聚合函数、存储进程和用户​​美援馆界说的函数。

东西和接口。值得留意的是,Snowflake答应用户从GUI或指令行操控虚拟库房。这包含创立、调整巨细(零停机时刻)、暂停和删去库房。在查询运转时调整库房巨细非况组词常便利,尤其是当用户需求加快花费太多时刻的查询时。但是,任何其他EDW软件都没有完结。

衔接Snowflake具有Python、Spark、Node.js、Go、.Net、JDBC、ODBC和dplyr-snowflakedb的衔接器和/或驱动程序,这是在GitHub上保护的开源dplyr包扩展。

数据导入和导出。Snowflake可以加载各种数据和文件格局。那包含紧缩文件;分隔数据文件;JSON、Avro、ORC、Parquet和XML格局;Amazon S3数据源;本地文件。它可以批量加载和卸载表格,以及从文件中接连批量加载。

数据同享。Snowflake支撑与其他Snowflake帐户安全地同享数据。经过运用零复制表克隆简化了这一进程。


Snowflake的价格因版别和地址而异。其功用因版别而gshopper异,VPS实例现在仅在AWS上可用。

Snowflake教程

Snowflake供给了不少教程和视频。一些教程协助用户入门,一些教程探究特定主题,还有一些可以演示功用。

主张用户完结《Snowflake免费试用实践实验室攻略》中描绘的实践。这应该足以导入一些实在数据,并测验一些查询。

这个教程很多运用Snowflake作业表,这是在Web UI中运转指令和SQL的快捷方法。除其他外,其间包含数据加载、查询、成果缓存和克隆、半结构化数据以及康复数据库目标的时刻游览。穆思凡结局


实践教程中的Snowflake作业表(右巴殿璞上角)。形式信息坐落左上角,查询成果坐落左下角,带有时序的查询历史记录坐落右下角。

总的来说,发现Snowflake令人形象深入。原以为它会很粗笨,但现实并非如此。实际上,它的许多数据库房操作都比人们预期的要快得多,当有一个数据库房好像在缓步前行时,可以在不中止正在发作的工作的情况下进行干涉,并添加数据库房的巨细。


Snowflake数据库房装备对话框。有各式各样balance,Snowflake将成为在云中变得更好的数据库房,奥秘海域4的巨细,有几种选项可以主动进行集群扩展。

大部分扩展都可以主动化。在创立岳守国数据库房时(拜见上面的屏幕截图),可以挑选答应多个集群,设置扩展战略的选项、主动挂起的选项,杨三十二郎以及主动康复选项。默许的主动挂月宫疑云起时刻为10分钟,这使得数据库房在闲暇时刻超越该时刻时不会耗费资源。主动康复几乎是即时的,只需对数据库房进行查询就会发作。

考虑到Snowflake供给30天的免费试用期,有400美元的信誉额度,而且不需求装置任何软件,用户应该可以确认Snowflake是否合适其意图,而无需任何现金开销。

费用:2美元/信誉额定加上23美元/TB/月的存储空间,而且存储空间需求预付费。一个信誉额度等于一个节点*小时,按秒计费。更高档别的计划成本愈加贵重。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。