ANALYZE

收集有关一个数据库的统计信息。

概要

ANALYZE [VERBOSE] [table [ (column [, ...] ) ]]

ANALYZE [VERBOSE] {root_partition|leaf_partition} [ (column [, ...] )] 

ANALYZE [VERBOSE] ROOTPARTITION {ALL | root_partition [ (column [, ...] )]}

描述

ANALYZE收集有关数据库中表内容的统计信息，并将结果存储在系统表pg_statistic中。随后，Greenplum数据库使用这些统计信息来帮助确定最有效的查询执行计划。有关收集的表统计信息的信息，请参阅Notes。

如果不使用任何参数，则ANALYZE会收集当前数据库中每个表的统计信息。您可以指定表名称以收集单个表的统计信息。您可以指定一组列名，在这种情况下，仅收集这些列的统计信息。

ANALYZE不会收集外部表的统计信息。

对于分区表，ANALYZE在叶子分区上收集其他统计信息，即HyperLogLog（HLL）统计信息。 HLL统计信息用于得出针对分区表的查询的不同值（NDV）数量。

当汇总多个叶子分区的NDV估计值时，HLL统计信息比标准表统计信息生成更准确的NDV估计值。
更新HLL统计信息时，仅在已更改的叶子分区上才需要ANALYZE操作。例如，如果叶子子分区数据已更改，或者叶子子分区已与另一个表交换，则ANALYZE是必需的。有关更新分区表统计信息的更多信息，请参见Notes。

Important: 如果要在启用GPORCA的分区表上执行查询（默认设置），则必须使用ANALYZE或ANALYZE ROOTPARTITION命令在分区表的根分区上收集统计信息。有关收集分区表上的统计信息以及何时需要ROOTPARTITION关键字的信息，请参阅Notes。有关GPORCA的信息，请参阅中的GPORCA概述。

Note: 您还可以使用Greenplum数据库实用程序analyzedb更新表统计信息。 analyzedb 可以同时更新多个表的统计信息。该实用程序还可以检查表统计信息并仅在统计信息不是当前统计信息或不存在时更新统计信息。有关该实用程序的信息，请参阅Greenplum Database Utility Guide。

参数

{ root_partition | leaf_partition } [ (column [, ...] ) ]

收集分区表的统计信息，包括HLL统计信息。 HLL统计信息仅在叶子分区上收集。

ANALYZE root_partition, 收集所有叶子分区和根分区的统计信息。

ANALYZE leaf_partition, 收集有关叶子分区的统计信息。

默认情况下，如果指定叶子分区，并且所有其他叶子分区都具有统计信息，则ANALYZE更新根分区统计信息。如果不是所有叶子子分区都具有统计信息，则ANALYZE记录有关没有统计信息的叶子子分区的信息。有关何时收集根分区统计信息的信息，请参阅Notes。

ROOTPARTITION [ALL]

仅基于分区表中的数据收集分区表的根分区上的统计信息。如果可能，ANALYZE使用叶子分区统计信息生成根分区统计信息。否则，ANALYZE通过对叶子分区数据进行采样来收集统计信息。未在叶子分区上收集统计信息，仅对数据进行采样。不会收集HLL统计信息。

有关何时需要ROOTPARTITION关键字的信息，请参阅Notes。

指定ROOTPARTITION时，必须指定ALL或分区表的名称。

如果将ROOTPARTITION指定为ALL，则Greenplum Database会收集数据库中所有分区表的根分区的统计信息。如果数据库中没有分区表，则会返回一条消息，指出没有分区表。对于不是分区表的表，不会收集统计信息。

如果使用ROOTPARTITION指定表名，并且该表不是分区表，则不会为该表收集任何统计信息，并且会返回警告消息。

ROOTPARTITION子句不适用于VACUUM ANALYZE。 VACUUM ANALYZE ROOTPARTITION命令返回错误。

运行ANALYZE ROOTPARTITION的时间类似于分析具有相同数据的非分区表的时间，因为ANALYZE ROOTPARTITION仅采样叶子分区数据。

对于分区表 sales_curr_yr，此示例命令仅在分区表的根分区上收集统计信息。ANALYZE ROOTPARTITION sales_curr_yr;;

此示例ANALYZE命令收集有关数据库中所有分区表的根分区的统计信息。

ANALYZE ROOTPARTITION ALL;

VERBOSE

启用显示进度消息。启用显示进度消息。指定时，ANALYZE 发出此信息

正在处理的表。
执行该查询以生成示例表。
要为其计算统计信息的列。
发出以收集单个列的不同统计信息的查询。
收集的统计信息。

table

要分析的特定表的名称（可能是模式限定的）。如果省略，则分析当前数据库中的所有常规表（而不是外部表）。

column

要分析的特定列的名称。默认为所有列。

注意

仅在明确选择外表时才进行分析。并非所有外部数据包装器都支持ANALYZE。如果表的包装器不支持ANALYZE，则该命令将显示警告并且不执行任何操作。

最好定期或在对表内容进行重大更改之后立即运行ANALYZE。准确的统计信息有助于Greenplum数据库选择最合适的查询计划，从而提高查询处理的速度。只读数据库的常见策略是在一天的低使用时间内每天运行一次 VACUUM 和ANALYZE。（如果有大量更新活动，这是不够的。）您可以使用gp_toolkit模式中的gp_stats_missing视图来检查缺少统计信息的表：

SELECT * from gp_toolkit.gp_stats_missing;

ANALYZE要求对目标表进行SHARE UPDATE EXCLUSIVE锁定。此锁与以下锁冲突：SHARE UPDATE EXCLUSIVE, SHARE, SHARE ROW EXCLUSIVE, EXCLUSIVE, ACCESS EXCLUSIVE。

如果您在不包含数据的表上运行ANALYZE，则不会为该表收集统计信息。例如，如果您对具有统计信息的表执行TRUNCATE操作，然后对该表运行ANALYZE，则统计信息不会更改。

对于分区表，如果分区表具有大量已分析的分区，而只有几个叶子分区具有分区，则指定要分析的表部分，根分区或子分区（叶子分区表）可能会有用改变了。

Note: 当您使用CREATE TABLE命令创建分区表时，Greenplum数据库将创建您指定的表（根分区或父表），并根据您指定的分区层次结构（子表）创建表层次结构。

在根分区表上运行ANALYZE时，将收集所有叶子分区的统计信息。叶子子分区是Greenplum数据库创建供子表使用的子表层次结构中的最低级表。
在叶子分区上运行ANALYZE时，仅收集该叶子分区和根分区的统计信息。如果叶子分区中的数据已更改（例如，您对叶子子分区数据进行了重大更新或交换了叶子子分区），则可以在叶子子分区上运行ANALYZE来收集表统计信息。默认情况下，如果所有其他叶子分区都具有统计信息，则该命令将更新根分区统计信息。
例如，如果您在具有大量分区的分区表上收集统计信息，然后仅在几个叶子分区中更新数据，则可以仅在那些分区上运行ANALYZE来更新分区的统计信息和根分区的统计信息。
在不是叶子分区的子表上运行ANALYZE时，不会收集统计信息。
例如，您可以创建一个分区表，其中包含2006年至2016年的分区以及每年每个月的子分区。如果您在2013年的子表上运行ANALYZE，则不会收集任何统计信息。如果您在2013年3月在叶子分区上运行ANALYZE，则仅收集该叶子分区的统计信息。

对于包含已被交换以使用外部表的叶子分区的分区表，ANALYZE不会收集外部表分区的统计信息：

如果在外部表分区上运行ANALYZE，则不会分析该分区。
如果在根分区上运行ANALYZE或ANALYZE ROOTPARTITION，则不对外部表分区进行采样，并且根表统计信息不包括外部表分区。
如果指定了VERBOSE子句，则会显示一条参考消息：skipping external table。

Greenplum数据库服务器配置参数optimizer_analyze_root_partition影响何时在分区表的根分区上收集统计信息。如果该参数为on（默认值），则在运行ANALYZE时，不需要ROOTPARTITION关键字来收集根分区上的统计信息。在根分区上运行ANALYZE或在分区表的子叶分区上运行ANALYZE且其他子叶分区具有统计信息时，将收集根分区统计信息。如果该参数是off，则必须运行ANALZYE ROOTPARTITION来收集根分区统计信息。

ANALYZE收集的统计信息通常包括每列中一些最常用值的列表以及显示每列中近似数据分布的直方图。如果ANALYZE认为它们不重要（例如，在唯一键列中没有公共值），或者列数据类型不支持适当的运算符，则可以忽略其中一个或两个。

对于大型表，ANALYZE会从表内容中随机抽取一个样本，而不是检查每一行。这样就可以在很短的时间内分析非常大的表。但是请注意，统计信息仅是近似的，并且每次运行ANALYZE都会略有变化，即使实际的表内容没有变化。这可能会导致EXPLAIN所显示的计划者估算成本发生细微变化。在极少数情况下，这种不确定性将导致查询优化器在ANALYZE运行之间选择不同的查询计划。为了避免这种情况，请通过调整default_statistics_target配置参数来提高ANALYZE收集的统计信息的数量，或者通过使用ALTER TABLE ... ALTER COLUMN ... SET (n_distinct ...)（请参阅ALTER TABLE）。目标值设置最常用值列表中的最大条目数和直方图中的最大bin数。默认目标值是100，但是可以向上或向下调整该值以权衡规划器估计的准确性与ANALYZEv所花费的时间以及pg_statistic中占用的空间量。特别是，将统计目标设置为零会禁用该列的统计收集。对于从未用作查询的WHERE, GROUP BY或ORDER BY子句一部分的列，执行此操作可能很有用，因为计划器将不会使用此类列的统计信息。

要分析的列中最大的统计信息目标确定为准备统计信息而采样的表行数。增加目标会导致进行ANALYZE所需的时间和空间成比例增加。

ANALYZE估计的值之一是出现在每列中的不同值的数量。因为仅检查了行的子集，所以即使使用最大可能的统计目标，此估计有时也可能非常不准确。如果此错误导致查询计划不正确，则可以手动确定更准确的值，然后与ALTER TABLE ... ALTER COLUMN ... SET STATISTICS DISTINCT一起安装（请参阅ALTER TABLE）。

当Greenplum数据库执行ANALYZE操作以收集表的统计信息并检测到所有采样的表数据页均为空（不包含有效数据）时，Greenplum数据库将显示一条消息，指出应该执行VACUUM FULL操作。如果采样页为空，则表统计信息将不准确。对表进行大量更改（例如删除大量行）后，页面将变为空。 VACUUM FULL操作可删除空白页，并允许ANALYZE操作收集准确的统计信息。

如果该表没有统计信息，则服务器配置参数gp_enable_relsize_collection将控制Postgres查询优化器使用默认统计信息文件还是使用pg_relation_size函数估计表的大小。默认情况下，如果统计信息不可用，Postgres优化器将使用默认的统计信息文件来估计行数。

示例

收集表mytable的统计信息：

ANALYZE mytable;

兼容性

SQL标准中没有ANALYZE语句。

另见

ALTER TABLE, EXPLAIN, VACUUM, analyzedb utility in the Greenplum Database Utility Guide.