Greenplum数据库文档
返回Greenplum数据库
Wiki
文档索引
关于此文档
最佳实践
最佳实践概要
系统配置
模式设计
内存和负载管理
系统监控和维护
用ANALYZE更新统计信息
在数据库中管理膨胀
监控Greenplum数据库日志文件
装载数据
用gptransfer迁移数据
安全性
加密数据和数据库连接
访问Kerberos化的Hadoop集群
调优SQL查询
高可用性
安全性配置指南
保护数据库
Greenplum数据库端口和协议
配置客户端认证
配置数据库授权
审计
加密数据和数据库连接
用受Kerberos保护的Hadoop集群启用gphdfs认证
安全性最佳实践
管理员指南
Greenplum数据库概念
关于Greenplum的架构
关于管理和监控工具
关于Greenplum数据库中的并发控制
管理事务ID的例子
关于并行数据装载
关于Greenplum数据库中的冗余和故障切换
关于Greenplum数据库中的数据库统计信息
管理一个Greenplum系统
启动和停止Greenplum数据库
访问数据库
建立一个数据库会话
支持的客户端应用
Greenplum数据库客户端应用
用psql连接
使用PgBouncer连接池
数据库应用接口
连接问题的发现及解决
配置Greenplum数据库系统
关于Greenplum数据库的Master参数和本地参数
设置配置参数
设置本地配置参数
设置Master配置参数
在系统级别设置参数
在数据库级别设置参数
在角色级别设置参数
在会话中设置参数
查看服务器配置参数设置
配置参数种类
连接和认证参数
连接参数
安全性和认证参数
系统资源消耗参数
内存消耗参数
空闲空间映射参数
操作系统资源参数
基于代价的清理延迟参数
事务ID管理参数
查询调节参数
GPORCA 配置参数
查询计划操作符控制参数
传统查询优化器代价参数
数据库统计信息采样参数
排序操作符配置参数
聚集操作符配置参数
连接操作符配置参数
其他传统查询优化器配置参数
错误报告和日志参数
日志轮转
什么时候记录日志
记录什么
系统监控参数
SNMP报警
Email报警
Greenplum命令中心代理
运行时统计信息收集参数
自动统计信息收集参数
客户端连接默认参数
语句行为参数
区域和格式化参数
其他客户端默认参数
锁管理参数
负载管理参数
外部表参数
数据库表参数
数据库和表空间/文件空间参数
以往的PostgreSQL版本兼容参数
Greenplum阵列配置参数
Interconnect配置参数
分派配置参数
错误操作参数
分布式事务管理参数
只读参数
Greenplum的Master和Segment镜像参数
Greenplum数据库扩展参数
启用高可用特性
Greenplum数据库高可用性概述
Segment镜像概述
Master镜像概述
故障检测与恢复概述
在Greenplum数据库中启用镜像
启用Segment镜像
启用Master镜像
检测失效的Segment
启用告警和通知
检查失效的Segment
为失效Segment检查日志文件
恢复失效的Segment
从Segment失效中恢复
当一台Segment主机不可恢复时
关于Segment恢复处理
恢复失效的Master
在恢复后还原Master镜像
备份和恢复数据库
备份和恢复概述
用gpcrondump备份
备份表集合
创建增量备份
备份处理和锁
使用直接I/O
使用命名管道
用Veritas NetBackup备份数据库
恢复Greenplum数据库
使用gpdbrestore恢复数据库
恢复到不同的Greenplum系统配置
扩展Greenplum系统
系统扩展概述
规划Greenplum系统扩展
准备并且增加节点
初始化新Segment
重分布表
移除扩展方案
用gptransfer迁移数据
监控Greenplum系统
日常系统维护任务
推荐的监控和维护任务
管理Greenplum数据库访
配置客户端认证
使用带TLS/SSL的LDAP认证
使用Kerberos认证
为Linux客户端配置Kerberos
为Windows客户端配置Kerberos
管理角色和特权
使用数据库
定义数据库对象
创建和管理数据库
创建和管理表空间
创建和管理方案
创建和管理表
选择表存储模型
对大型表分区
创建和使用序列
在Greenplum数据库中使用索引
创建和管理视图
管理数据
装载和卸载数据
使用基于文件的外部表
访问基于文件的外部表
file://协议
gpfdist://协议
gpfdists://协议
gphdfs://协议
s3://协议
使用自定义协议
处理外部表数据中的错误
使用Greenplum的并行文件服务器(gpfdist)
有关gpfdist设置和性能
控制Segment并行
安装gpfdist
启动和停止gpfdist
解决gpfdist的问题
使用Hadoop分布式文件系统(HDFS)表
一次性HDFS协议安装
为HDFS协议授予特权
在外部表定义中指定HDFS数据
为Hadoop可写外部表设置压缩选项
HDFS可读和可写外部表实例
读写自定义格式的HDFS数据
例 1 - 从HDFS读取自定义格式数据
MapReduce代码示例
运行CREATE EXTERNAL TABLE
例 2 - 从Greenplum数据库写自定义格式的数据到HDFS
MapReduce示例代码
有关gphdfs的JVM内存
将Amazon EMR用于安装在AWS上的Greenplum数据库
对Avro文件的支持
对Parquet文件的支持
创建并使用外部Web表
基于命令的外部Web表
基于URL的外部Web表
使用外部表装载数据
装载和写入非HDFS自定义数据
使用一种自定义格式
导入和导出固定宽度的数据
例子:读取宽度固定的数据
使用自定义协议
创建外部表 - 例子
例 1—单NIC机器上的单gpfdist实例
例 2—多gpfdist实例
例 3—多gpfdists实例
例 4—带错误日志的单gpfdist实例
例 5—一个Hadoop分布式文件服务器上的TEXT格式
例 6—多个有头部行的CSV格式文件
例 7—使用脚本的可读外部Web表
例 8—使用gpfdist的可写外部表
例 9—使用脚本的可写外部Web表
例 10—使用XML转换的可读写外部表
处理装载错误
定义一个带有单行错误隔离的外部表
捕捉行格式化错误并且声明拒绝极限
在错误日志中查看不正确的行
在错误表数据中标识非法CSV文件
在表之间移动数据
用gpload装载数据
用COPY装载数据
在单行错误隔离模式中运行COPY
优化数据装载和查询性能
从Greenplum数据库卸载数据
定义基于文件的可写外部表
例 1—Greenplum文件服务器(gpfdist)
例 2—Hadoop文件系统(gphdfs)
定义基于命令的可写外部Web表
为Web或者可写外部表禁用EXECUTE
使用可写外部表卸载数据
使用COPY卸载数据
转换XML数据
确定转换方案
编写转换
编写gpfdist配置
装载数据
传输和存储数据
用GPLOAD转换
用INSERT INTO SELECT FROM转换
配置文件格式
XML转换示例
基于命令的外部Web表
例 2 - IRS MeF XML 文件(在demo目录中)
例 3 - WITSML™ 文件 (在demo目录中)
格式化数据文件
格式化行
格式化列
表示NULL值
转义
在文本格式的文件中转义
在CSV格式的文件中转义
字符编码
自定义数据访问协议实例
安装外部表协议
gpextprotocal.c
查询数据
关于Greenplum的查询处理
关于GPORCA
GPORCA概述
启用和禁用GPORCA
使用GPORCA时的考虑
GPORCA特性和增强
GPORCA带来的改变
GPORCA的限制
判断被使用的查询优化器
关于统一多级分区表
定义查询
使用函数和操作符
使用JSON数据
使用XML数据
查询性能
管理查询生成的溢出文件
查询画像
管理性能
定义数据库性能
性能问题的常见原因
用资源队列进行工作负载管理
检修性能问题
工具指南
管理工具参考
analyzedb
gpactivatestandby
gpaddmirrors
gpcheck
gpcheckcat
gpcheckperf
gpconfig
gpcrondump
gpdbrestore
gpdeletesystem
gpexpand
gpfdist
gpfilespace
gpinitstandby
gpinitsystem
gpload
gplogfilter
gpmapreduce
gpmfr
gpperfmon_install
gppkg
gprecoverseg
gpreload
gpscp
gpseginstall
gpssh
gpssh-exkeys
gpstart
gpstate
gpstop
gpsys1
gptransfer
pgbouncer
客户端工具参考
客户端工具摘要
clusterdb
createdb
createuser
dropdb
droplang
dropuser
createlang
pg_config
pg_dump
pg_dumpall
pg_restore
psql
reindexdb
vacuumdb
Oracle兼容性函数
dblink函数
Greenplum数据库参考指南
SQL命令参考
SQL语法概要
ABORT
ALTER AGGREGATE
ALTER CONVERSION
ALTER DATABASE
ALTER DOMAIN
ALTER EXTENSION
ALTER EXTERNAL TABLE
ALTER FILESPACE
ALTER FUNCTION
ALTER GROUP
ALTER INDEX
ALTER LANGUAGE
ALTER OPERATOR
ALTER OPERATOR CLASS
ALTER OPERATOR FAMILY
ALTER PROTOCOL
ALTER RESOURCE QUEUE
ALTER ROLE
ALTER SCHEMA
ALTER SEQUENCE
ALTER TABLE
ALTER TABLESPACE
ALTER TYPE
ALTER USER
ALTER VIEW
ANALYZE
BEGIN
CHECKPOINT
CLOSE
CLUSTER
COMMENT
COMMIT
COPY
CREATE AGGREGATE
CREATE CAST
CREATE CONVERSION
CREATE DATABASE
CREATE DOMAIN
CREATE EXTENSION
CREATE EXTERNAL TABLE
CREATE FUNCTION
CREATE GROUP
CREATE INDEX
CREATE LANGUAGE
CREATE OPERATOR
CREATE OPERATOR CLASS
CREATE OPERATOR FAMILY
CREATE PROTOCOL
CREATE RESOURCE QUEUE
CREATE ROLE
CREATE RULE
CREATE SCHEMA
CREATE SEQUENCE
CREATE TABLE
CREATE TABLE AS
CREATE TABLESPACE
CREATE TYPE
CREATE USER
CREATE VIEW
DEALLOCATE
DECLARE
DELETE
DISCARD
DO
DROP AGGREGATE
DROP CAST
DROP CONVERSION
DROP DATABASE
DROP DOMAIN
DROP EXTENSION
DROP EXTERNAL TABLE
DROP FILESPACE
DROP FUNCTION
DROP GROUP
DROP INDEX
DROP LANGUAGE
DROP OPERATOR
DROP OPERATOR CLASS
DROP OPERATOR FAMILY
DROP OWNED
DROP PROTOCOL
DROP RESOURCE QUEUE
DROP ROLE
DROP RULE
DROP SCHEMA
DROP SEQUENCE
DROP TABLE
DROP TABLESPACE
DROP TYPE
DROP USER
DROP VIEW
END
EXECUTE
EXPLAIN
FETCH
GRANT
INSERT
LOAD
LOCK
MOVE
PREPARE
REASSIGN OWNED
REINDEX
RELEASE SAVEPOINT
RESET
REVOKE
ROLLBACK
ROLLBACK TO SAVEPOINT
SAVEPOINT
SELECT
SELECT INTO
SET
SET ROLE
SET SESSION AUTHORIZATION
SET TRANSACTION
SHOW
START TRANSACTION
TRUNCATE
UPDATE
VACUUM
VALUES
SQL 2008可选特性符合
Greenplum环境变量
系统目录参考
系统表
系统视图
系统目录定义
gp_configuration_history
gp_db_interfaces
gp_distributed_log
gp_distributed_xacts
gp_distribution_policy
gpexpand.expansion_progress
gpexpand.status
gpexpand.status_detail
gp_fastsequence
gp_fault_strategy
gp_global_sequence
gp_id
gp_interfaces
gp_persistent_database_node
gp_persistent_filespace_node
gp_persistent_relation_node
gp_persistent_tablespace_node
gp_pgdatabase
gp_relation_node
gp_resqueue_status
gp_segment_configuration
gp_transaction_log
gp_version_at_initdb
pg_aggregate
pg_am
pg_amop
pg_amproc
pg_appendonly
pg_attrdef
pg_attribute
pg_attribute_encoding
pg_auth_members
pg_authid
pg_available_extension_versions
pg_available_extensions
pg_cast
pg_class
pg_compression
pg_constraint
pg_conversion
pg_database
pg_depend
pg_description
pg_enum
pg_extension
pg_exttable
pg_filespace
pg_filespace_entry
pg_index
pg_inherits
pg_language
pg_largeobject
pg_listener
pg_locks
pg_max_external_files
pg_namespace
pg_opclass
pg_operator
pg_partition
pg_partition_columns
pg_partition_encoding
pg_partition_rule
pg_partition_templates
pg_partitions
pg_pltemplate
pg_proc
pg_resourcetype
pg_resqueue
pg_resqueue_attributes
pg_resqueuecapability
pg_rewrite
pg_roles
pg_shdepend
pg_shdescription
pg_stat_activity
pg_stat_last_operation
pg_stat_last_shoperation
pg_stat_operations
pg_stat_partition_operations
pg_stat_replication
pg_statistic
pg_stat_resqueues
pg_tablespace
pg_trigger
pg_type
pg_type_encoding
pg_user_mapping
pg_window
gp_toolkit管理方案
检查需要日常维护的表
检查锁
检查追加优化表
查看Greenplum服务器日志文件
检查服务器端配置文件
检查失效的Segment
检查资源队列的活动和状态
检查查询磁盘溢出空间使用
浏览用户和组(角色)
检查数据库对象的大小和磁盘空间
检查不均匀的数据分布
gpperfmon数据库
database_*
diskspace_*
filerep_*
interface_stats_*
log_alert_*
queries_*
segment_*
socket_stats_*
system_*
dynamic_memory_info
memory_info
Greenplum数据库数据类型
字符集支持
服务器配置参数
参数类型和值
设置参数
参数分类
配置参数
add_missing_from
application_name
array_nulls
authentication_timeout
backslash_quote
block_size
bonjour_name
check_function_bodies
client_encoding
client_min_messages
cpu_index_tuple_cost
cpu_operator_cost
cpu_tuple_cost
cursor_tuple_fraction
custom_variable_classes
DateStyle
db_user_namespace
deadlock_timeout
debug_assertions
debug_pretty_print
debug_print_parse
debug_print_plan
debug_print_prelim_plan
debug_print_rewritten
debug_print_slice_table
default_statistics_target
default_tablespace
default_transaction_isolation
default_transaction_read_only
dynamic_library_path
effective_cache_size
enable_bitmapscan
enable_groupagg
enable_hashagg
enable_hashjoin
enable_indexscan
enable_mergejoin
enable_nestloop
enable_seqscan
enable_sort
enable_tidscan
escape_string_warning
explain_pretty_print
extra_float_digits
filerep_mirrorvalidation_during_resync
from_collapse_limit
gp_adjust_selectivity_for_outerjoins
gp_analyze_relative_error
gp_appendonly_compaction
gp_appendonly_compaction_threshold
gp_autostats_mode
gp_autostats_mode_in_functions
gp_autostats_on_change_threshold
gp_backup_directIO
gp_backup_directIO_read_chunk_mb
gp_cached_segworkers_threshold
gp_command_count
gp_connection_send_timeout
gp_connections_per_thread
gp_content
gp_create_table_random_default_distribution
gp_dbid
gp_debug_linger
gp_default_storage_options
gp_dynamic_partition_pruning
gp_email_from
gp_email_smtp_password
gp_email_smtp_server
gp_email_smtp_userid
gp_email_to
gp_enable_adaptive_nestloop
gp_enable_agg_distinct
gp_enable_agg_distinct_pruning
gp_enable_direct_dispatch
gp_enable_exchange_default_partition
gp_enable_fallback_plan
gp_enable_fast_sri
gp_enable_gpperfmon
gp_enable_groupext_distinct_gather
gp_enable_groupext_distinct_pruning
gp_enable_multiphase_agg
gp_enable_predicate_propagation
gp_enable_preunique
gp_enable_relsize_collection
gp_enable_sequential_window_plans
gp_enable_sort_distinct
gp_enable_sort_limit
gp_external_enable_exec
gp_external_max_segs
gp_filerep_tcp_keepalives_count
gp_filerep_tcp_keepalives_idle
gp_filerep_tcp_keepalives_interval
gp_fts_probe_interval
gp_fts_probe_retries
gp_fts_probe_threadcount
gp_fts_probe_timeout
gp_gpperfmon_send_interval
gpperfmon_log_alert_level
gp_hadoop_home
gp_hadoop_target_version
gp_hashjoin_tuples_per_bucket
gp_idf_deduplicate
gp_initial_bad_row_limit
gp_interconnect_fc_method
gp_interconnect_hash_multiplier
gp_interconnect_queue_depth
gp_interconnect_setup_timeout
gp_interconnect_snd_queue_depth
gp_interconnect_type
gp_log_format
gp_log_fts
gp_log_gang
gp_max_csv_line_length
gp_max_databases
gp_max_filespaces
gp_max_local_distributed_cache
gp_max_packet_size
gp_max_plan_size
gp_max_tablespaces
gp_motion_cost_per_row
gp_num_contents_in_cluster
gp_reject_percent_threshold
gp_reraise_signal
gp_resqueue_memory_policy
gp_resqueue_priority
gp_resqueue_priority_cpucores_per_segment
gp_resqueue_priority_sweeper_interval
gp_role
gp_safefswritesize
gp_segment_connect_timeout
gp_segments_for_planner
gp_server_version
gp_server_version_num
gp_session_id
gp_set_proc_affinity
gp_set_read_only
gp_snmp_community
gp_snmp_monitor_address
gp_snmp_use_inform_or_trap
gp_statistics_pullup_from_child_partition
gp_statistics_use_fkeys
gp_vmem_idle_resource_timeout
gp_vmem_protect_limit
gp_vmem_protect_segworker_cache_limit
gp_workfile_checksumming
gp_workfile_compress_algorithm
gp_workfile_limit_files_per_query
gp_workfile_limit_per_query
gp_workfile_limit_per_segment
gpperfmon_port
integer_datetimes
IntervalStyle
join_collapse_limit
keep_wal_segments
krb_caseins_users
krb_server_keyfile
krb_srvname
lc_collate
lc_ctype
lc_messages
lc_monetary
lc_numeric
lc_time
listen_addresses
local_preload_libraries
log_autostats
log_connections
log_disconnections
log_dispatch_stats
log_duration
log_error_verbosity
log_executor_stats
log_hostname
log_min_duration_statement
log_min_error_statement
log_min_messages
log_parser_stats
log_planner_stats
log_rotation_age
log_rotation_size
log_statement
log_statement_stats
log_timezone
log_truncate_on_rotation
max_appendonly_tables
max_connections
max_files_per_process
max_fsm_pages
max_fsm_relations
max_function_args
max_identifier_length
max_index_keys
max_locks_per_transaction
max_prepared_transactions
max_resource_portals_per_transaction
max_resource_queues
max_stack_depth
max_statement_mem
optimizer
optimizer_array_expansion_threshold
optimizer_analyze_root_partition
optimizer_control
optimizer_cte_inlining_bound
optimizer_enable_master_only_queries
optimizer_force_multistage_agg
optimizer_force_three_stage_scalar_dqa
optimizer_join_order_threshold
optimizer_mdcache_size
optimizer_metadata_caching
optimizer_minidump
optimizer_nestloop_factor
optimizer_parallel_union
optimizer_print_missing_stats
optimizer_print_optimization_stats
optimizer_sort_factor
password_encryption
password_hash_algorithm
pgstat_track_activity_query_size
pljava_classpath
pljava_classpath_insecure
pljava_statement_cache_size
pljava_release_lingering_savepoints
pljava_vmoptions
port
random_page_cost
readable_external_table_timeout
repl_catchup_within_range
replication_timeout
regex_flavor
resource_cleanup_gangs_on_wait
resource_select_only
runaway_detector_activation_percent
search_path
seq_page_cost
server_encoding
server_version
server_version_num
shared_buffers
shared_preload_libraries
ssl
ssl_ciphers
standard_conforming_strings
statement_mem
statement_timeout
stats_queue_level
superuser_reserved_connections
tcp_keepalives_count
tcp_keepalives_idle
tcp_keepalives_interval
temp_buffers
TimeZone
timezone_abbreviations
track_activities
track_counts
transaction_isolation
transaction_read_only
transform_null_equals
unix_socket_directory
unix_socket_group
unix_socket_permissions
update_process_title
vacuum_cost_delay
vacuum_cost_limit
vacuum_cost_page_dirty
vacuum_cost_page_hit
vacuum_cost_page_miss
vacuum_freeze_min_age
validate_previous_free_tid
vmem_process_interrupt
wal_receiver_status_interval
writable_external_table_bufsize
xid_stop_limit
xid_warn_limit
内建函数摘要
Greenplum MapReduce规范
Greenplum的PL/pgSQL过程语言
Greenplum的PL/R语言扩展
Greenplum的PL/Python语言扩展
Greenplum的PL/Java语言扩展
Greenplum的PL/Perl语言扩展
用于分析的Greenplum MADlib扩展
Greenplum的模糊字符串匹配扩展
Greenplum特性摘要
例 1 - 从HDFS读取自定义格式数据
例 1 - 从HDFS读取自定义格式数据
这里的示例代码做了下列假定。
数据被包含在HDFS目录
/demo/data/temp
中并且NameNode运行在端口8081上。
这段代码会把Greenplum数据库格式的数据写入到HDFS上的
/demo/data/MRTest1
中。
数据按顺序包含下面的列。
一个长整数
一个布尔值
一个文本串
上级主题:
一次性HDFS协议安装