SQL

Prestoリファレンス【集計関数】

     
       

Presto集計関数の紹介

Prestoの集計関数についてご紹介します。

 

集計関数はデータから代表値などを出すための関数で、分析では一番用いる関数だと思います。他RDBと殆ど変わりませんが、自分の備忘録のために記載します。

 

集計関数一覧

凡例

下記一覧で利用している変数などをここに記載します。

 

変数一覧

  • col  ・・・ カラム名(固定文字など)
  • int  ・・・ カラム名(数値型)
  • dbl   ・・・ カラム名(浮動小数点型)

 

関数一覧

No関数説明
1count(col) データの件数をカウントし、返却します。
※nullの場合だけカウント対象外となります。
返却値:integer(bigint)
 
2sum(int)データの合計を返却します。
返却値:integer(bigint)
 
3avg(int)データの平均(相加平均)を返します。
返却値:double
 
4min(int)データ内の最小値を返します。
返却値:integer(bigint)
 
5max(int)データ内の最大値を返します。
返却値:integer(bigint)
 
6histogram(col)各値の回数をカウントし、
マップで返します。
例)
カラムが身長で160-169,170-179と
区分されていた場合,返却値例
{160-169=2,170-179=5}
返却値:map<key, integer(bigint)>
 
7var_pop(dbl)母分散を返します。
返却値:double
 
8var_samp(dbl)標本分散を返します。
※variance()がエイリアスで定義されてます。
返却値:double
 
9stddev(dbl)stddev_smapのエイリアスです。
標本標準偏差を返します。
返却値:double
 
10stddev_pop(dbl)母標準偏差を返します。
返却値:double
 
11covar_pop(dbl1,dbl2)2つのデータから母共分散を返します。
返却値:double
 
12covar_smap(dbl1,dbl2)2つのデータから標本共分散を返します。
返却値:double
 
13corr(dbl1,dbl2)2つのデータから相関係数を返します。
※多分ピアソンだと思います。
返却値:double
 
14kurtosis(dbl)データの尖度を返します。
返却値:double
(計算式)
n(n+1)/((n-1)(n-2)(n-3))sum[(x_i-mean)^4]/stddev(x)^4-3(n-1)^2/((n-2)(n-3))
 
15skewness(dbl)データの歪度を返します。
返却値:double
 
16regr_intercept(dbl1,dbl2)線形回帰で用いる切片を返します。
dbl1が従属変数(目的変数)
dbl2が独立変数(説明変数)
db1に回帰で予測したい変数を入れ切片を算出します。
返却値:double
 
17regr_slope(dbl1,dbl2)線形回帰で用いる傾き(勾配)を返します。
dbl1が従属変数(目的変数)
dbl2が独立変数(説明変数)
db1に回帰で予測したい変数を入れ傾きを算出します。
返却値:double
 

 

備考

特筆することがないぐらい他のRDBと同様の関数が用意されているため、恒常的にQueryを書いている人であれば特に意識する必要はないと思われます。

 

参照元

https://prestodb.io/docs/0.172/functions/aggregate.html

 

 

 

スポンサードリンク