Presto集計関数の紹介
Prestoの集計関数についてご紹介します。

集計関数はデータから代表値などを出すための関数で、分析では一番用いる関数だと思います。他RDBと殆ど変わりませんが、自分の備忘録のために記載します。
集計関数一覧
凡例
下記一覧で利用している変数などをここに記載します。
変数一覧
col
・・・ カラム名(固定文字など)int
・・・ カラム名(数値型)dbl
・・・ カラム名(浮動小数点型)
関数一覧
No | 関数 | 説明 |
1 | count(col) | データの件数をカウントし、返却します。 ※nullの場合だけカウント対象外となります。 返却値:integer(bigint) |
2 | sum(int) | データの合計を返却します。 返却値:integer(bigint) |
3 | avg(int) | データの平均(相加平均)を返します。 返却値:double |
4 | min(int) | データ内の最小値を返します。 返却値:integer(bigint) |
5 | max(int) | データ内の最大値を返します。 返却値:integer(bigint) |
6 | histogram(col) | 各値の回数をカウントし、 マップで返します。 例) カラムが身長で160-169,170-179と 区分されていた場合,返却値例 {160-169=2,170-179=5} 返却値:map<key, integer(bigint)> |
7 | var_pop(dbl) | 母分散を返します。 返却値:double |
8 | var_samp(dbl) | 標本分散を返します。 ※variance()がエイリアスで定義されてます。 返却値:double |
9 | stddev(dbl) | stddev_smapのエイリアスです。 標本標準偏差を返します。 返却値:double |
10 | stddev_pop(dbl) | 母標準偏差を返します。 返却値:double |
11 | covar_pop(dbl1,dbl2) | 2つのデータから母共分散を返します。 返却値:double |
12 | covar_smap(dbl1,dbl2) | 2つのデータから標本共分散を返します。 返却値:double |
13 | corr(dbl1,dbl2) | 2つのデータから相関係数を返します。 ※多分ピアソンだと思います。 返却値:double |
14 | kurtosis(dbl) | データの尖度を返します。 返却値:double (計算式) n(n+1)/((n-1)(n-2)(n-3))sum[(x_i-mean)^4]/stddev(x)^4-3(n-1)^2/((n-2)(n-3)) |
15 | skewness(dbl) | データの歪度を返します。 返却値:double |
16 | regr_intercept(dbl1,dbl2) | 線形回帰で用いる切片を返します。 dbl1が従属変数(目的変数) dbl2が独立変数(説明変数) db1に回帰で予測したい変数を入れ切片を算出します。 返却値:double |
17 | regr_slope(dbl1,dbl2) | 線形回帰で用いる傾き(勾配)を返します。 dbl1が従属変数(目的変数) dbl2が独立変数(説明変数) db1に回帰で予測したい変数を入れ傾きを算出します。 返却値:double |
備考
特筆することがないぐらい他のRDBと同様の関数が用意されているため、恒常的にQueryを書いている人であれば特に意識する必要はないと思われます。
参照元
https://prestodb.io/docs/0.172/functions/aggregate.html