「平均継続期間=1/解約率」から指数分布へ
目次
概要#
「平均継続期間=1/解約率」となることと指数分布の期待値の関係を示す。具体的には、幾何分布の期待値として「平均継続期間=1/解約率」となることを示して、そこから連続分布へと拡張していくと、それが指数分布になることを示す。ここで、 1/解約率 が指数分布の期待値よりも 1/2 ほど大きくなっていることもわかる。
「平均継続期間 = 1/解約率」#
ユニットエコノミクスにおける LTV は、顧客の平均単価と平均継続期間の積で表される。この定義は自然に思う。
この平均継続期間、これは顧客の解約率の逆数として表現される。例えば、年間解約率が 20 % なら、平均継続期間は 20/100 = 1/5 の逆数の 5 年となる。
この「平均継続期間 = 1/解約率」がなぜ成り立つのか、ちょっと考えないとよくわからなかった。考えた後だと自明でくだらないものに思えるけれども、まあこういうのは物事を理解するあるあるみたいなもので仕方ないということで、その考えた過程を書いておく。
「平均継続期間 = 1/解約率」をちゃんと計算する#
年間継続率を $p$ とする。年間解約率は $1-p$ である。
今から 1 年後、契約を継続しているのは全体を 1 としたとき割合 $p$ である。つまり、このサービスを 1 年間だけ使った人の割合は $1-p$ となる。
今から 2 年後、契約を継続しているのは全体を 1 としたとき割合 $p^2$ である。つまり、このサービスを 2 年間だけ使った人の割合は、 1 年後に継続している人の割合の差分である $p - p^2$ となる。
今から 3 年後、契約を継続しているのは全体を 1 としたとき割合 $p^3$ である。つまり、このサービスを 3 年間だけ使った人の割合は、 2 年後に継続している人の割合の差分である $p^2 - p^3$ となる。
…
今から $n$ 年後、契約を継続しているのは全体を 1 としたとき割合 $p^n$ である。つまり、このサービスを $n$ 年間だけ使った人の割合は、 $n-1$ 年後に継続している人の割合の差分である $p^{n-1} - p^n$ となる。
つまり、確率変数 $X$ を「このサービスを使った年数」とすると、 $X$ の確率分布 $P(X)$ は、
$$ P(X = n) = p^{n-1} - p^n = p^{n-1} (1 - p), \quad n = 1, 2, 3, \ldots $$
となる。これはそのまま 幾何分布 である。
ちなみに、この幾何分布の累積分布関数 $F(x)$ は、
$$ F(x) = \sum_{n=1}^{x} p^{n-1} (1 - p) = 1 - p^x $$
になる。
この幾何分布の期待値は、大学入試でよくある等差 × 等比数列の和の問題を解くように計算すると、
$$ E[X] = \sum_{n=1}^{\infty} n p^{n-1} (1 - p) = \frac{1}{1-p} $$
となる。これは「平均継続期間 = 1/解約率」の式と一致する。
指数分布へ#
先程は $n$ を自然数としていたが、これを 0 以上の実数 $x$ に置き換える。すると、自然に半年後や 1.5 年後などの解約のタイミングも考えられるようになる。
今から $x$ 年後、契約を継続しているのは全体を 1 としたとき割合 $l(x)$ は
$$ l(x) = p^x, \quad x \geq 0 $$
になる。
ここで $x$ 年までに解約が生じる確率 $F(x)$ は
$$ F(x) = 1 - l(x) = 1 - p^x = 1 - e^{ - \lambda x }, $$
ただし、 $\lambda = - \log p$ である。これは指数分布の累積分布関数。
このとき、確率密度関数 $f(x)$ は当然
$$ f(x) = \frac{d}{dx} F(x) = \lambda e^{ - \lambda x } $$
となって、これの期待値は
$$ E[X] = \int_{0}^{\infty} x f(x) dx = \int_{0}^{\infty} x \lambda e^{ - \lambda x } dx = \frac{1}{\lambda} $$
となる。
$\lambda = - \log p$ であることを思い出すと、平均継続期間は $- \frac{1}{\log p} $ である。これは「平均継続期間 = 1/解約率」の式と一致しない。
2 つの異なる期待値の関係#
じゃあ 2 つの期待値はどういう関係があるのか。実はすごく近い値になってることがわかる。
幾何分布で見たときの期待値を $\mu_0 = \frac{1}{1-p}$、指数分布で見たときの期待値を $\mu_1 = - \frac{1}{\log p}$ とする。
$\mu_1$ の $p=1$ 周りのローラン級数展開は
$$ \begin{aligned} \mu_1 &= \frac{1}{1-p} - \frac{1}{2} + O((p - 1)) \\ &= \mu_0 - \frac{1}{2} + O((p - 1)) \end{aligned} $$
となる。つまりだいたい $\mu_1 \approx \mu_0 - \frac{1}{2}$ となる。
画像を見るとわかりやすい。ほぼ同じ形をしていることがわかる。
ということで、より正確に表現するならば、「平均継続期間 = 1/解約率」ではなく「平均継続期間はだいたい 1/解約率 - 1/2」というかんじ。
おわり。