ページ

2013年2月7日木曜日

Categorical distribution

Categorical distribution - Wikipedia, the free encyclopedia

やあ、みんな。

ベルヌーイ試行をそのまま分布と解釈したものがベルヌーイ分布だけど、これはコイントスの場合、つまり表裏の二通りで、表裏一体だから一変量分布なんだよね。じゃあ、サイコロの場合とかはどうなるんだろう。僕はいままで仕方なしに「ベルヌーイ分布の拡張」としか言っていなかったけれど、英語版のWikipediaには「カテゴリカル分布」という名前が付いていることが分かったんだ。ちなみに日本語版では記述なし。

というわけで、カテゴリカル分布とその周辺、という話題を考えていくよ。


カテゴリカル分布の確率関数はこんな感じで書ける。
\[
P(x) = p_{i} (x=x_{i},\; i=1,\cdots,k)
\]
ただし、下の制約条件がついてる。だからk-1変量の離散確率分布なんだね。
\[
\sum_{i=1}^{k} p_{i} = 1
\]
積率母関数は、
\[
\psi(s_{i}) = \sum_{i=1}^{k} p_{i}e^{s_{i}}, \; s_{k}=0
\]

k=2の場合が、ベルヌーイ分布だよ。

カテゴリカル分布の畳み込み
カテゴリカル分布をn個畳み込んだものは多項分布と呼ばれているよ。積率母関数は、
\[
\psi(s_{i}) = \left(\sum_{i=1}^{k} p_{i}e^{s_{i}} \right)^{n} , \; s_{k}=0
\]
確率関数は多項定理を使ってこんな風に得られるよ。総和記号の内側が確率関数さ。
\[
1^{n} = \left( \sum_{i=1}^{k} p_{i} \right)^{n} = \sum_{x_{1}+x_{2}+\cdots+x_{k}=n} \frac{n!}{x_{1}!x_{2}!\cdots x_{k}!} p_{1}^{x_{1}} p_{2}^{x_{2}} \cdots p_{k}^{x_{k}}
\]
k=2の場合は二項分布だよ。念のために確率関数を書くと、
\[
P(x|p) = \frac{n!}{x!(n-x)!} p^{x} (1-p)^{n-x}
\]

n=1は元のカテゴリカル分布だから、その確率関数はこんな風に表現することも可能だね(左辺は多重指数表記)。
\[
P(x_{1},x_{2},\cdots,x_{k}|p_{1},p_{2},\cdots,p_{k})= p_{1}^{x_{1}} p_{2}^{x_{2}} \cdots p_{k}^{x_{k}} = p^{x}
\]

多重指数表記
多項分布は多重指数(multiindices)を使うと簡単に表記できるようだよ。
\[
p=(p_{1},p_{2},\cdots,p_{k}) , \; x=(x_{1},x_{2},\cdots,x_{k})
\]
と表記するね。同じように、
\[
p^{x} = p_{1}^{x_{1}}p_{2}^{x_{2}} \cdots p_{k}^{x_{k}}, \; |x| = x_{1}+x_{2}+\cdots+x_{k}, \; \left(
\begin{array}{c}
n \\
x
\end{array}
\right) = \frac{n!}{x_{1}!x_{2}!\cdots x_{k}!}
\]
すると、
\[
1^{n} = |p|^{n} = \sum_{|x|=n} \left(
\begin{array}{c}
n \\
x
\end{array}
\right) p^{x}
\]
http://en.wikipedia.org/wiki/Multiindices

まとめると、多項分布の確率関数は、
\[
\left(
\begin{array}{c}
n \\
x
\end{array}
\right) p^{x}, \; |p| = 1 \; (|x|=n)
\]
積率母関数はこう書けるかな?(自信ない)
\[
\psi(s) = \left( |e^{s}|_{p} \right)^{n}
\]

二項分布とポアソン分布

二項分布の積率母関数
\[
\psi(s)=\left( \sum_{i=1}^{2} p_{i}e^{s_{i}} \right)^{n} = \left( p_{1}e^{s_{1}} + p_{2}e^{s_{2}} \right)^{n} = \left( pe^{s} + 1-p \right)^{n} = \left\{ 1+ p(e^{s}-1) \right\}^{n}
\]
ここでp=λ/nとおいて、n→∞にしてみるよ。
\[
\lim_{n \to \infty} \left\{ 1+ \frac{\lambda(e^{s}-1)}{n} \right\}^{n} = \exp \left\{ \lambda(e^{s}-1) \right\}
\]
これはポアソン分布の積率母関数だよ。多項分布については特に同様の関係は見つからないね。

(追記:大嘘でした。同様の関係についてはこちらの記事


じゃあ、またね。

D