ベルヌーイ分布の基礎

ベルヌーイ分布は、確率論と統計学において非常に基本的な分布です。この分布は、2つの可能な結果（成功と失敗、1と0など）を持つ試行の結果をモデル化するのに使用されます。ベルヌーイ分布は、ベルヌーイ試行と呼ばれる試行の結果を表現します。試行ごとに成功する確率をpとした場合、成功（1）と失敗（0）の確率分布を記述するのに適しています。

ベルヌーイ分布の確率質量関数

ベルヌーイ分布の確率質量関数（PMF）は非常にシンプルです。試行が成功する確率をp、失敗する確率を1-pとした場合、ベルヌーイ分布の確率質量関数は以下のように表されます。

P(X = x) = p^x * (1-p)^(1-x)

ここでは、

P(X = x) は確率変数 X が x と等しい値を取る確率を表します。x は0または1の値を取ります。
p は成功（1を取る）の確率を表します。
1-p は失敗（0を取る）の確率を表します。

具体例を使って理解する

ベルヌーイ分布の理解を深めるために、具体的な例を見てみましょう。

例1: コイン投げ コインを投げる場合、表が出る確率をpと考えます。ベルヌーイ分布を使用すると、表が出た場合を1、裏が出た場合を0として表現できます。

例2: メールのスパムフィルター スパムメールのフィルタリングは、ベルヌーイ分布を用いて実現されます。各メールがスパムである確率をpとし、そのメールがスパムであるか否かを1と0で表現します。スパムメールが事前に設定したしきい値を超える確率であれば、それをスパムと判断します。

ベルヌーイ分布の具体的な利用例: メールのスパムフィルター

メールのスパムフィルターを例にベルヌーイ分布の利用方法を説明します。以下のようなステップを実行することが一般的です。

1. データの収集

スパムとノンスパムのメールからなるトレーニングデータセットを収集します。各メールがスパムかノンスパムかをラベル付けします。また、各メールの特徴（単語、フレーズ、キーワードなど）を抽出します。

2. 特徴の選択

スパムフィルターの設計に使用する特徴（語彙）を選択します。一般的な特徴は、メール本文中の単語やフレーズの出現頻度や特定のキーワードの有無です。

3. パラメータ推定

ベルヌーイ分布のパラメータ p（成功、つまりスパムである確率）を推定します。これはトレーニングデータセットを使用して行います。 - スパムメールの中で、特定の特徴（キーワードやフレーズ）が含まれている割合を計算します。これは各特徴の p として使われます。 - ノンスパムメールの中で、同じ特徴が含まれている割合も計算します。これは成功（スパムでない）の確率である (1-p) として使われます。