分類は、より正確な予測と分析を支援するために、データの集まりにカテゴリを割り当てるデータマイニング手法です。時には呼ばれると呼ばれる 意思決定ツリー 分類は、非常に大きなデータセットの分析を有効にするためのいくつかの方法の1つです。
なぜ分類?
今日の世界では、非常に大きなデータベースが標準になりつつあります。 ビッグデータ 。複数のテラバイトのデータを持つデータベースを想像してください.1つのテラバイトは1つです 1兆 データのバイト。
Facebookだけで毎日600テラバイトの新しいデータを集めています(2014年、これらの仕様を最後に報告した時点)。ビッグデータの主な課題は、それを理解する方法です。
また膨大なデータだけでなく、膨大なデータが多様化し、非構造化され、急速に変化する傾向があります。オーディオとビデオのデータ、ソーシャルメディアの投稿、3Dデータ、または地理空間データを検討してください。このような種類のデータは、簡単には分類または整理されていません。
この課題を解決するために、有用な情報を抽出するための自動方法の範囲が開発されている 分類 .
分類の仕組み
技術的に話が進まない危険があるときは、分類の仕組みについて話し合ってみましょう。目標は、質問に答えたり、意思決定をしたり、行動を予測する一連の分類ルールを作成することです。まず、一連の訓練データが開発され、ある種の属性とその可能性の高い結果が含まれています。
分類アルゴリズムの役割は、その属性セットがどのように結論に達するかを発見することです。
シナリオおそらく、クレジットカード会社が、どの見込み客がクレジットカードのオファーを受け取るべきかを決定しようとしているのかもしれません。
これは、一連のトレーニングデータです。
| 名 | 年齢 | 性別 | 年収 | クレジットカードオファー |
|---|---|---|---|---|
| ジョン・ドウ | 25 | M | $39,500 | いいえ |
| ジェーン・ドウ | 56 | F | $125,000 | はい |
「プレディクタ」列 年齢 , 性別 、および 年収 「予測子属性」の値を決定し、 クレジットカードオファー 。トレーニングセットでは、predictor属性が知られています。次に、分類アルゴリズムは、予測子属性の値にどのように達したか、すなわち、予測子と決定者との間にどのような関係が存在するかを決定しようと試みる。予測ルールのセットを開発します。通常はIF / THENステートメントです。たとえば、次のようになります。
IF(年齢が18歳以上、年齢が75歳未満)および年間収入が40,000を超える場合、クレジットカードのオファー= yes
明らかに、これは簡単な例であり、アルゴリズムはここに示す2つのレコードよりもはるかに大きなデータサンプリングを必要とします。さらに、予測ルールは、属性の詳細をキャプチャするためのサブルールを含む、はるかに複雑である可能性が高い。
次に、解析するデータの「予測セット」がアルゴリズムに与えられますが、このセットには予測属性(または決定)がありません。
| 名 | 年齢 | 性別 | 年収 | クレジットカードオファー |
|---|---|---|---|---|
| ジャックフロスト | 42 | M | $88,000 | |
| メアリーマレー | 16 | F | $0 |
この予測データは、予測ルールの精度を推定するのに役立ち、開発者が予測を効果的かつ有用と考えるまで、ルールは調整されます。
日々の分類の例
分類、およびその他のデータマイニング技術は、消費者としての私たちの日常的な経験の多くの後ろにあります。
天気予報では、分類を使用して日が雨、晴れ、曇っているかどうかを報告する場合があります。医療従事者は健康状態を分析して医療結果を予測することができる。分類方法の一種であるNaive Bayesianは、条件付き確率を使用してスパムメールを分類します。詐欺の検出から製品のオファーまで、データの分析と予測の作成は日々行われています。




