最小支持度是什么

在數據挖掘和關聯規則學習中,最小支持度(Minimum Support)是一個預定義的閾值,用於確定一個關聯規則是否具有統計學意義。它定義了在一個數據集中,一個項集出現的次數必須至少達到多少,才能被認為是「頻繁的」,並用於生成關聯規則。

最小支持度的定義如下:

在一個數據集中,如果一個項集出現的次數至少占所有事務的一定比例,那麼這個項集就被認為是頻繁的。這個比例就是最小支持度閾值,通常用字母S表示,其取值範圍在0到1之間。

例如,如果在一個交易數據集中,最小支持度閾值被設定為5%,那麼只有那些在至少5%的交易中出現的項集才會被認為是有意義的,並用於生成關聯規則。

最小支持度的設定取決於具體的套用場景和數據特性。如果最小支持度設得太高,可能會遺漏一些在實際中有意義的關聯規則;如果設得太低,可能會引入很多噪聲規則。因此,選擇合適的最小支持度對於關聯規則的質量和實用性至關重要。