题目
2.1 数据集包含1000个样本,其中500个正例、500个反例,将其划分为 包含70%样本的训练集和30%样本的测试集用于留出法评估,试估 算共有多少种划分方式.
2.1 数据集包含1000个样本,其中500个正例、500个反例,将其划分为 包含70%样本的训练集和30%样本的测试集用于留出法评估,试估 算共有多少种划分方式.
题目解答
答案
2.1题:数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
答:留出法将数据集划分为两个互斥的集合,为了保持数据的一致性,应该保证两个集合中的类别比例相同。
故可以用分层采样的方法。
训练集包含350个正例与350个反例,测试集包含150个正例与150个反例。
属于从500个正例中无顺序的选择350个和500个反例中无顺序的选择350个 。
故有500C350*500C350 种划分方式。
答:留出法将数据集划分为两个互斥的集合,为了保持数据的一致性,应该保证两个集合中的类别比例相同。
故可以用分层采样的方法。
训练集包含350个正例与350个反例,测试集包含150个正例与150个反例。
属于从500个正例中无顺序的选择350个和500个反例中无顺序的选择350个 。
故有500C350*500C350 种划分方式。
解析
步骤 1:确定训练集和测试集的样本数量
数据集包含1000个样本,其中500个正例,500个反例。训练集包含70%的样本,测试集包含30%的样本。因此,训练集包含700个样本,测试集包含300个样本。
步骤 2:确定训练集和测试集中的正例和反例数量
为了保持数据的一致性,训练集和测试集中的类别比例应该相同。因此,训练集包含350个正例和350个反例,测试集包含150个正例和150个反例。
步骤 3:计算划分方式的数量
划分方式的数量等于从500个正例中无顺序地选择350个正例和从500个反例中无顺序地选择350个反例的方式数量。这可以通过组合数公式计算。
数据集包含1000个样本,其中500个正例,500个反例。训练集包含70%的样本,测试集包含30%的样本。因此,训练集包含700个样本,测试集包含300个样本。
步骤 2:确定训练集和测试集中的正例和反例数量
为了保持数据的一致性,训练集和测试集中的类别比例应该相同。因此,训练集包含350个正例和350个反例,测试集包含150个正例和150个反例。
步骤 3:计算划分方式的数量
划分方式的数量等于从500个正例中无顺序地选择350个正例和从500个反例中无顺序地选择350个反例的方式数量。这可以通过组合数公式计算。