博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python中数据集划分函数StratifiedShuffleSplit的使用
阅读量:4210 次
发布时间:2019-05-26

本文共 1105 字,大约阅读时间需要 3 分钟。

用法:

from  sklearn.model_selection import StratifiedShuffleSplitStratifiedShuffleSplit(n_splits=10,test_size=None,train_size=None, random_state=None)

参数说明

参数 n_splits是将训练数据分成train/test对的组数,可根据需要进行设置,默认为10

参数test_size和train_size是用来设置train/test对中train和test所占的比例。例如:

1.提供10个数据num进行训练和测试集划分
2.设置train_size=0.8 test_size=0.2
3.train_num=num*train_size=8 test_num=num*test_size=2
4.即10个数据,进行划分以后8个是训练数据,2个是测试数据

:train_num≥2,test_num≥2 ;test_size+train_size可以小于1

参数 random_state控制是将样本随机打乱

例子:

from sklearn.model_selection import StratifiedShuffleSplitss = StratifiedShuffleSplit(n_splits=1, test_size=0.2,random_state=0)  #n_slpit 全体数据分组数目,random_state 不将样本随机打乱import numpy as npX = np.array([[1, 2], [3, 4], [1, 2], [3, 4],              [1, 2],[3, 4], [1, 2], [3, 4]])#训练数据集8*2y = np.array([0, 0, 1, 1,0,0,1,1])#类别数据集8*1train_idx, val_idx = next(ss.split(X, y))print("train_idx:",train_idx)print("val_idx:",val_idx)for train_index, test_index in ss.split(X, y):    print("train_idx:", train_index)    print("val_idx:", test_index)

输出:

train_idx: [5 2 6 4 1 3]val_idx: [7 0]train_idx: [5 2 6 4 1 3]val_idx: [7 0]

转载地址:http://bkwmi.baihongyu.com/

你可能感兴趣的文章
从内核看epoll的实现(基于5.9.9)
查看>>
python与正则表达式
查看>>
安装.Net Framework 4.7.2时出现“不受信任提供程序信任的根证书中终止”的解决方法
查看>>
input type=“button“与input type=“submit“的区别
查看>>
解决Github代码下载慢问题!
查看>>
1.idea中Maven创建项目及2.对idea中生命周期的理解3.pom文件夹下groupId、artifactId含义
查看>>
LeetCode-栈|双指针-42. 接雨水
查看>>
stdin,stdout,stderr详解
查看>>
Linux文件和设备编程
查看>>
文件描述符
查看>>
终端驱动程序:几个简单例子
查看>>
登录linux密码验证很慢的解决办法
查看>>
fcntl函数总结
查看>>
HTML条件注释
查看>>
Putty远程服务器的SSH经验
查看>>
内核态与用户态
查看>>
使用mingw(fedora)移植virt-viewer
查看>>
趣链 BitXHub跨链平台 (4)跨链网关“初介绍”
查看>>
C++ 字符串string操作
查看>>
MySQL必知必会 -- 了解SQL和MySQL
查看>>