2023 年 全国大学生金融科技建模大赛 暨 第四届四川省大学生金融科技建模大赛 初赛数据分析
2023 年 全国大学生金融科技建模大赛 暨 第四届四川省大学生金融科技建模大赛 初赛数据分析
小嗷犬X1
A1
特征类型:类别特征
缺失率:91.9869%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
A9 | 504 | 364 | 868 |
A1 | 28 | 19 | 47 |
A5 | 5 | 6 | 11 |
A4 | 1 | 3 | 4 |
复购频率的分布:
意见:不宜采用自然数编码;缺失严重
A2
特征类型:类别特征, M / W
缺失率:0%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
M | 4522 | 3406 | 7928 |
W | 2192 | 1594 | 3786 |
复购频率的分布:
意见:性别特征
A3
特征类型:字符串,X + 6 位数字
缺失率:0%
意见:较为稀疏,意义不明,用户归属地特征?(存疑)
A4
特征类型:字符串,6 位数字
缺失率:0%
意见:邮政编码特征
A5
特征类型:数值特征,整数
缺失率:0%
复购频率的分布:
意见:年龄特征
A6
特征类型:数值特征,整数
缺失率:1.9660%
意见:较为稀疏,1 的个数较多,意义不明
A7
特征类型:数值特征,整数
缺失率:0.0149%
复购频率的分布:
意见:99 的个数较多;某种分箱特征?(存疑)
A8
特征类型:类别特征,XW + 1 位数字
缺失率:0.0894%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
XW9 | 3859 | 2878 | 6737 |
XW0 | 2438 | 1833 | 4271 |
XW4 | 385 | 275 | 660 |
XW3 | 14 | 8 | 22 |
XW1 | 12 | 4 | 16 |
XW2 | 0 | 1 | 1 |
复购频率的分布:
意见:不宜采用自然数编码
A9
特征类型:类别特征,X + 1 位数字
缺失率:48.3021%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
X1 | 3452 | 2582 | 6034 |
X4 | 19 | 9 | 28 |
X2 | 0 | 1 | 1 |
复购频率的分布:
意见:不宜采用自然数编码;缺失严重
A10
特征类型:字符串,6 位数字
缺失率:99.9255%
意见:身份证前 6 位;缺失严重
A11
特征类型:类别特征,B / J
缺失率:87.9357%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
B | 794 | 576 | 1370 |
J | 16 | 5 | 21 |
复购频率的分布:
意见:缺失严重
A12
特征类型:年份特征,整数含特殊标记 1
缺失率:0%
意见:1 的个数较多,意义不明
A13
特征类型:类别特征,T + 1 位数字
缺失率:0%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
T0 | 4014 | 2957 | 6971 |
T2 | 1495 | 1172 | 2667 |
T1 | 1184 | 845 | 2029 |
T4 | 20 | 26 | 46 |
T3 | 1 | 0 | 1 |
复购频率的分布:
意见:意义不明
A14
特征类型:类别特征,1 位数字 / M / N
缺失率:0%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
0 | 191 | 142 | 333 |
1 | 760 | 537 | 1297 |
3 | 1332 | 1010 | 2342 |
4 | 651 | 483 | 1134 |
5 | 1022 | 750 | 1772 |
6 | 1330 | 1024 | 2354 |
M | 13 | 9 | 22 |
N | 1415 | 1045 | 2460 |
复购频率的分布:
意见:意义不明
A15
特征类型:类别特征,ZC + 1 位数字
缺失率:23.2648%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
ZC0 | 563 | 443 | 1006 |
ZC1 | 67 | 48 | 115 |
ZC2 | 94 | 69 | 163 |
ZC3 | 483 | 369 | 852 |
ZC4 | 387 | 272 | 659 |
ZC9 | 3558 | 2683 | 6241 |
复购频率的分布:
意见:意义不明
A16
特征类型:数值特征,浮点数
缺失率:0%
意见:较为稀疏,-0.173260 的个数较多,意义不明
A17
特征类型:日期特征,4 位数字 + days
缺失率:0%
复购频率的分布:
意见:开户时间?(存疑)
A18
特征类型:字符串,字母 (+ 数字)
缺失率:99.4936%
意见:国民经济行业代码;缺失严重
A19
特征类型:类别特征,3 个字母
缺失率:0%
意见:全为 CHN,国家代码
A20
特征类型:类别特征,A + 1 位数字
缺失率:0%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
A0 | 53 | 31 | 84 |
A1 | 1 | 0 | 1 |
A2 | 6660 | 4969 | 11629 |
复购频率的分布:
意见:意义不明
X2
B1
特征类型:日期特征,4 位数字 + days
缺失率:0%
复购频率的分布:
意见:产品买入时间(存疑)
B2
特征类型:数值特征,浮点数
缺失率:0%
复购频率的分布:
意见:意义不明;与 B7、B9 完全相同
B3
特征类型:类别特征,A - G
缺失率:0%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
A | 316 | 233 | 549 |
B | 2876 | 2663 | 5539 |
C | 11231 | 7870 | 19101 |
D | 17623 | 12923 | 30546 |
E | 50369 | 35105 | 85474 |
F | 8923 | 6700 | 15623 |
G | 23192 | 17506 | 40698 |
复购频率的分布:
意见:意义不明
B4
特征类型:类别特征,t1 / t2
缺失率:0%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
t1 | 114205 | 82782 | 196987 |
t2 | 325 | 220 | 545 |
复购频率的分布:
意见:意义不明
B5
特征类型:数值特征,浮点数
缺失率:0%
复购频率的分布:
意见:意义不明;与 B13、B14 强相关
B6
特征类型:类别特征,M1 / M2
缺失率:0%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
M1 | 114521 | 82998 | 197519 |
M2 | 9 | 4 | 13 |
复购频率的分布:
意见:意义不明
B7
特征类型:数值特征,浮点数
缺失率:0%
意见:意义不明;与 B2、B9 完全相同
B8
特征类型:日期特征,4 位数字 + days
缺失率:34.6224%
复购频率的分布:
意见:产品卖出时间(存疑)
B9
特征类型:数值特征,浮点数
缺失率:0%
意见:意义不明;与 B2、B7 完全相同
B10
特征类型:数值特征,浮点数
缺失率:0%
复购频率的分布:
意见:意义不明;与 B11 完全相同
B11
特征类型:数值特征,浮点数
缺失率:0%
意见:意义不明;与 B10 完全相同
B12
特征类型:空值
缺失率:100%
B13
特征类型:数值特征,浮点数
缺失率:0%
复购频率的分布:
意见:意义不明;与 B5、B14 强相关
B14
特征类型:数值特征,浮点数
缺失率:0%
复购频率的分布:
意见:意义不明;与 B5、B13 强相关
B15
特征类型:类别特征,A1 / A2
缺失率:0%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
A1 | 114205 | 82782 | 196987 |
A2 | 325 | 220 | 545 |
复购频率的分布:
意见:意义不明
B16
特征类型:类别特征,X1 / X2 / X3 / X4
缺失率:0%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
X1 | 110090 | 79733 | 189823 |
X2 | 23 | 12 | 35 |
X3 | 4092 | 3037 | 7129 |
X4 | 325 | 220 | 545 |
复购频率的分布:
意见:意义不明
B17
特征类型:数值特征,浮点数
缺失率:0%
复购频率的分布:
意见:意义不明
B18
特征类型:空值
缺失率:100%
B19
特征类型:类别特征,X1 / X2 / X3 / X4
缺失率:50.4025%
训练集与测试集中每个类别的个数分布:
训练集 | 测试集 | 总和 | |
---|---|---|---|
X1 | 55319 | 39558 | 94877 |
X2 | 18 | 12 | 30 |
X3 | 1326 | 956 | 2282 |
X4 | 141 | 107 | 248 |
复购频率的分布:
意见:意义不明
X3
C1
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C2
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C3
特征类型:数值特征,浮点数
缺失率:9.5025%
复购频率的分布:
意见:意义不明
C4
特征类型:数值特征,浮点数
缺失率:35.5228%
复购频率的分布:
意见:意义不明
C5
特征类型:数值特征,浮点数
缺失率:35.5228%
复购频率的分布:
意见:意义不明
C6
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C7
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C8
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C9
特征类型:数值特征,浮点数
缺失率:35.5228%
复购频率的分布:
意见:意义不明
C10
特征类型:数值特征,浮点数
缺失率:9.5025%
复购频率的分布:
意见:意义不明
C11
特征类型:数值特征,浮点数
缺失率:98.0637%
意见:缺失严重
C12
特征类型:数值特征,浮点数
缺失率:9.5025%
复购频率的分布:
意见:意义不明
C13
特征类型:数值特征,浮点数
缺失率:9.5025%
复购频率的分布:
意见:意义不明
C14
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C15
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C16
特征类型:数值特征,浮点数
缺失率:0.0298%
复购频率的分布:
意见:意义不明
C17
特征类型:数值特征,浮点数
缺失率:98.0637%
意见:缺失严重
C18
特征类型:数值特征,浮点数
缺失率:9.5025%
复购频率的分布:
意见:意义不明
C19
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C20
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C21
特征类型:数值特征,浮点数
缺失率:4.3938%
复购频率的分布:
意见:意义不明
C22
特征类型:数值特征,浮点数
缺失率:0%
复购频率的分布:
意见:意义不明;只有 -0.030307 和 32.994714 两种值,且 -0.030307 的个数较多
C23
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C24
特征类型:数值特征,浮点数
缺失率:0%
复购频率的分布:
意见:意义不明
C25
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C26
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C27
特征类型:数值特征,浮点数
缺失率:35.5228%
复购频率的分布:
意见:意义不明
C28
特征类型:数值特征,浮点数
缺失率:26.9139%
复购频率的分布:
意见:意义不明
C29
特征类型:数值特征,浮点数
缺失率:35.5228%
复购频率的分布:
意见:意义不明
C30
特征类型:数值特征,浮点数
缺失率:35.5228%
复购频率的分布:
意见:意义不明
C31
特征类型:数值特征,浮点数
缺失率:35.5228%
复购频率的分布:
意见:意义不明
C32
特征类型:数值特征,浮点数
缺失率:35.5228%
复购频率的分布:
意见:意义不明
C33
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C34
特征类型:数值特征,浮点数
缺失率:35.5228%
复购频率的分布:
意见:意义不明
C35
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C36
特征类型:数值特征,浮点数
缺失率:35.5228%
复购频率的分布:
意见:意义不明
C37
特征类型:数值特征,浮点数
缺失率:71.8201%
复购频率的分布:
意见:意义不明;缺失较严重
C38
特征类型:数值特征,浮点数
缺失率:98.0637%
意见:缺失严重
C39
特征类型:数值特征,浮点数
缺失率:71.8201%
复购频率的分布:
意见:意义不明;缺失较严重
C40
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C41
特征类型:数值特征,浮点数
缺失率:71.8201%
复购频率的分布:
意见:意义不明;缺失较严重
C42
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C43
特征类型:数值特征,浮点数
缺失率:0.0298%
复购频率的分布:
意见:意义不明
C44
特征类型:数值特征,浮点数
缺失率:98.0637%
意见:缺失严重
C45
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C46
特征类型:数值特征,浮点数
缺失率:0%
复购频率的分布:
意见:意义不明
C47
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C48
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
C49
特征类型:数值特征,浮点数
缺失率:0.0596%
复购频率的分布:
意见:意义不明
y
取值范围:0、1、2
分布:
意见:类别不平衡