4 years ago · 4311d0b82a
--- a/integr/my_ada_boost.py
+++ b/integr/my_ada_boost.py
@@ -28,9 +28,9 @@ def fit(Xtrain, Ytrain):
 
				     pn = 1/len(Ytrain)
			
 
				     # print(Ytest)
			
 
				 
			
 
				-    for i in range(20):
			
 
				+    for i in range(30):
			
 
				         # 训练决策树
			
 
				-        clf = MyDT(criterion="entropy", max_features=1, max_depth=1,
			
 
				+        clf = MyDT(criterion="gini", max_features=1, max_depth=1,
			
 
				                                      )  # 实例化，criterion不写的话默认是基尼系数
			
 
				 
			
 
				         clf.fit(Xtrain, Ytrain, w)
			
--- a/tree/my_tree.py
+++ b/tree/my_tree.py
@@ -149,28 +149,19 @@ def cal_ent_attr(Xtrain, Ytrain):
 
				     return min_i, min_mean, min_ent
			
 
				 
			
 
				 
			
 
				-def cal_max_ent_attr_c45(Xtrain, Ytrain, weights=None):
			
 
				+def cal_max_ent_attr_c45(Xtrain, Ytrain):
			
 
				     max_ent = 0
			
 
				     max_mean = 0
			
 
				-    weights = weights / sum(weights)
			
 
				-    h = calc_ent(Ytrain, weights)
			
 
				+    h = calc_ent(Ytrain)
			
 
				     p = 0
			
 
				     for k in range(0, len(Xtrain) - 1, 3):
			
 
				         left = Xtrain[:k + 1]
			
 
				         right = Xtrain[k + 1:]
			
 
				 
			
 
				-        if weights is None:
			
 
				-            left_ent = calc_ent(Ytrain[:k+1])*len(left)/len(Ytrain)
			
 
				-            right_ent = calc_ent(Ytrain[k + 1:])*len(right)/len(Ytrain)
			
 
				-            iv = -len(left) / len(Ytrain) * np.log2(len(left) / len(Ytrain))
			
 
				-            iv -= len(right) / len(Ytrain) * np.log2(len(right) / len(Ytrain))
			
 
				-        else:
			
 
				-            p += weights[k]
			
 
				-            left_ent = calc_ent(Ytrain[:k + 1], weights[:k+1]) * p
			
 
				-            right_ent = calc_ent(Ytrain[k + 1:], weights[k+1:]) * (1-p)
			
 
				-            iv = -p * np.log2(p)
			
 
				-            iv -= (1-p) * np.log2(1-p)
			
 
				-
			
 
				+        left_ent = calc_ent(Ytrain[:k+1])*len(left)/len(Ytrain)
			
 
				+        right_ent = calc_ent(Ytrain[k + 1:])*len(right)/len(Ytrain)
			
 
				+        iv = -len(left) / len(Ytrain) * np.log2(len(left) / len(Ytrain))
			
 
				+        iv -= len(right) / len(Ytrain) * np.log2(len(right) / len(Ytrain))
			
 
				 
			
 
				         gain_ent = (h - left_ent - right_ent)/iv
			
 
				 
			
@@ -179,21 +170,17 @@ def cal_max_ent_attr_c45(Xtrain, Ytrain, weights=None):
 
				             max_mean = left[-1]
			
 
				     return  max_ent, max_mean
			
 
				 
			
 
				-# 样本权重
			
 
				-weights = []
			
 
				-
			
 
				 # 计算某个属性的信息增益率
			
 
				-def cal_ent_attr_c45(Xtrain, Ytrain, weights):
			
 
				+def cal_ent_attr_c45(Xtrain, Ytrain):
			
 
				     # 对每个属性
			
 
				     max_ent = 0
			
 
				     max_i = 0
			
 
				     max_mean = 0
			
 
				-    weights = weights / sum(weights)
			
 
				     for i in range(Xtrain.shape[1]): #每个属性
			
 
				         argsort = Xtrain[:,i].argsort()
			
 
				-        x,y,w = Xtrain[:,i][argsort], Ytrain[argsort], weights[argsort]
			
 
				+        x,y = Xtrain[:,i][argsort], Ytrain[argsort]
			
 
				 
			
 
				-        gain_ent, mean = cal_max_ent_attr_c45(x, y, w)
			
 
				+        gain_ent, mean = cal_max_ent_attr_c45(x, y)
			
 
				 
			
 
				         if gain_ent > max_ent:
			
 
				             max_ent = gain_ent
			
@@ -385,13 +372,13 @@ if __name__ == '__main__':
 
				 
			
 
				     weights = np.ones(len(Ytrain))/Ytrain.shape[0]
			
 
				     print("熵值", calc_ent(Ytrain))
			
 
				-    print("熵值", calc_ent(Ytrain, weights))
			
 
				+    print("熵值", calc_ent(Ytrain))
			
 
				 
			
 
				     print("基尼指数", cal_gini(Ytrain))
			
 
				 
			
 
				-    print("信息增益率", cal_ent_attr_c45(Xtrain, Ytrain, weights))
			
 
				+    print("信息增益率", cal_ent_attr_c45(Xtrain, Ytrain))
			
 
				 
			
 
				-    clf = MyDT(criterion="entropy", max_depth=1,)
			
 
				+    clf = MyDT(criterion="C4.5", max_depth=1,)
			
 
				     clf.fit(Xtrain, Ytrain, weights)
			
 
				 
			
 
				     # print_width([node], 1)