4 years ago · 5c4516919f
--- a/integr/my_ada_boost.py
+++ b/integr/my_ada_boost.py
@@ -3,99 +3,97 @@ from sklearn.datasets import load_wine, load_iris, load_breast_cancer
 
				 from sklearn.model_selection import train_test_split
			
 
				 from sklearn.tree import DecisionTreeClassifier
			
 
				 import numpy as np
			
 
				-from tree import my_tree
			
 
				-
			
 
				-wine = load_breast_cancer()
			
 
				-Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
			
 
				-
			
 
				-# 设置数据初始权重
			
 
				-w = np.array([1/len(Ytrain) for i in range(len(Ytrain))])
			
 
				-# 决策树权重
			
 
				-alphas = []
			
 
				-# 决策树数组
			
 
				-trees = []
			
 
				-pn = 1/len(Ytrain)
			
 
				-
			
 
				-for i in range(len(Ytrain)):
			
 
				-    if Ytrain[i] == 0:
			
 
				-        Ytrain[i] = -1
			
 
				-for i in range(len(Ytest)):
			
 
				-    if Ytest[i] == 0:
			
 
				-        Ytest[i] = -1
			
 
				-print(Ytest)
			
 
				-
			
 
				-for i in range(20):
			
 
				-    # 训练决策树
			
 
				-    clf = DecisionTreeClassifier(criterion="entropy", max_features=1, max_depth=1,
			
 
				-                                 )  # 实例化，criterion不写的话默认是基尼系数
			
 
				-
			
 
				-    clf.fit(Xtrain, Ytrain, w)
			
 
				-    # nodes = my_tree.fit(Xtrain, Ytrain, None, 0, w)
			
 
				-
			
 
				-    # my_tree.print_width([nodes], 1)
			
 
				-    # print("熵值", my_tree.calc_ent(Ytrain, w))
			
 
				-    # Xpredit = my_tree.predict(Xtrain, Ytrain, nodes)
			
 
				-    Xpredit = clf.predict(Xtrain)
			
 
				-    error = 0
			
 
				-    p_error = 0
			
 
				-    for j in range(len(Ytrain)):
			
 
				-        if Xpredit[j] != Ytrain[j]:
			
 
				-            error += w[j]
			
 
				-            p_error += pn
			
 
				-
			
 
				-    if error > 0.5:
			
 
				-        continue
			
 
				-    if error == 0:
			
 
				-        error = 0.001
			
 
				-
			
 
				-    print("第", i, "轮错误率", p_error, error)
			
 
				-    alpha = 0.5*np.log2(1/error - 1)
			
 
				-
			
 
				-    # 更新权重
			
 
				-    for j in range(Ytrain.shape[0]):
			
 
				-        w[j] = w[j]*np.exp(-alpha*Ytrain[j]*Xpredit[j])
			
 
				-    sum_w = sum(w)
			
 
				-    w = w/sum_w
			
 
				-
			
 
				-    alphas.append(alpha)
			
 
				-    trees.append(clf)
			
 
				-
			
 
				-predicts = []
			
 
				-for tree in trees:
			
 
				-    predicts.append(tree.predict(Xtrain))
			
 
				-
			
 
				-print(alphas)
			
 
				-# 结果加权
			
 
				-result = np.zeros(len(Xtrain), float)
			
 
				-for p in predicts:
			
 
				-    r = 0
			
 
				-    for w_alpha in alphas:
			
 
				-        r += w_alpha * p
			
 
				-    result = result + r
			
 
				-
			
 
				-print("sign前:" , result)
			
 
				-result = np.sign(result)
			
 
				-print("sign后:", result)
			
 
				-
			
 
				-# print(1- sum(np.bitwise_xor(Ytest, result))/len(result))
			
 
				-# print(result == Ytest)
			
 
				-print()
			
 
				-x = len([i for i in result == Ytrain if i])/len(result)
			
 
				-x = x + 0.5*len([i for i in result if i==0])/len(result)
			
 
				-print(x)
			
 
				-# cmp = np.concatenate(([result], [Ytest]), axis=0)
			
 
				-# print(cmp)
			
 
				-
			
 
				-
			
 
				-# clf = DecisionTreeClassifier(criterion="entropy", max_features=1, max_depth=2)
			
 
				-# clf = clf.fit(Xtrain, Ytrain)
			
 
				-# print(clf.score(Xtest, Ytest))
			
 
				-
			
 
				-# w = np.array([1/len(Xtrain) for i in range(len(Xtrain))])
			
 
				-# my_tree_0 = trees[0]
			
 
				-Ypredit = trees[0].predict(Xtrain)
			
 
				-error = 0
			
 
				-for j in range(len(Xtrain)):
			
 
				-    if Ypredit[j] != Ytrain[j]:
			
 
				-        error += w[j]
			
 
				-print(1-error)
			
 
				+from tree.my_tree import MyDT
			
 
				+
			
 
				+
			
 
				+def read_data():
			
 
				+    wine = load_breast_cancer()
			
 
				+    Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
			
 
				+    for i in range(len(Ytrain)):
			
 
				+        if Ytrain[i] == 0:
			
 
				+            Ytrain[i] = -1
			
 
				+    for i in range(len(Ytest)):
			
 
				+        if Ytest[i] == 0:
			
 
				+            Ytest[i] = -1
			
 
				+    return Xtrain, Xtest, Ytrain, Ytest
			
 
				+
			
 
				+
			
 
				+def fit(Xtrain, Ytrain):
			
 
				+    # 设置数据初始权重
			
 
				+    w = np.array([1/len(Ytrain) for i in range(len(Ytrain))])
			
 
				+    # 决策树权重
			
 
				+    alphas = []
			
 
				+    # 决策树数组
			
 
				+    trees = []
			
 
				+    pn = 1/len(Ytrain)
			
 
				+    print(Ytest)
			
 
				+
			
 
				+    for i in range(20):
			
 
				+        # 训练决策树
			
 
				+        clf = MyDT(criterion="entropy", max_features=1, max_depth=1,
			
 
				+                                     )  # 实例化，criterion不写的话默认是基尼系数
			
 
				+
			
 
				+        clf.fit(Xtrain, Ytrain, w)
			
 
				+        Xpredit = clf.predict(Xtrain)
			
 
				+
			
 
				+        error = np.dot([Xpredit != Ytrain], w)
			
 
				+        p_error = sum(Xpredit != Ytrain)/Ytrain.shape[0]
			
 
				+
			
 
				+        if error > 0.5:
			
 
				+            continue
			
 
				+        if error == 0:
			
 
				+            error = 0.001
			
 
				+
			
 
				+        print("第", i, "轮错误率", p_error, error)
			
 
				+        alpha = 0.5*np.log2(1/error - 1)
			
 
				+
			
 
				+        # 更新权重
			
 
				+        for j in range(Ytrain.shape[0]):
			
 
				+            w[j] = w[j]*np.exp(-alpha*Ytrain[j]*Xpredit[j])
			
 
				+        sum_w = sum(w)
			
 
				+        w = w/sum_w
			
 
				+
			
 
				+        alphas.append(alpha)
			
 
				+        trees.append(clf)
			
 
				+    return trees, alphas
			
 
				+
			
 
				+
			
 
				+def cmp_predict(trees, alphas, Xtrain, Ytrain):
			
 
				+    predicts = []
			
 
				+    for tree in trees:
			
 
				+        predicts.append(tree.predict(Xtrain))
			
 
				+
			
 
				+    # 结果加权
			
 
				+    result = np.zeros(len(Xtrain), float)
			
 
				+    for p in predicts:
			
 
				+        r = 0
			
 
				+        for w_alpha in alphas:
			
 
				+            r += w_alpha * p
			
 
				+        result = result + r
			
 
				+
			
 
				+    # print("sign前:" , result)
			
 
				+    result = np.sign(result)
			
 
				+    # print("sign后:", result)
			
 
				+
			
 
				+    # print(1- sum(np.bitwise_xor(Ytest, result))/len(result))
			
 
				+    # print(result == Ytest)
			
 
				+    x = len([i for i in result == Ytrain if i])/len(result)
			
 
				+    x = x + 0.5*len([i for i in result if i==0])/len(result)
			
 
				+    print(x)
			
 
				+
			
 
				+    w = np.array([1/len(Xtrain) for i in range(len(Xtrain))])
			
 
				+    Ypredit = trees[0].predict(Xtrain)
			
 
				+    p_error = sum(Ypredit != Ytrain)/Ytrain.shape[0]
			
 
				+    print(1-p_error)
			
 
				+
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    Xtrain, Xtest, Ytrain, Ytest = read_data()
			
 
				+    trees, alphas = fit(Xtrain, Ytrain)
			
 
				+
			
 
				+    print(alphas)
			
 
				+
			
 
				+    print('训练集上比较')
			
 
				+    cmp_predict(trees, alphas, Xtrain, Ytrain)
			
 
				+    print('测试集上比较')
			
 
				+    cmp_predict(trees, alphas, Xtest, Ytest)
			
--- a/tree/example.py
+++ b/tree/example.py
@@ -20,7 +20,7 @@ print(wine.target_names)
 
				 Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
			
 
				 numpy.savetxt("foo.csv", Xtrain, delimiter=",")
			
 
				 
			
 
				-clf = tree.DecisionTreeClassifier(criterion="entropy", max_features=1, max_depth=5)#实例化，criterion不写的话默认是基尼系数
			
 
				+clf = tree.DecisionTreeClassifier(criterion="entropy", max_features=1, max_depth=1)#实例化，criterion不写的话默认是基尼系数
			
 
				 # clf.n_features_ = 2
			
 
				 clf = clf.fit(Xtrain, Ytrain)
			
 
				 score = clf.score(Xtest, Ytest) #返回预测的准确度
			
--- a/tree/my_tree.py
+++ b/tree/my_tree.py
@@ -304,7 +304,7 @@ class MyDT(object):
 
				 
			
 
				     root_node = None
			
 
				 
			
 
				-    def __init__(self, criterion, max_depth):
			
 
				+    def __init__(self, criterion, max_depth, max_features=1):
			
 
				         self.criterion = criterion
			
 
				         self.max_depth = max_depth