4 years ago · 98df5b5fbf
--- a/integr/my_ada_boost.py
+++ b/integr/my_ada_boost.py
@@ -20,13 +20,13 @@ def read_data():
 
				 
			
 
				 def fit(Xtrain, Ytrain):
			
 
				     # 设置数据初始权重
			
 
				-    w = np.array([1/len(Ytrain) for i in range(len(Ytrain))])
			
 
				+    w = np.ones(len(Ytrain))/Ytrain.shape[0]
			
 
				     # 决策树权重
			
 
				     alphas = []
			
 
				     # 决策树数组
			
 
				     trees = []
			
 
				     pn = 1/len(Ytrain)
			
 
				-    print(Ytest)
			
 
				+    # print(Ytest)
			
 
				 
			
 
				     for i in range(20):
			
 
				         # 训练决策树
			
@@ -34,10 +34,10 @@ def fit(Xtrain, Ytrain):
 
				                                      )  # 实例化，criterion不写的话默认是基尼系数
			
 
				 
			
 
				         clf.fit(Xtrain, Ytrain, w)
			
 
				-        Xpredit = clf.predict(Xtrain)
			
 
				+        Ypredit = clf.predict(Xtrain)
			
 
				 
			
 
				-        error = np.dot([Xpredit != Ytrain], w)
			
 
				-        p_error = sum(Xpredit != Ytrain)/Ytrain.shape[0]
			
 
				+        error = np.dot(Ypredit != Ytrain, w)
			
 
				+        p_error = sum(Ypredit != Ytrain)/Ytrain.shape[0]
			
 
				 
			
 
				         if error > 0.5:
			
 
				             continue
			
@@ -49,7 +49,7 @@ def fit(Xtrain, Ytrain):
 
				 
			
 
				         # 更新权重
			
 
				         for j in range(Ytrain.shape[0]):
			
 
				-            w[j] = w[j]*np.exp(-alpha*Ytrain[j]*Xpredit[j])
			
 
				+            w[j] = w[j]*np.exp(-alpha*Ytrain[j]*Ypredit[j])
			
 
				         sum_w = sum(w)
			
 
				         w = w/sum_w
			
 
				 
			
--- a/tree/my_tree.py
+++ b/tree/my_tree.py
@@ -1,6 +1,6 @@
 
				 #!/usr/bin/python
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-from sklearn.datasets import load_wine
			
 
				+from sklearn.datasets import load_wine,load_breast_cancer
			
 
				 from sklearn.model_selection import train_test_split
			
 
				 import numpy as np
			
 
				 
			
@@ -367,8 +367,20 @@ class MyDT(object):
 
				         print_width([nodes], 1, feature_names, class_names)
			
 
				 
			
 
				 
			
 
				+def read_data_1():
			
 
				+    wine = load_breast_cancer()
			
 
				+    Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
			
 
				+    for i in range(len(Ytrain)):
			
 
				+        if Ytrain[i] == 0:
			
 
				+            Ytrain[i] = -1
			
 
				+    for i in range(len(Ytest)):
			
 
				+        if Ytest[i] == 0:
			
 
				+            Ytest[i] = -1
			
 
				+    return Xtrain, Xtest, Ytrain, Ytest
			
 
				+
			
 
				+
			
 
				 if __name__ == '__main__':
			
 
				-    Xtrain, Xtest, Ytrain, Ytest = read_data()
			
 
				+    Xtrain, Xtest, Ytrain, Ytest = read_data_1()
			
 
				     print(calc_ent1(Ytrain))
			
 
				 
			
 
				     weights = np.ones(len(Ytrain))/Ytrain.shape[0]
			
@@ -386,6 +398,6 @@ if __name__ == '__main__':
 
				 
			
 
				     print(clf.predict(Xtest))
			
 
				 
			
 
				-    print(clf.score(Xtest, Ytest))
			
 
				-    print(clf.score(Xtrain, Ytrain))
			
 
				+    print("测试集", clf.score(Xtest, Ytest))
			
 
				+    print("训练集", clf.score(Xtrain, Ytrain))
			
 
				     MyDT.export(clf, feature_name, class_names)