Capsar
diff --git a/‎.gitignore
Lines changed: 2 additions & 0 deletions b/‎.gitignore
Lines changed: 2 additions & 0 deletions
diff --git a/‎README.md
Lines changed: 26 additions & 25 deletions b/‎README.md
Lines changed: 26 additions & 25 deletions
diff --git a/‎data/features.txt renamed to ‎data/ci_features.txt b/‎data/features.txt renamed to ‎data/ci_features.txt
diff --git a/‎data/ci_inputs.npy
614 KB b/‎data/ci_inputs.npy
614 KB
diff --git a/‎data/ci_outputs.npy
430 KB b/‎data/ci_outputs.npy
430 KB
diff --git a/‎data/targets.txt renamed to ‎data/ci_targets.txt b/‎data/targets.txt renamed to ‎data/ci_targets.txt
diff --git a/‎main.py
Lines changed: 108 additions & 40 deletions b/‎main.py
Lines changed: 108 additions & 40 deletions
diff --git a/‎prepare_data.py
Lines changed: 37 additions & 0 deletions b/‎prepare_data.py
Lines changed: 37 additions & 0 deletions
diff --git a/‎z_helper.py
Lines changed: 14 additions & 17 deletions b/‎z_helper.py
Lines changed: 14 additions & 17 deletions
@@ -1,2 +1,4 @@
 .vscode/
 __pycache__/
+
+data/mnist_train.csv
@@ -7,37 +7,38 @@ If you have any tips on how to imporve performace, let me know!
 
 ```
 import numpy as np
-import z_helper as h
+from numba.experimental import jitclass
+from numba import types, typed
 ```
 
 ```
-    random_seed = random.randint(10, 1010)
-    np.random.seed(random_seed)
+data_input = np.load("data/ci_inputs.npy")
+data_output = np.load("data/ci_outputs.npy")
+
+print("Begin compiling!")
+begin_time = time.time_ns()
+compile_nn = make_neural_network(layer_sizes=[data_input.shape[1], data_output.shape[1]], layer_activations=["sigmoid"])
+compile_nn.train(data_input[:1], data_output[:1], data_input[1: 2], data_output[1: 2])
+end_time = time.time_ns()
+print("Compile time:", (end_time-begin_time) / 1e9)
 
-    data_input = h.import_from_csv("data/features.txt", float)
-    data_output = h.import_from_csv("data/targets.txt", int)
-    data_output = np.array([h.class_to_array(np.amax(data_output), x) for x in data_output])
+for i in range(10):
+
+    random_seed = np.random.randint(10, 1010)
+    np.random.seed(random_seed)
 
     train_input, validate_input, test_input = h.kfold(4, data_input, random_seed)
     train_output, validate_output, test_output = h.kfold(4, data_output, random_seed)
 
-    nn = NeuralNetwork(layer_sizes=[10, 15, 7], layer_activations=["sigmoid", "sigmoid"])
-
-    # print("Beginning training")
-    previous_mse = 1
-    current_mse = 0
-    epochs = 0
-    while(current_mse < previous_mse):
-        previous_mse = h.calculate_MSE(nn, validate_input, validate_output)
-        for i in range(len(train_input)):
-            nn.train(train_input[i], train_output[i])
-        current_mse = h.calculate_MSE(nn, validate_input, validate_output)
-        
-        epochs += 1
-        # if epochs % 10 == 0: print("Epoch: " + str(epochs) + " MSE: " + str(current_mse))
-
-
-    train_mse = h.calculate_MSE(nn, train_input, train_output)
-    test_mse = h.calculate_MSE(nn, test_input, test_output)
-    print("Random_Seed: "  + str(random_seed) + " Epochs: " + str(epochs) + " Tr: " + str(train_mse) + " V: " + str(current_mse) + " T: " + str(test_mse))
+    nn = make_neural_network(layer_sizes=[train_input.shape[1], 20, train_output.shape[1]], layer_activations=["sigmoid", "sigmoid"])
+
+    begin_time = time.time_ns()
+    epochs, current_mse = nn.train(train_input, train_output, validate_input, validate_output)
+    end_time = time.time_ns()
+
+    train_mse = nn.calculate_MSE(train_input, train_output)
+    test_mse = nn.calculate_MSE(test_input, test_output)
+
+    accuracy_test = nn.evaluate(test_input, test_output)
+    print("Seed:", random_seed, "Epochs:", epochs, "Time:", (end_time-begin_time)/1e9, "Accuracy:", accuracy_test, "Tr:", train_mse, "V:", current_mse, "T:", test_mse)
 ```
@@ -1,23 +1,69 @@
 import numpy as np
+from numba.experimental import jitclass
+from numba import types, typed
 import z_helper as h
 import time
 
 
+def make_neural_network(layer_sizes, layer_activations, learning_rate=0.05, low=-2, high=2):
+
+    # Initialize typed layer sizes list.
+    typed_layer_sizes = typed.List()
+    for size in layer_sizes:
+        typed_layer_sizes.append(size)
+    # print(typeof(typed_layer_sizes))
+
+    # Initialie typed layer activation method strings list.
+    typed_layer_activations = typed.List()
+    for activation in layer_activations:
+        typed_layer_activations.append(activation)
+    # print(typeof(typed_layer_activations))
+
+    # Initialize weights between every neuron in all adjacent layers.
+    typed_weights = typed.List()
+    for i in range(1, len(layer_sizes)):
+        typed_weights.append(np.random.uniform(low, high, (layer_sizes[i-1], layer_sizes[i])))
+    # print(typeof(typed_weights))
+
+    # Initialize biases for every neuron in all layers
+    typed_biases = typed.List()
+    for i in range(1, len(layer_sizes)):
+        typed_biases.append(np.random.uniform(low, high, (layer_sizes[i], 1)))
+    # print(typeof(typed_biases))
+
+    # Initialize empty list of output of every neuron in all layers.
+    typed_layer_outputs = typed.List()
+    for i in range(len(layer_sizes)):
+        typed_layer_outputs.append(np.zeros((layer_sizes[i], 1)))
+    # print(typeof(typed_layer_outputs))
+
+    return NeuralNetwork(typed_layer_sizes, typed_layer_activations, typed_weights, typed_biases, typed_layer_outputs, learning_rate, low, high)
+
+
+spec = [
+    ("layer_sizes", types.ListType(types.int64)),
+    ("layer_activations", types.ListType(types.string)),
+    ("weights", types.ListType(types.float64[:, ::1])),
+    ("biases", types.ListType(types.float64[:, ::1])),
+    ("layer_outputs", types.ListType(types.float64[:, ::1])),
+    ("learning_rate", types.float64),
+    ("low", types.int64),
+    ("high", types.int64)
+]
+@jitclass(spec)
 class NeuralNetwork:
-    def __init__(self, layer_sizes, layer_activations, learning_rate=0.1, low=-2, high=2):
+    def __init__(self, layer_sizes, layer_activations, weights, biases, layer_outputs, learning_rate, low, high):
         assert len(layer_sizes) >= 2
         assert len(layer_sizes)-1 == len(layer_activations)
 
-        # Initialize weights between every neuron in all adjacent layers.
-        self.weights = np.array([np.random.uniform(low, high, (layer_sizes[i-1], layer_sizes[i])) for i in range(1, len(layer_sizes))])
-        # Initialize biases for every neuron in all layers
-
-        self.biases = np.array([np.random.uniform(low, high, (layer_sizes[i], 1)) for i in range(1, len(layer_sizes))])
-        # Initialize empty list of output of every neuron in all layers.
-        self.layer_outputs = np.array([np.zeros((layer_sizes[i], 1)) for i in range(len(layer_sizes))])
+        self.layer_sizes = layer_sizes
 
+        # Initialize list with activation functions per layer.
         self.layer_activations = layer_activations
-        self.layer_sizes = layer_sizes
+        self.weights = weights
+        self.biases = biases
+        self.layer_outputs = layer_outputs
+
         self.learning_rate = learning_rate
 
     def calculate_output(self, input_data):
@@ -26,22 +72,24 @@ def calculate_output(self, input_data):
         y = input_data
         self.layer_outputs[0] = y
 
-        for i in range(self.weights.shape[0]):
-            y = self.layer_activations[i](np.dot(self.weights[i].T, y) + self.biases[i], False)
+        for i in range(len(self.weights)):
+            y = h.activation(np.dot(self.weights[i].T, y) + self.biases[i], self.layer_activations[i], False)
             self.layer_outputs[i+1] = y
         return y
 
-    def train(self, input_data, desired_output_data):
-        assert input_data.shape[0] == self.layer_sizes[0]
-        assert desired_output_data.shape[0] == self.layer_sizes[-1]
+    def train_single(self, input_data, desired_output_data):
+        assert len(input_data) == self.layer_sizes[0]
+        assert len(desired_output_data) == self.layer_sizes[-1]
         self.calculate_output(input_data)
 
-        error = (desired_output_data - self.layer_outputs[-1]) * self.layer_activations[-1](self.layer_outputs[-1], True)
+        error = (desired_output_data - self.layer_outputs[-1]) * h.activation(self.layer_outputs[-1], self.layer_activations[-1], True)
         self.weights[-1] += (self.learning_rate * self.layer_outputs[-2] * error.T)
         self.biases[-1] += self.learning_rate * error
 
-        for i in reversed(range(self.weights.shape[0]-1)):
-            error = np.dot(self.weights[i+1], error) * self.layer_activations[i](self.layer_outputs[i+1], True)
+        length_weights = len(self.weights)
+        for i in range(1, length_weights):
+            i = length_weights - i - 1
+            error = np.dot(self.weights[i+1], error) * h.activation(self.layer_outputs[i+1], self.layer_activations[i], True)
             self.weights[i] += (self.learning_rate * self.layer_outputs[i] * error.T)
             self.biases[i] += self.learning_rate * error
 
@@ -50,51 +98,71 @@ def calculate_SSE(self, input_data, desired_output_data):
         assert desired_output_data.shape[0] == self.layer_sizes[-1]
         return np.sum(np.power(desired_output_data - self.calculate_output(input_data), 2))
 
-    def calculate_MSE(self, input_data, output_data):
-        assert input_data.shape[0] == output_data.shape[0]
+    def calculate_MSE(self, input_data, desired_output_data):
+        assert input_data.shape[0] == desired_output_data.shape[0]
         size = input_data.shape[0]
         sum_error = 0
         for i in range(size):
-            sum_error += self.calculate_SSE(input_data[i], output_data[i])
+            sum_error += self.calculate_SSE(input_data[i], desired_output_data[i])
         return sum_error / size
 
+    def train(self, test_input_data, test_desired_output_data, validate_input_data, validate_output_data):
+        previous_mse = 1.0
+        current_mse = 0.0
+        epochs = 0
+        while(current_mse < previous_mse):
+            epochs += 1
+            previous_mse = self.calculate_MSE(validate_input_data, validate_output_data)
+            for i in range(len(test_input_data)):
+                self.train_single(test_input_data[i], test_desired_output_data[i])
+            current_mse = self.calculate_MSE(validate_input_data, validate_output_data)
+        return epochs, current_mse
+
+    def evaluate(self, input_data, desired_output_data):
+        corrects, wrongs = 0, 0
+        for i in range(len(input_data)):
+            output = self.calculate_output(input_data[i])
+            output_max = output.argmax()
+            desired_output_max = desired_output_data[i].argmax()
+            if output_max == desired_output_max:
+                corrects += 1
+            else:
+                wrongs += 1
+        return corrects / (corrects + wrongs) 
+
     def print_weights_and_biases(self):
         print(self.weights)
         print(self.biases)
 
 
 np.set_printoptions(linewidth=200)
 
-data_input = h.import_from_csv("data/features.txt", float)
-data_output = h.import_from_csv("data/targets.txt", int)
-data_output = np.array([h.class_to_array(np.amax(data_output), x) for x in data_output])
+data_input = np.load("data/ci_inputs.npy")
+data_output = np.load("data/ci_outputs.npy")
 
-data_input = data_input.reshape((len(data_input), -1, 1))
-data_output = data_output.reshape((len(data_input), -1, 1))
+print("Begin compiling!")
+begin_time = time.time_ns()
+compile_nn = make_neural_network(layer_sizes=[data_input.shape[1], data_output.shape[1]], layer_activations=["sigmoid"])
+compile_nn.train(data_input[:1], data_output[:1], data_input[1: 2], data_output[1: 2])
+end_time = time.time_ns()
+print("Compile time:", (end_time-begin_time) / 1e9)
 
-for i in range(4):
-    random_seed = 10
+for i in range(10):
+
+    random_seed = np.random.randint(10, 1010)
     np.random.seed(random_seed)
 
     train_input, validate_input, test_input = h.kfold(4, data_input, random_seed)
     train_output, validate_output, test_output = h.kfold(4, data_output, random_seed)
 
-    nn = NeuralNetwork(layer_sizes=[10, 15, 7], layer_activations=[h.sigmoid, h.sigmoid])
-    # test_mse = nn.calculate_MSE(test_input, test_output)
-    # print("TEST MSE:", test_mse)
+    nn = make_neural_network(layer_sizes=[train_input.shape[1], 20, train_output.shape[1]], layer_activations=["sigmoid", "sigmoid"])
 
-    previous_mse = 1
-    current_mse = 0
-    epochs = 0
     begin_time = time.time_ns()
-    while(current_mse < previous_mse):
-        epochs += 1
-        previous_mse = nn.calculate_MSE(validate_input, validate_output)
-        for i in range(len(train_input)):
-            nn.train(train_input[i], train_output[i])
-        current_mse = nn.calculate_MSE(validate_input, validate_output)
+    epochs, current_mse = nn.train(train_input, train_output, validate_input, validate_output)
     end_time = time.time_ns()
 
     train_mse = nn.calculate_MSE(train_input, train_output)
     test_mse = nn.calculate_MSE(test_input, test_output)
-    print("Seed:", random_seed, "Epochs:", epochs, "Time:", (end_time-begin_time)/1e9, "Tr:", train_mse, "V:", current_mse, "T:", test_mse)
+
+    accuracy_test = nn.evaluate(test_input, test_output)
+    print("Seed:", random_seed, "Epochs:", epochs, "Time:", (end_time-begin_time)/1e9, "Accuracy:", accuracy_test, "Tr:", train_mse, "V:", current_mse, "T:", test_mse)
@@ -0,0 +1,37 @@
+import numpy as np
+import z_helper as h
+
+
+def prepare_mnist_data():
+    print(1)
+    mnist_dataset = h.import_from_csv("data/mnist_train.csv", int)
+    print(2)
+    data_input = mnist_dataset[:, 1:].astype(float)
+    print(3)
+    data_input = data_input * (0.99 / 255.0) + 0.01
+    print(4)
+    data_output = mnist_dataset[:, :1].astype(int)
+    print(5)
+
+    data_output = np.array([h.class_to_array(np.amax(data_output), x) for x in data_output])
+    print(6)
+    data_input = data_input.reshape((len(data_input), -1, 1))
+    print(7)
+    data_output = data_output.reshape((len(data_output), -1, 1))
+    print(8)
+
+    np.save("data/mnist_inputs", data_input)
+    np.save("data/mnist_outputs", data_output)
+
+
+def prepare_ci_data():
+    data_input = h.import_from_csv("data/ci_features.txt", float)
+    data_output = h.import_from_csv("data/ci_targets.txt", int)
+
+    data_output = np.array([h.class_to_array(np.amax(data_output), x) for x in data_output])
+    data_input = data_input.reshape((len(data_input), -1, 1))
+    data_output = data_output.reshape((len(data_output), -1, 1))
+    np.save("data/ci_inputs", data_input)
+    np.save("data/ci_outputs", data_output)
+
+prepare_ci_data()
@@ -1,13 +1,13 @@
 import numpy as np
-
+from numba import njit, types, typed
 
 def import_from_csv(path, data_type):
     return np.genfromtxt(path, dtype=data_type, delimiter=',')
 
 
 def class_to_array(maximum_class, x):
-    data = np.zeros(maximum_class)
-    data[x-1] = 1
+    data = np.zeros(maximum_class) + 0.01
+    data[x-1] = 0.99
     return data
 
 
@@ -18,26 +18,23 @@ def kfold(k, data, seed=99):
     return data[fold_size*2:], data[:fold_size], data[fold_size:fold_size*2]
 
 
-def random_np(low, high, size):
-    assert low <= high
-    return np.random.random(size)*(high-low) + low
-
-
-def sigmoid(x, derivative):
-    if derivative:
-        return x * (1.0 - x)
-    else:
-        return 1.0 / (1.0 + np.exp(-x))
-
+@njit
+def activation(x, ftype, derivative):
+    if ftype == "sigmoid":
+        if derivative:
+            return x * (1.0 - x)
+        else:
+            return 1.0 / (1.0 + np.exp(-x))
 
+@njit
 def relu(x, derivative):
     if derivative:
-        x[x <= 0] = 0
-        x[x > 0] = 1
-        return x
+        return np.where(x <= 0, 0, 1)
     else:
         return np.maximum(0, x)
 
 
 def softmax(x):
     return np.exp(x) / np.sum(np.exp(x))
+
+