From be28b8d1d05f523785d98e8ac23b9a03743a679f Mon Sep 17 00:00:00 2001
From: Noumanmufc1 <noumanmufc07@gmail.com>
Date: Thu, 20 Sep 2018 03:15:35 +0500
Subject: [PATCH 1/2] added relu activation

---
 learning.py       |  31 ++--
 neural_nets.ipynb | 351 ++++++++++++++++++++++++++++++++++++++++++++--
 utils.py          |  10 +-
 3 files changed, 367 insertions(+), 25 deletions(-)

diff --git a/learning.py b/learning.py
index 20e47d05b..f88b0498d 100644
--- a/learning.py
+++ b/learning.py
@@ -4,7 +4,7 @@
     removeall, unique, product, mode, argmax, argmax_random_tie, isclose, gaussian,
     dotproduct, vector_add, scalar_vector_product, weighted_sample_with_replacement,
     weighted_sampler, num_or_str, normalize, clip, sigmoid, print_table,
-    open_data, sigmoid_derivative, probability, norm, matrix_multiplication
+    open_data, sigmoid_derivative, probability, norm, matrix_multiplication, relu, relu_derivative
 )
 
 import copy
@@ -652,7 +652,7 @@ def predict(example):
 
 
 def NeuralNetLearner(dataset, hidden_layer_sizes=None,
-                     learning_rate=0.01, epochs=100):
+                     learning_rate=0.01, epochs=100, activation = sigmoid):
     """Layered feed-forward network.
     hidden_layer_sizes: List of number of hidden units per hidden layer
     learning_rate: Learning rate of gradient descent
@@ -664,9 +664,9 @@ def NeuralNetLearner(dataset, hidden_layer_sizes=None,
     o_units = len(dataset.values[dataset.target])
 
     # construct a network
-    raw_net = network(i_units, hidden_layer_sizes, o_units)
+    raw_net = network(i_units, hidden_layer_sizes, o_units, activation)
     learned_net = BackPropagationLearner(dataset, raw_net,
-                                         learning_rate, epochs)
+                                         learning_rate, epochs, activation)
 
     def predict(example):
         # Input nodes
@@ -695,7 +695,7 @@ def random_weights(min_value, max_value, num_weights):
     return [random.uniform(min_value, max_value) for _ in range(num_weights)]
 
 
-def BackPropagationLearner(dataset, net, learning_rate, epochs):
+def BackPropagationLearner(dataset, net, learning_rate, epochs, activation=sigmoid):
     """[Figure 18.23] The back-propagation algorithm for multilayer networks"""
     # Initialise weights
     for layer in net:
@@ -743,8 +743,11 @@ def BackPropagationLearner(dataset, net, learning_rate, epochs):
             # Error for the MSE cost function
             err = [t_val[i] - o_nodes[i].value for i in range(o_units)]
 
-            # The activation function used is the sigmoid function
-            delta[-1] = [sigmoid_derivative(o_nodes[i].value) * err[i] for i in range(o_units)]
+            # The activation function used is relu or sigmoid function
+            if node.activation == sigmoid:
+                delta[-1] = [sigmoid_derivative(o_nodes[i].value) * err[i] for i in range(o_units)]
+            else:
+                delta[-1] = [relu_derivative(o_nodes[i].value) * err[i] for i in range(o_units)]
 
             # Backward pass
             h_layers = n_layers - 2
@@ -756,7 +759,11 @@ def BackPropagationLearner(dataset, net, learning_rate, epochs):
                 # weights from each ith layer node to each i + 1th layer node
                 w = [[node.weights[k] for node in nx_layer] for k in range(h_units)]
 
-                delta[i] = [sigmoid_derivative(layer[j].value) * dotproduct(w[j], delta[i+1])
+                if activation == sigmoid:
+                    delta[i] = [sigmoid_derivative(layer[j].value) * dotproduct(w[j], delta[i+1])
+                            for j in range(h_units)]
+                else:
+                    delta[i] = [relu_derivative(layer[j].value) * dotproduct(w[j], delta[i+1])
                             for j in range(h_units)]
 
             #  Update weights
@@ -800,14 +807,14 @@ class NNUnit:
     weights: Weights to incoming connections
     """
 
-    def __init__(self, weights=None, inputs=None):
+    def __init__(self, activation, weights=None, inputs=None):
         self.weights = weights or []
         self.inputs = inputs or []
         self.value = None
-        self.activation = sigmoid
+        self.activation = activation
 
 
-def network(input_units, hidden_layer_sizes, output_units):
+def network(input_units, hidden_layer_sizes, output_units, activation):
     """Create Directed Acyclic Network of given number layers.
     hidden_layers_sizes : List number of neuron units in each hidden layer
     excluding input and output layers
@@ -818,7 +825,7 @@ def network(input_units, hidden_layer_sizes, output_units):
     else:
         layers_sizes = [input_units] + [output_units]
 
-    net = [[NNUnit() for n in range(size)]
+    net = [[NNUnit(activation) for n in range(size)]
            for size in layers_sizes]
     n_layers = len(net)
 
diff --git a/neural_nets.ipynb b/neural_nets.ipynb
index ecdeedcde..fe632c27f 100644
--- a/neural_nets.ipynb
+++ b/neural_nets.ipynb
@@ -14,9 +14,7 @@
   {
    "cell_type": "code",
    "execution_count": 1,
-   "metadata": {
-    "collapsed": true
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "from learning import *\n",
@@ -65,9 +63,148 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 2,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.01//EN\"\n",
+       "   \"http://www.w3.org/TR/html4/strict.dtd\">\n",
+       "\n",
+       "<html>\n",
+       "<head>\n",
+       "  <title></title>\n",
+       "  <meta http-equiv=\"content-type\" content=\"text/html; charset=None\">\n",
+       "  <style type=\"text/css\">\n",
+       "td.linenos { background-color: #f0f0f0; padding-right: 10px; }\n",
+       "span.lineno { background-color: #f0f0f0; padding: 0 5px 0 5px; }\n",
+       "pre { line-height: 125%; }\n",
+       "body .hll { background-color: #ffffcc }\n",
+       "body  { background: #f8f8f8; }\n",
+       "body .c { color: #408080; font-style: italic } /* Comment */\n",
+       "body .err { border: 1px solid #FF0000 } /* Error */\n",
+       "body .k { color: #008000; font-weight: bold } /* Keyword */\n",
+       "body .o { color: #666666 } /* Operator */\n",
+       "body .ch { color: #408080; font-style: italic } /* Comment.Hashbang */\n",
+       "body .cm { color: #408080; font-style: italic } /* Comment.Multiline */\n",
+       "body .cp { color: #BC7A00 } /* Comment.Preproc */\n",
+       "body .cpf { color: #408080; font-style: italic } /* Comment.PreprocFile */\n",
+       "body .c1 { color: #408080; font-style: italic } /* Comment.Single */\n",
+       "body .cs { color: #408080; font-style: italic } /* Comment.Special */\n",
+       "body .gd { color: #A00000 } /* Generic.Deleted */\n",
+       "body .ge { font-style: italic } /* Generic.Emph */\n",
+       "body .gr { color: #FF0000 } /* Generic.Error */\n",
+       "body .gh { color: #000080; font-weight: bold } /* Generic.Heading */\n",
+       "body .gi { color: #00A000 } /* Generic.Inserted */\n",
+       "body .go { color: #888888 } /* Generic.Output */\n",
+       "body .gp { color: #000080; font-weight: bold } /* Generic.Prompt */\n",
+       "body .gs { font-weight: bold } /* Generic.Strong */\n",
+       "body .gu { color: #800080; font-weight: bold } /* Generic.Subheading */\n",
+       "body .gt { color: #0044DD } /* Generic.Traceback */\n",
+       "body .kc { color: #008000; font-weight: bold } /* Keyword.Constant */\n",
+       "body .kd { color: #008000; font-weight: bold } /* Keyword.Declaration */\n",
+       "body .kn { color: #008000; font-weight: bold } /* Keyword.Namespace */\n",
+       "body .kp { color: #008000 } /* Keyword.Pseudo */\n",
+       "body .kr { color: #008000; font-weight: bold } /* Keyword.Reserved */\n",
+       "body .kt { color: #B00040 } /* Keyword.Type */\n",
+       "body .m { color: #666666 } /* Literal.Number */\n",
+       "body .s { color: #BA2121 } /* Literal.String */\n",
+       "body .na { color: #7D9029 } /* Name.Attribute */\n",
+       "body .nb { color: #008000 } /* Name.Builtin */\n",
+       "body .nc { color: #0000FF; font-weight: bold } /* Name.Class */\n",
+       "body .no { color: #880000 } /* Name.Constant */\n",
+       "body .nd { color: #AA22FF } /* Name.Decorator */\n",
+       "body .ni { color: #999999; font-weight: bold } /* Name.Entity */\n",
+       "body .ne { color: #D2413A; font-weight: bold } /* Name.Exception */\n",
+       "body .nf { color: #0000FF } /* Name.Function */\n",
+       "body .nl { color: #A0A000 } /* Name.Label */\n",
+       "body .nn { color: #0000FF; font-weight: bold } /* Name.Namespace */\n",
+       "body .nt { color: #008000; font-weight: bold } /* Name.Tag */\n",
+       "body .nv { color: #19177C } /* Name.Variable */\n",
+       "body .ow { color: #AA22FF; font-weight: bold } /* Operator.Word */\n",
+       "body .w { color: #bbbbbb } /* Text.Whitespace */\n",
+       "body .mb { color: #666666 } /* Literal.Number.Bin */\n",
+       "body .mf { color: #666666 } /* Literal.Number.Float */\n",
+       "body .mh { color: #666666 } /* Literal.Number.Hex */\n",
+       "body .mi { color: #666666 } /* Literal.Number.Integer */\n",
+       "body .mo { color: #666666 } /* Literal.Number.Oct */\n",
+       "body .sa { color: #BA2121 } /* Literal.String.Affix */\n",
+       "body .sb { color: #BA2121 } /* Literal.String.Backtick */\n",
+       "body .sc { color: #BA2121 } /* Literal.String.Char */\n",
+       "body .dl { color: #BA2121 } /* Literal.String.Delimiter */\n",
+       "body .sd { color: #BA2121; font-style: italic } /* Literal.String.Doc */\n",
+       "body .s2 { color: #BA2121 } /* Literal.String.Double */\n",
+       "body .se { color: #BB6622; font-weight: bold } /* Literal.String.Escape */\n",
+       "body .sh { color: #BA2121 } /* Literal.String.Heredoc */\n",
+       "body .si { color: #BB6688; font-weight: bold } /* Literal.String.Interpol */\n",
+       "body .sx { color: #008000 } /* Literal.String.Other */\n",
+       "body .sr { color: #BB6688 } /* Literal.String.Regex */\n",
+       "body .s1 { color: #BA2121 } /* Literal.String.Single */\n",
+       "body .ss { color: #19177C } /* Literal.String.Symbol */\n",
+       "body .bp { color: #008000 } /* Name.Builtin.Pseudo */\n",
+       "body .fm { color: #0000FF } /* Name.Function.Magic */\n",
+       "body .vc { color: #19177C } /* Name.Variable.Class */\n",
+       "body .vg { color: #19177C } /* Name.Variable.Global */\n",
+       "body .vi { color: #19177C } /* Name.Variable.Instance */\n",
+       "body .vm { color: #19177C } /* Name.Variable.Magic */\n",
+       "body .il { color: #666666 } /* Literal.Number.Integer.Long */\n",
+       "\n",
+       "  </style>\n",
+       "</head>\n",
+       "<body>\n",
+       "<h2></h2>\n",
+       "\n",
+       "<div class=\"highlight\"><pre><span></span><span class=\"k\">def</span> <span class=\"nf\">NeuralNetLearner</span><span class=\"p\">(</span><span class=\"n\">dataset</span><span class=\"p\">,</span> <span class=\"n\">hidden_layer_sizes</span><span class=\"o\">=</span><span class=\"bp\">None</span><span class=\"p\">,</span>\n",
+       "                     <span class=\"n\">learning_rate</span><span class=\"o\">=</span><span class=\"mf\">0.01</span><span class=\"p\">,</span> <span class=\"n\">epochs</span><span class=\"o\">=</span><span class=\"mi\">100</span><span class=\"p\">,</span> <span class=\"n\">activation</span> <span class=\"o\">=</span> <span class=\"n\">sigmoid</span><span class=\"p\">):</span>\n",
+       "    <span class=\"sd\">&quot;&quot;&quot;Layered feed-forward network.</span>\n",
+       "<span class=\"sd\">    hidden_layer_sizes: List of number of hidden units per hidden layer</span>\n",
+       "<span class=\"sd\">    learning_rate: Learning rate of gradient descent</span>\n",
+       "<span class=\"sd\">    epochs: Number of passes over the dataset</span>\n",
+       "<span class=\"sd\">    &quot;&quot;&quot;</span>\n",
+       "\n",
+       "    <span class=\"n\">hidden_layer_sizes</span> <span class=\"o\">=</span> <span class=\"n\">hidden_layer_sizes</span> <span class=\"ow\">or</span> <span class=\"p\">[</span><span class=\"mi\">3</span><span class=\"p\">]</span>  <span class=\"c1\"># default value</span>\n",
+       "    <span class=\"n\">i_units</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">dataset</span><span class=\"o\">.</span><span class=\"n\">inputs</span><span class=\"p\">)</span>\n",
+       "    <span class=\"n\">o_units</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">dataset</span><span class=\"o\">.</span><span class=\"n\">values</span><span class=\"p\">[</span><span class=\"n\">dataset</span><span class=\"o\">.</span><span class=\"n\">target</span><span class=\"p\">])</span>\n",
+       "\n",
+       "    <span class=\"c1\"># construct a network</span>\n",
+       "    <span class=\"n\">raw_net</span> <span class=\"o\">=</span> <span class=\"n\">network</span><span class=\"p\">(</span><span class=\"n\">i_units</span><span class=\"p\">,</span> <span class=\"n\">hidden_layer_sizes</span><span class=\"p\">,</span> <span class=\"n\">o_units</span><span class=\"p\">,</span> <span class=\"n\">activation</span><span class=\"p\">)</span>\n",
+       "    <span class=\"n\">learned_net</span> <span class=\"o\">=</span> <span class=\"n\">BackPropagationLearner</span><span class=\"p\">(</span><span class=\"n\">dataset</span><span class=\"p\">,</span> <span class=\"n\">raw_net</span><span class=\"p\">,</span>\n",
+       "                                         <span class=\"n\">learning_rate</span><span class=\"p\">,</span> <span class=\"n\">epochs</span><span class=\"p\">,</span> <span class=\"n\">activation</span><span class=\"p\">)</span>\n",
+       "\n",
+       "    <span class=\"k\">def</span> <span class=\"nf\">predict</span><span class=\"p\">(</span><span class=\"n\">example</span><span class=\"p\">):</span>\n",
+       "        <span class=\"c1\"># Input nodes</span>\n",
+       "        <span class=\"n\">i_nodes</span> <span class=\"o\">=</span> <span class=\"n\">learned_net</span><span class=\"p\">[</span><span class=\"mi\">0</span><span class=\"p\">]</span>\n",
+       "\n",
+       "        <span class=\"c1\"># Activate input layer</span>\n",
+       "        <span class=\"k\">for</span> <span class=\"n\">v</span><span class=\"p\">,</span> <span class=\"n\">n</span> <span class=\"ow\">in</span> <span class=\"nb\">zip</span><span class=\"p\">(</span><span class=\"n\">example</span><span class=\"p\">,</span> <span class=\"n\">i_nodes</span><span class=\"p\">):</span>\n",
+       "            <span class=\"n\">n</span><span class=\"o\">.</span><span class=\"n\">value</span> <span class=\"o\">=</span> <span class=\"n\">v</span>\n",
+       "\n",
+       "        <span class=\"c1\"># Forward pass</span>\n",
+       "        <span class=\"k\">for</span> <span class=\"n\">layer</span> <span class=\"ow\">in</span> <span class=\"n\">learned_net</span><span class=\"p\">[</span><span class=\"mi\">1</span><span class=\"p\">:]:</span>\n",
+       "            <span class=\"k\">for</span> <span class=\"n\">node</span> <span class=\"ow\">in</span> <span class=\"n\">layer</span><span class=\"p\">:</span>\n",
+       "                <span class=\"n\">inc</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"n\">n</span><span class=\"o\">.</span><span class=\"n\">value</span> <span class=\"k\">for</span> <span class=\"n\">n</span> <span class=\"ow\">in</span> <span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">inputs</span><span class=\"p\">]</span>\n",
+       "                <span class=\"n\">in_val</span> <span class=\"o\">=</span> <span class=\"n\">dotproduct</span><span class=\"p\">(</span><span class=\"n\">inc</span><span class=\"p\">,</span> <span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">weights</span><span class=\"p\">)</span>\n",
+       "                <span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">value</span> <span class=\"o\">=</span> <span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">activation</span><span class=\"p\">(</span><span class=\"n\">in_val</span><span class=\"p\">)</span>\n",
+       "\n",
+       "        <span class=\"c1\"># Hypothesis</span>\n",
+       "        <span class=\"n\">o_nodes</span> <span class=\"o\">=</span> <span class=\"n\">learned_net</span><span class=\"p\">[</span><span class=\"o\">-</span><span class=\"mi\">1</span><span class=\"p\">]</span>\n",
+       "        <span class=\"n\">prediction</span> <span class=\"o\">=</span> <span class=\"n\">find_max_node</span><span class=\"p\">(</span><span class=\"n\">o_nodes</span><span class=\"p\">)</span>\n",
+       "        <span class=\"k\">return</span> <span class=\"n\">prediction</span>\n",
+       "\n",
+       "    <span class=\"k\">return</span> <span class=\"n\">predict</span>\n",
+       "</pre></div>\n",
+       "</body>\n",
+       "</html>\n"
+      ],
+      "text/plain": [
+       "<IPython.core.display.HTML object>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
    "source": [
     "psource(NeuralNetLearner)"
    ]
@@ -169,21 +306,204 @@
    "source": [
     "### Implementation\n",
     "\n",
-   "First, we feed-forward the examples in our neural network. After that, we calculate the gradient for each layers' weights by using the chain rule. Once that is complete, we update all the weights using gradient descent. After running these for a given number of epochs, the function returns the trained Neural Network."
+    "First, we feed-forward the examples in our neural network. After that, we calculate the gradient for each layers' weights by using the chain rule. Once that is complete, we update all the weights using gradient descent. After running these for a given number of epochs, the function returns the trained Neural Network."
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 4,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.01//EN\"\n",
+       "   \"http://www.w3.org/TR/html4/strict.dtd\">\n",
+       "\n",
+       "<html>\n",
+       "<head>\n",
+       "  <title></title>\n",
+       "  <meta http-equiv=\"content-type\" content=\"text/html; charset=None\">\n",
+       "  <style type=\"text/css\">\n",
+       "td.linenos { background-color: #f0f0f0; padding-right: 10px; }\n",
+       "span.lineno { background-color: #f0f0f0; padding: 0 5px 0 5px; }\n",
+       "pre { line-height: 125%; }\n",
+       "body .hll { background-color: #ffffcc }\n",
+       "body  { background: #f8f8f8; }\n",
+       "body .c { color: #408080; font-style: italic } /* Comment */\n",
+       "body .err { border: 1px solid #FF0000 } /* Error */\n",
+       "body .k { color: #008000; font-weight: bold } /* Keyword */\n",
+       "body .o { color: #666666 } /* Operator */\n",
+       "body .ch { color: #408080; font-style: italic } /* Comment.Hashbang */\n",
+       "body .cm { color: #408080; font-style: italic } /* Comment.Multiline */\n",
+       "body .cp { color: #BC7A00 } /* Comment.Preproc */\n",
+       "body .cpf { color: #408080; font-style: italic } /* Comment.PreprocFile */\n",
+       "body .c1 { color: #408080; font-style: italic } /* Comment.Single */\n",
+       "body .cs { color: #408080; font-style: italic } /* Comment.Special */\n",
+       "body .gd { color: #A00000 } /* Generic.Deleted */\n",
+       "body .ge { font-style: italic } /* Generic.Emph */\n",
+       "body .gr { color: #FF0000 } /* Generic.Error */\n",
+       "body .gh { color: #000080; font-weight: bold } /* Generic.Heading */\n",
+       "body .gi { color: #00A000 } /* Generic.Inserted */\n",
+       "body .go { color: #888888 } /* Generic.Output */\n",
+       "body .gp { color: #000080; font-weight: bold } /* Generic.Prompt */\n",
+       "body .gs { font-weight: bold } /* Generic.Strong */\n",
+       "body .gu { color: #800080; font-weight: bold } /* Generic.Subheading */\n",
+       "body .gt { color: #0044DD } /* Generic.Traceback */\n",
+       "body .kc { color: #008000; font-weight: bold } /* Keyword.Constant */\n",
+       "body .kd { color: #008000; font-weight: bold } /* Keyword.Declaration */\n",
+       "body .kn { color: #008000; font-weight: bold } /* Keyword.Namespace */\n",
+       "body .kp { color: #008000 } /* Keyword.Pseudo */\n",
+       "body .kr { color: #008000; font-weight: bold } /* Keyword.Reserved */\n",
+       "body .kt { color: #B00040 } /* Keyword.Type */\n",
+       "body .m { color: #666666 } /* Literal.Number */\n",
+       "body .s { color: #BA2121 } /* Literal.String */\n",
+       "body .na { color: #7D9029 } /* Name.Attribute */\n",
+       "body .nb { color: #008000 } /* Name.Builtin */\n",
+       "body .nc { color: #0000FF; font-weight: bold } /* Name.Class */\n",
+       "body .no { color: #880000 } /* Name.Constant */\n",
+       "body .nd { color: #AA22FF } /* Name.Decorator */\n",
+       "body .ni { color: #999999; font-weight: bold } /* Name.Entity */\n",
+       "body .ne { color: #D2413A; font-weight: bold } /* Name.Exception */\n",
+       "body .nf { color: #0000FF } /* Name.Function */\n",
+       "body .nl { color: #A0A000 } /* Name.Label */\n",
+       "body .nn { color: #0000FF; font-weight: bold } /* Name.Namespace */\n",
+       "body .nt { color: #008000; font-weight: bold } /* Name.Tag */\n",
+       "body .nv { color: #19177C } /* Name.Variable */\n",
+       "body .ow { color: #AA22FF; font-weight: bold } /* Operator.Word */\n",
+       "body .w { color: #bbbbbb } /* Text.Whitespace */\n",
+       "body .mb { color: #666666 } /* Literal.Number.Bin */\n",
+       "body .mf { color: #666666 } /* Literal.Number.Float */\n",
+       "body .mh { color: #666666 } /* Literal.Number.Hex */\n",
+       "body .mi { color: #666666 } /* Literal.Number.Integer */\n",
+       "body .mo { color: #666666 } /* Literal.Number.Oct */\n",
+       "body .sa { color: #BA2121 } /* Literal.String.Affix */\n",
+       "body .sb { color: #BA2121 } /* Literal.String.Backtick */\n",
+       "body .sc { color: #BA2121 } /* Literal.String.Char */\n",
+       "body .dl { color: #BA2121 } /* Literal.String.Delimiter */\n",
+       "body .sd { color: #BA2121; font-style: italic } /* Literal.String.Doc */\n",
+       "body .s2 { color: #BA2121 } /* Literal.String.Double */\n",
+       "body .se { color: #BB6622; font-weight: bold } /* Literal.String.Escape */\n",
+       "body .sh { color: #BA2121 } /* Literal.String.Heredoc */\n",
+       "body .si { color: #BB6688; font-weight: bold } /* Literal.String.Interpol */\n",
+       "body .sx { color: #008000 } /* Literal.String.Other */\n",
+       "body .sr { color: #BB6688 } /* Literal.String.Regex */\n",
+       "body .s1 { color: #BA2121 } /* Literal.String.Single */\n",
+       "body .ss { color: #19177C } /* Literal.String.Symbol */\n",
+       "body .bp { color: #008000 } /* Name.Builtin.Pseudo */\n",
+       "body .fm { color: #0000FF } /* Name.Function.Magic */\n",
+       "body .vc { color: #19177C } /* Name.Variable.Class */\n",
+       "body .vg { color: #19177C } /* Name.Variable.Global */\n",
+       "body .vi { color: #19177C } /* Name.Variable.Instance */\n",
+       "body .vm { color: #19177C } /* Name.Variable.Magic */\n",
+       "body .il { color: #666666 } /* Literal.Number.Integer.Long */\n",
+       "\n",
+       "  </style>\n",
+       "</head>\n",
+       "<body>\n",
+       "<h2></h2>\n",
+       "\n",
+       "<div class=\"highlight\"><pre><span></span><span class=\"k\">def</span> <span class=\"nf\">BackPropagationLearner</span><span class=\"p\">(</span><span class=\"n\">dataset</span><span class=\"p\">,</span> <span class=\"n\">net</span><span class=\"p\">,</span> <span class=\"n\">learning_rate</span><span class=\"p\">,</span> <span class=\"n\">epochs</span><span class=\"p\">,</span> <span class=\"n\">activation</span><span class=\"o\">=</span><span class=\"n\">sigmoid</span><span class=\"p\">):</span>\n",
+       "    <span class=\"sd\">&quot;&quot;&quot;[Figure 18.23] The back-propagation algorithm for multilayer networks&quot;&quot;&quot;</span>\n",
+       "    <span class=\"c1\"># Initialise weights</span>\n",
+       "    <span class=\"k\">for</span> <span class=\"n\">layer</span> <span class=\"ow\">in</span> <span class=\"n\">net</span><span class=\"p\">:</span>\n",
+       "        <span class=\"k\">for</span> <span class=\"n\">node</span> <span class=\"ow\">in</span> <span class=\"n\">layer</span><span class=\"p\">:</span>\n",
+       "            <span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">weights</span> <span class=\"o\">=</span> <span class=\"n\">random_weights</span><span class=\"p\">(</span><span class=\"n\">min_value</span><span class=\"o\">=-</span><span class=\"mf\">0.5</span><span class=\"p\">,</span> <span class=\"n\">max_value</span><span class=\"o\">=</span><span class=\"mf\">0.5</span><span class=\"p\">,</span>\n",
+       "                                          <span class=\"n\">num_weights</span><span class=\"o\">=</span><span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">weights</span><span class=\"p\">))</span>\n",
+       "\n",
+       "    <span class=\"n\">examples</span> <span class=\"o\">=</span> <span class=\"n\">dataset</span><span class=\"o\">.</span><span class=\"n\">examples</span>\n",
+       "    <span class=\"sd\">&#39;&#39;&#39;</span>\n",
+       "<span class=\"sd\">    As of now dataset.target gives an int instead of list,</span>\n",
+       "<span class=\"sd\">    Changing dataset class will have effect on all the learners.</span>\n",
+       "<span class=\"sd\">    Will be taken care of later.</span>\n",
+       "<span class=\"sd\">    &#39;&#39;&#39;</span>\n",
+       "    <span class=\"n\">o_nodes</span> <span class=\"o\">=</span> <span class=\"n\">net</span><span class=\"p\">[</span><span class=\"o\">-</span><span class=\"mi\">1</span><span class=\"p\">]</span>\n",
+       "    <span class=\"n\">i_nodes</span> <span class=\"o\">=</span> <span class=\"n\">net</span><span class=\"p\">[</span><span class=\"mi\">0</span><span class=\"p\">]</span>\n",
+       "    <span class=\"n\">o_units</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">o_nodes</span><span class=\"p\">)</span>\n",
+       "    <span class=\"n\">idx_t</span> <span class=\"o\">=</span> <span class=\"n\">dataset</span><span class=\"o\">.</span><span class=\"n\">target</span>\n",
+       "    <span class=\"n\">idx_i</span> <span class=\"o\">=</span> <span class=\"n\">dataset</span><span class=\"o\">.</span><span class=\"n\">inputs</span>\n",
+       "    <span class=\"n\">n_layers</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">net</span><span class=\"p\">)</span>\n",
+       "\n",
+       "    <span class=\"n\">inputs</span><span class=\"p\">,</span> <span class=\"n\">targets</span> <span class=\"o\">=</span> <span class=\"n\">init_examples</span><span class=\"p\">(</span><span class=\"n\">examples</span><span class=\"p\">,</span> <span class=\"n\">idx_i</span><span class=\"p\">,</span> <span class=\"n\">idx_t</span><span class=\"p\">,</span> <span class=\"n\">o_units</span><span class=\"p\">)</span>\n",
+       "\n",
+       "    <span class=\"k\">for</span> <span class=\"n\">epoch</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"n\">epochs</span><span class=\"p\">):</span>\n",
+       "        <span class=\"c1\"># Iterate over each example</span>\n",
+       "        <span class=\"k\">for</span> <span class=\"n\">e</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">examples</span><span class=\"p\">)):</span>\n",
+       "            <span class=\"n\">i_val</span> <span class=\"o\">=</span> <span class=\"n\">inputs</span><span class=\"p\">[</span><span class=\"n\">e</span><span class=\"p\">]</span>\n",
+       "            <span class=\"n\">t_val</span> <span class=\"o\">=</span> <span class=\"n\">targets</span><span class=\"p\">[</span><span class=\"n\">e</span><span class=\"p\">]</span>\n",
+       "\n",
+       "            <span class=\"c1\"># Activate input layer</span>\n",
+       "            <span class=\"k\">for</span> <span class=\"n\">v</span><span class=\"p\">,</span> <span class=\"n\">n</span> <span class=\"ow\">in</span> <span class=\"nb\">zip</span><span class=\"p\">(</span><span class=\"n\">i_val</span><span class=\"p\">,</span> <span class=\"n\">i_nodes</span><span class=\"p\">):</span>\n",
+       "                <span class=\"n\">n</span><span class=\"o\">.</span><span class=\"n\">value</span> <span class=\"o\">=</span> <span class=\"n\">v</span>\n",
+       "\n",
+       "            <span class=\"c1\"># Forward pass</span>\n",
+       "            <span class=\"k\">for</span> <span class=\"n\">layer</span> <span class=\"ow\">in</span> <span class=\"n\">net</span><span class=\"p\">[</span><span class=\"mi\">1</span><span class=\"p\">:]:</span>\n",
+       "                <span class=\"k\">for</span> <span class=\"n\">node</span> <span class=\"ow\">in</span> <span class=\"n\">layer</span><span class=\"p\">:</span>\n",
+       "                    <span class=\"n\">inc</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"n\">n</span><span class=\"o\">.</span><span class=\"n\">value</span> <span class=\"k\">for</span> <span class=\"n\">n</span> <span class=\"ow\">in</span> <span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">inputs</span><span class=\"p\">]</span>\n",
+       "                    <span class=\"n\">in_val</span> <span class=\"o\">=</span> <span class=\"n\">dotproduct</span><span class=\"p\">(</span><span class=\"n\">inc</span><span class=\"p\">,</span> <span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">weights</span><span class=\"p\">)</span>\n",
+       "                    <span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">value</span> <span class=\"o\">=</span> <span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">activation</span><span class=\"p\">(</span><span class=\"n\">in_val</span><span class=\"p\">)</span>\n",
+       "\n",
+       "            <span class=\"c1\"># Initialize delta</span>\n",
+       "            <span class=\"n\">delta</span> <span class=\"o\">=</span> <span class=\"p\">[[]</span> <span class=\"k\">for</span> <span class=\"n\">_</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"n\">n_layers</span><span class=\"p\">)]</span>\n",
+       "\n",
+       "            <span class=\"c1\"># Compute outer layer delta</span>\n",
+       "\n",
+       "            <span class=\"c1\"># Error for the MSE cost function</span>\n",
+       "            <span class=\"n\">err</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"n\">t_val</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">]</span> <span class=\"o\">-</span> <span class=\"n\">o_nodes</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">]</span><span class=\"o\">.</span><span class=\"n\">value</span> <span class=\"k\">for</span> <span class=\"n\">i</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"n\">o_units</span><span class=\"p\">)]</span>\n",
+       "\n",
+       "            <span class=\"c1\"># The activation function used is relu or sigmoid function</span>\n",
+       "            <span class=\"k\">if</span> <span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">activation</span> <span class=\"o\">==</span> <span class=\"n\">sigmoid</span><span class=\"p\">:</span>\n",
+       "                <span class=\"n\">delta</span><span class=\"p\">[</span><span class=\"o\">-</span><span class=\"mi\">1</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"n\">sigmoid_derivative</span><span class=\"p\">(</span><span class=\"n\">o_nodes</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">]</span><span class=\"o\">.</span><span class=\"n\">value</span><span class=\"p\">)</span> <span class=\"o\">*</span> <span class=\"n\">err</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">]</span> <span class=\"k\">for</span> <span class=\"n\">i</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"n\">o_units</span><span class=\"p\">)]</span>\n",
+       "            <span class=\"k\">else</span><span class=\"p\">:</span>\n",
+       "                <span class=\"n\">delta</span><span class=\"p\">[</span><span class=\"o\">-</span><span class=\"mi\">1</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"n\">relu_derivative</span><span class=\"p\">(</span><span class=\"n\">o_nodes</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">]</span><span class=\"o\">.</span><span class=\"n\">value</span><span class=\"p\">)</span> <span class=\"o\">*</span> <span class=\"n\">err</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">]</span> <span class=\"k\">for</span> <span class=\"n\">i</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"n\">o_units</span><span class=\"p\">)]</span>\n",
+       "\n",
+       "            <span class=\"c1\"># Backward pass</span>\n",
+       "            <span class=\"n\">h_layers</span> <span class=\"o\">=</span> <span class=\"n\">n_layers</span> <span class=\"o\">-</span> <span class=\"mi\">2</span>\n",
+       "            <span class=\"k\">for</span> <span class=\"n\">i</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"n\">h_layers</span><span class=\"p\">,</span> <span class=\"mi\">0</span><span class=\"p\">,</span> <span class=\"o\">-</span><span class=\"mi\">1</span><span class=\"p\">):</span>\n",
+       "                <span class=\"n\">layer</span> <span class=\"o\">=</span> <span class=\"n\">net</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">]</span>\n",
+       "                <span class=\"n\">h_units</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">layer</span><span class=\"p\">)</span>\n",
+       "                <span class=\"n\">nx_layer</span> <span class=\"o\">=</span> <span class=\"n\">net</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"o\">+</span><span class=\"mi\">1</span><span class=\"p\">]</span>\n",
+       "\n",
+       "                <span class=\"c1\"># weights from each ith layer node to each i + 1th layer node</span>\n",
+       "                <span class=\"n\">w</span> <span class=\"o\">=</span> <span class=\"p\">[[</span><span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">weights</span><span class=\"p\">[</span><span class=\"n\">k</span><span class=\"p\">]</span> <span class=\"k\">for</span> <span class=\"n\">node</span> <span class=\"ow\">in</span> <span class=\"n\">nx_layer</span><span class=\"p\">]</span> <span class=\"k\">for</span> <span class=\"n\">k</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"n\">h_units</span><span class=\"p\">)]</span>\n",
+       "\n",
+       "                <span class=\"k\">if</span> <span class=\"n\">activation</span> <span class=\"o\">==</span> <span class=\"n\">sigmoid</span><span class=\"p\">:</span>\n",
+       "                    <span class=\"n\">delta</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"n\">sigmoid_derivative</span><span class=\"p\">(</span><span class=\"n\">layer</span><span class=\"p\">[</span><span class=\"n\">j</span><span class=\"p\">]</span><span class=\"o\">.</span><span class=\"n\">value</span><span class=\"p\">)</span> <span class=\"o\">*</span> <span class=\"n\">dotproduct</span><span class=\"p\">(</span><span class=\"n\">w</span><span class=\"p\">[</span><span class=\"n\">j</span><span class=\"p\">],</span> <span class=\"n\">delta</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"o\">+</span><span class=\"mi\">1</span><span class=\"p\">])</span>\n",
+       "                            <span class=\"k\">for</span> <span class=\"n\">j</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"n\">h_units</span><span class=\"p\">)]</span>\n",
+       "                <span class=\"k\">else</span><span class=\"p\">:</span>\n",
+       "                    <span class=\"n\">delta</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"n\">relu_derivative</span><span class=\"p\">(</span><span class=\"n\">layer</span><span class=\"p\">[</span><span class=\"n\">j</span><span class=\"p\">]</span><span class=\"o\">.</span><span class=\"n\">value</span><span class=\"p\">)</span> <span class=\"o\">*</span> <span class=\"n\">dotproduct</span><span class=\"p\">(</span><span class=\"n\">w</span><span class=\"p\">[</span><span class=\"n\">j</span><span class=\"p\">],</span> <span class=\"n\">delta</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"o\">+</span><span class=\"mi\">1</span><span class=\"p\">])</span>\n",
+       "                            <span class=\"k\">for</span> <span class=\"n\">j</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"n\">h_units</span><span class=\"p\">)]</span>\n",
+       "\n",
+       "            <span class=\"c1\">#  Update weights</span>\n",
+       "            <span class=\"k\">for</span> <span class=\"n\">i</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"mi\">1</span><span class=\"p\">,</span> <span class=\"n\">n_layers</span><span class=\"p\">):</span>\n",
+       "                <span class=\"n\">layer</span> <span class=\"o\">=</span> <span class=\"n\">net</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">]</span>\n",
+       "                <span class=\"n\">inc</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"n\">node</span><span class=\"o\">.</span><span class=\"n\">value</span> <span class=\"k\">for</span> <span class=\"n\">node</span> <span class=\"ow\">in</span> <span class=\"n\">net</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"o\">-</span><span class=\"mi\">1</span><span class=\"p\">]]</span>\n",
+       "                <span class=\"n\">units</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">layer</span><span class=\"p\">)</span>\n",
+       "                <span class=\"k\">for</span> <span class=\"n\">j</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"n\">units</span><span class=\"p\">):</span>\n",
+       "                    <span class=\"n\">layer</span><span class=\"p\">[</span><span class=\"n\">j</span><span class=\"p\">]</span><span class=\"o\">.</span><span class=\"n\">weights</span> <span class=\"o\">=</span> <span class=\"n\">vector_add</span><span class=\"p\">(</span><span class=\"n\">layer</span><span class=\"p\">[</span><span class=\"n\">j</span><span class=\"p\">]</span><span class=\"o\">.</span><span class=\"n\">weights</span><span class=\"p\">,</span>\n",
+       "                                                  <span class=\"n\">scalar_vector_product</span><span class=\"p\">(</span>\n",
+       "                                                  <span class=\"n\">learning_rate</span> <span class=\"o\">*</span> <span class=\"n\">delta</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">][</span><span class=\"n\">j</span><span class=\"p\">],</span> <span class=\"n\">inc</span><span class=\"p\">))</span>\n",
+       "\n",
+       "    <span class=\"k\">return</span> <span class=\"n\">net</span>\n",
+       "</pre></div>\n",
+       "</body>\n",
+       "</html>\n"
+      ],
+      "text/plain": [
+       "<IPython.core.display.HTML object>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
    "source": [
     "psource(BackPropagationLearner)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 5,
    "metadata": {},
    "outputs": [
     {
@@ -210,6 +530,13 @@
     "\n",
     "To increase accuracy, you can (most of the time) add more layers and nodes. Unfortunately, increasing the number of layers or nodes also increases the computation cost and might result in overfitting."
    ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
   }
  ],
  "metadata": {
@@ -221,14 +548,14 @@
   "language_info": {
    "codemirror_mode": {
     "name": "ipython",
-    "version": 2
+    "version": 3
    },
    "file_extension": ".py",
    "mimetype": "text/x-python",
    "name": "python",
    "nbconvert_exporter": "python",
-   "pygments_lexer": "ipython2",
-   "version": "2.7.14"
+   "pygments_lexer": "ipython3",
+   "version": "3.5.2"
   }
  },
  "nbformat": 4,
diff --git a/utils.py b/utils.py
index 1ac0b13f7..5d91c88ef 100644
--- a/utils.py
+++ b/utils.py
@@ -273,7 +273,15 @@ def sigmoid(x):
     """Return activation value of x with sigmoid function"""
     return 1 / (1 + math.exp(-x))
 
-
+def relu(x):
+	return max(0, x)
+
+def relu_derivative(value):
+	if value > 0:
+		return 1
+	else:
+		return 0
+		
 def step(x):
     """Return activation value of x with sign function"""
     return 1 if x >= 0 else 0

From 0ac4c212c292bafaf1f78619b7131899a94a2d4d Mon Sep 17 00:00:00 2001
From: Noumanmufc1 <noumanmufc07@gmail.com>
Date: Thu, 20 Sep 2018 03:25:13 +0500
Subject: [PATCH 2/2] added default parameters

---
 learning.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/learning.py b/learning.py
index f88b0498d..399654073 100644
--- a/learning.py
+++ b/learning.py
@@ -807,14 +807,14 @@ class NNUnit:
     weights: Weights to incoming connections
     """
 
-    def __init__(self, activation, weights=None, inputs=None):
+    def __init__(self, activation=sigmoid, weights=None, inputs=None):
         self.weights = weights or []
         self.inputs = inputs or []
         self.value = None
         self.activation = activation
 
 
-def network(input_units, hidden_layer_sizes, output_units, activation):
+def network(input_units, hidden_layer_sizes, output_units, activation=sigmoid):
     """Create Directed Acyclic Network of given number layers.
     hidden_layers_sizes : List number of neuron units in each hidden layer
     excluding input and output layers

<!DOCTYPE html PUBLIC '-//W3C//DTD XHTML 1.0 Transitional//EN' 'http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd'>
<html xmlns='http://www.w3.org/1999/xhtml'>
<head>
<title>pFad - Phonifier reborn</title>
<meta http-equiv='Content-Type' content='text/html; charset=utf-8' />
</head>
<body>
<h1>Pfad - The Proxy pFad of &#169; 2024 Garber Painting. All rights reserved.</h1>


<!-- Disclaimer -->
<p>Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.</p>
<br>
<p>Alternative Proxies:</p><p><a href="http://rainy.clevelandohioweatherforecast.com/php-proxy/index.php?q=https://patch-diff.githubusercontent.com/raw/aimacode/aima-python/pull/960.patch" target="_blank">Alternative Proxy</a></p><p><a href="http://rainy.clevelandohioweatherforecast.com/pFad/index.php?u=https://patch-diff.githubusercontent.com/raw/aimacode/aima-python/pull/960.patch" target="_blank">pFad Proxy</a></p><p><a href="http://rainy.clevelandohioweatherforecast.com/pFad/v3index.php?u=https://patch-diff.githubusercontent.com/raw/aimacode/aima-python/pull/960.patch" target="_blank">pFad v3 Proxy</a></p><p><a href="http://rainy.clevelandohioweatherforecast.com/pFad/v4index.php?u=https://patch-diff.githubusercontent.com/raw/aimacode/aima-python/pull/960.patch" target="_blank">pFad v4 Proxy</a></p></body>
</html>