Create Batch Reset Hyperparameter tutorial notebook
[notebooks.git] / jm-test / universal-approximation-rnn.ipynb
blob6528db471ac729ecbb76e68e05e96fc3fb66b7a6
2  "cells": [
3   {
4    "cell_type": "markdown",
5    "id": "9aae1d94",
6    "metadata": {},
7    "source": [
8     "Papers on uniform approximation theorem for RNN assumes that the RNN is recursion of the form $z_{k+1} = s(A z_k +B u_k +b)$, where $z$ is a state vector, $u$ is an external input vector, and $s$ is an activation function applied in each coordinate. Provide a sample code how to build and train such network in keras on a simple example data."
9    ]
10   },
11   {
12    "cell_type": "code",
13    "execution_count": 1,
14    "id": "b69a6764",
15    "metadata": {},
16    "outputs": [
17     {
18      "name": "stderr",
19      "output_type": "stream",
20      "text": [
21       "2023-12-30 14:07:04.784673: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA\n",
22       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
23       "2023-12-30 14:07:09.339389: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA\n",
24       "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n"
25      ]
26     },
27     {
28      "name": "stdout",
29      "output_type": "stream",
30      "text": [
31       "16/16 [==============================] - 0s 1ms/step\n"
32      ]
33     },
34     {
35      "data": {
36       "image/png": "\n",
37       "text/plain": [
38        "<Figure size 640x480 with 1 Axes>"
39       ]
40      },
41      "metadata": {},
42      "output_type": "display_data"
43     }
44    ],
45    "source": [
46     "import numpy as np\n",
47     "from keras.models import Sequential\n",
48     "from keras.layers import SimpleRNN, Dense\n",
49     "import matplotlib.pyplot as plt\n",
50     "\n",
51     "# Generating sine wave data\n",
52     "t = np.linspace(0, 50, 500)\n",
53     "data = np.sin(t)\n",
54     "\n",
55     "# Preparing dataset\n",
56     "def prepare_data(data, steps):\n",
57     "    X, y = [], []\n",
58     "    for i in range(len(data) - steps):\n",
59     "        X.append(data[i:i+steps])\n",
60     "        y.append(data[i+steps])\n",
61     "    return np.array(X), np.array(y)\n",
62     "\n",
63     "steps = 5\n",
64     "X, y = prepare_data(data, steps)\n",
65     "X = X.reshape(X.shape[0], X.shape[1], 1)\n",
66     "\n",
67     "# Building the RNN model\n",
68     "model = Sequential()\n",
69     "model.add(SimpleRNN(units=50, activation='tanh', input_shape=(steps, 1)))\n",
70     "model.add(Dense(1))\n",
71     "\n",
72     "# Compile the model\n",
73     "model.compile(optimizer='adam', loss='mean_squared_error')\n",
74     "\n",
75     "# Train the model\n",
76     "model.fit(X, y, epochs=100, batch_size=32, verbose=0)\n",
77     "\n",
78     "# Predictions for visualization\n",
79     "predictions = model.predict(X)\n",
80     "\n",
81     "# Plotting\n",
82     "plt.plot(t[steps:], data[steps:], label='Original')\n",
83     "plt.plot(t[steps:], predictions.ravel(), label='Predicted')\n",
84     "plt.legend()\n",
85     "plt.show()\n"
86    ]
87   },
88   {
89    "cell_type": "markdown",
90    "id": "45c13bbc",
91    "metadata": {},
92    "source": [
93     "This code does the following:\n",
94     "\n",
95     "* Generates a sine wave dataset.\n",
96     "* Prepares the data for training by creating sequences (of a defined number of steps) as input and the next value in the sequence as the target.\n",
97     "* Defines an RNN model with the SimpleRNN layer in Keras. The network uses tanh as the activation function.\n",
98     "* Compiles the model using the Adam optimizer and mean squared error as the loss function.\n",
99     "* Trains the model on the prepared data.\n",
100     "* Predicts the sine wave values using the trained model and plots the original data against the predictions for visual comparison.\n",
101     "\n",
102     "This example provides a basic understanding of building and training an RNN with Keras. You can modify the architecture, add more layers, or change hyperparameters to suit your specific problem."
103    ]
104   },
105   {
106    "cell_type": "markdown",
107    "id": "45aedb88",
108    "metadata": {},
109    "source": [
110     "Provide a code to get the matrices A and B from this network and reproduce model.predict() in plain python code."
111    ]
112   },
113   {
114    "cell_type": "markdown",
115    "id": "659afa1a",
116    "metadata": {},
117    "source": [
118     "To extract the matrices A and B from the trained RNN model and reproduce the model.predict() function in plain Python, you need to understand how RNNs are structured in Keras. In a SimpleRNN layer, the weights are organized as follows:\n",
119     "\n",
120     "* The kernel (weights for the input, equivalent to your B) is accessible via layer.get_weights()[0].\n",
121     "* The recurrent kernel (weights for the state, equivalent to your A) is accessible via layer.get_weights()[1].\n",
122     "* The bias vector (equivalent to your bb) is accessible via layer.get_weights()[2].\n",
123     "\n",
124     "First, let's extract these weights:"
125    ]
126   },
127   {
128    "cell_type": "code",
129    "execution_count": 2,
130    "id": "153c9180",
131    "metadata": {},
132    "outputs": [],
133    "source": [
134     "# Assuming model is the trained Keras model\n",
135     "rnn_layer = model.layers[0]  # SimpleRNN layer\n",
136     "\n",
137     "B, A, b = rnn_layer.get_weights()\n",
138     "dense_weights = rnn_layer.get_weights()"
139    ]
140   },
141   {
142    "cell_type": "code",
143    "execution_count": 3,
144    "id": "ec76222d",
145    "metadata": {},
146    "outputs": [
147     {
148      "name": "stdout",
149      "output_type": "stream",
150      "text": [
151       "A.shape= (50, 50)\n",
152       "B.shape= (1, 50)\n",
153       "b.shape= (50,)\n"
154      ]
155     }
156    ],
157    "source": [
158     "print('A.shape=',A.shape)\n",
159     "print('B.shape=',B.shape)\n",
160     "print('b.shape=',b.shape)"
161    ]
162   },
163   {
164    "cell_type": "code",
165    "execution_count": 4,
166    "id": "aeb881b9",
167    "metadata": {},
168    "outputs": [
169     {
170      "ename": "NameError",
171      "evalue": "name 'dense_weights' is not defined",
172      "output_type": "error",
173      "traceback": [
174       "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
175       "\u001b[0;31mNameError\u001b[0m                                 Traceback (most recent call last)",
176       "Cell \u001b[0;32mIn[4], line 28\u001b[0m\n\u001b[1;32m     25\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m np\u001b[38;5;241m.\u001b[39marray(outputs)\n\u001b[1;32m     27\u001b[0m \u001b[38;5;66;03m# Use the revised function for prediction\u001b[39;00m\n\u001b[0;32m---> 28\u001b[0m manual_predictions \u001b[38;5;241m=\u001b[39m rnn_predict(X, A, B, b, \u001b[43mdense_weights\u001b[49m)\n\u001b[1;32m     29\u001b[0m manual_predictions \u001b[38;5;241m=\u001b[39m manual_predictions\u001b[38;5;241m.\u001b[39mreshape(\u001b[38;5;241m-\u001b[39m\u001b[38;5;241m1\u001b[39m)\n",
177       "\u001b[0;31mNameError\u001b[0m: name 'dense_weights' is not defined"
178      ]
179     }
180    ],
181    "source": [
182     "def tanh(x):\n",
183     "    return np.tanh(x)\n",
184     "\n",
185     "def rnn_predict(X, A, B, b, dense_weights):\n",
186     "    \"\"\"\n",
187     "    Reproduce Keras model prediction in plain Python.\n",
188     "    X: Input data (num_samples, num_timesteps, num_features)\n",
189     "    A: Recurrent kernel weights\n",
190     "    B: Input kernel weights\n",
191     "    b: Bias\n",
192     "    dense_weights: Weights and biases from the Dense layer\n",
193     "    \"\"\"\n",
194     "    num_samples, num_timesteps, num_features = X.shape\n",
195     "    n_units = A.shape[0]  # Number of units in the RNN layer\n",
196     "    outputs = []\n",
197     "\n",
198     "    for sample in X:\n",
199     "        h = np.zeros(n_units)  # Initial state for each sample\n",
200     "        for t in range(num_timesteps):\n",
201     "            x_t = sample[t]  # Input at time step t\n",
202     "            h = tanh(np.dot(h, A) + np.dot(x_t, B) + b)\n",
203     "        y = np.dot(h, dense_weights[0]) + dense_weights[1]  # Dense layer transformation\n",
204     "        outputs.append(y)\n",
205     "\n",
206     "    return np.array(outputs)\n",
207     "\n",
208     "# Use the revised function for prediction\n",
209     "manual_predictions = rnn_predict(X, A, B, b, dense_weights)\n",
210     "manual_predictions = manual_predictions.reshape(-1)\n"
211    ]
212   },
213   {
214    "cell_type": "code",
215    "execution_count": null,
216    "id": "ac13cac4",
217    "metadata": {},
218    "outputs": [],
219    "source": []
220   },
221   {
222    "cell_type": "code",
223    "execution_count": null,
224    "id": "00f5beb4",
225    "metadata": {},
226    "outputs": [],
227    "source": []
228   }
229  ],
230  "metadata": {
231   "kernelspec": {
232    "display_name": "Python 3 (ipykernel)",
233    "language": "python",
234    "name": "python3"
235   },
236   "language_info": {
237    "codemirror_mode": {
238     "name": "ipython",
239     "version": 3
240    },
241    "file_extension": ".py",
242    "mimetype": "text/x-python",
243    "name": "python",
244    "nbconvert_exporter": "python",
245    "pygments_lexer": "ipython3",
246    "version": "3.10.9"
247   }
248  },
249  "nbformat": 4,
250  "nbformat_minor": 5