import pandas as pd

ratings = pd.read_csv("./movie-lens-dataset/ratings.csv")
movies = pd.read_csv("./movie-lens-dataset/movies.csv")

collab = pd.merge(ratings, movies, on = "movieId").drop(columns = ["genres"])
collab.head()

collab.describe()

grouped_by_user_ID = collab.groupby("userId").size()
grouped_by_user_ID

userId
1       232
2        29
3        39
4       216
5        44
       ... 
606    1115
607     187
608     831
609      37
610    1302
Length: 610, dtype: int64

grouped_by_movie_ID = collab.groupby("movieId").count() 
len(grouped_by_movie_ID)

9724

collab['rating'].hist()
print("The distribution of ratings for the movies in our dataset")

The distribution of ratings for the movies in our dataset

collab.pivot(index = "userId", columns = "movieId", values = "rating")

import torch
from torch.utils.data import DataLoader, random_split
from torch import tensor

input_features = ["userId", "movieId"]
target_feature = "rating"

train_xs_df = collab[input_features]
train_y_df = collab[target_feature]

train_xs_tns, train_y_tns = tensor(train_xs_df.values, dtype=torch.int32), tensor(train_y_df.values, dtype=torch.float32)

train_size = int(len(train_xs_tns) * 0.8)
valid_size = len(train_xs_tns) - train_size

train = list(zip(train_xs_tns, train_y_tns))
train_s, valid_s = random_split(train, [train_size, valid_size])

train_dl, valid_dl = DataLoader(train_s, batch_size = 16, shuffle = True), DataLoader(valid_s, batch_size = 16, shuffle = True)

def create_embedding(size):
    return nn.Parameter(torch.zeros(*size).normal_(0, 0.01))

create_embedding([5,2])

Parameter containing:
tensor([[ 0.0181,  0.0076],
        [-0.0004,  0.0099],
        [-0.0128,  0.0038],
        [ 0.0041,  0.0052],
        [ 0.0147,  0.0043]], requires_grad=True)

def interpret(prediction):
    """ A function to interpret the predictions of our model -- rounds a float to the closest 0.5"""
    pred = round(prediction, 1)
    digit = int(pred)
    decimal = round(pred-digit,1)
    if decimal > 0.25 and decimal < 0.75: 
        return digit + 0.5
    elif decimal < 0.25: 
        return float(digit)
    else: 
        return digit + 1

import torch.nn.functional as F

def ranged_sigmoid(x, lower_bound, upper_bound):
  """Creates a ranged sigmoid function given a certain lower bound and upper bound"""
  sigmoid_output = F.sigmoid(x)
  scaled_output = sigmoid_output  * (upper_bound - lower_bound) + lower_bound
  return scaled_output

import torch.nn as nn

class DotProduct(nn.Module):
    def __init__(self, n_users, n_movies,n_factors, y_range = (0, 5.5)):
        super().__init__()
        self.user_factors = nn.Embedding(n_users, n_factors)
        self.user_bias = nn.Embedding(n_users, 1)
        self.movie_factors = nn.Embedding(n_movies, n_factors)
        self.movie_bias = nn.Embedding(n_movies, 1)
        self.y_range = (0, 5.5)

    def forward(self, x):
        users = self.user_factors(x[:,0])
        movies = self.movie_factors(x[:,1])
        product = (users*movies).sum(dim = 1, keepdim = True)
        product += self.user_bias(x[:,0]) + self.movie_bias(x[:,1])
        return ranged_sigmoid(product, *self.y_range)

n_users = 611
n_movies = 193610
n_factors = 5

dot_product_model = DotProduct(n_users, n_movies, n_factors)

import torch
import numpy as np

loss_f = F.mse_loss 
SGD = torch.optim.SGD(params = dot_product_model.parameters(), lr = 0.1, weight_decay = 0.05)

def train_model(model, loss_f, optimizer): 
    def train_epoch():
        losses = []
        for xb, yb in train_dl:
            preds = model.forward(xb)
            loss = loss_f(preds, yb)
            losses.append(loss.item())
            loss.backward()
            optimizer.step()
            optimizer.zero_grad()
        return np.mean(np.array(losses))

    def validate_epoch():
        accuracies = []
        losses = []
        for xb, yb in valid_dl:
            preds = model.forward(xb)
            loss = loss_f(preds, yb)
            losses.append(loss.item())
            batch_accuracy = (preds.detach().apply_(interpret) == yb).float().mean().item()
            accuracies.append(batch_accuracy)
        return np.mean(np.array(accuracies)), np.mean(np.array(losses))

    for ep in range(10):
        mean_loss = train_epoch()
        valid_accuracy, valid_loss = validate_epoch()
        print(f"Epoch #{ep+1} | Train Mean Loss: {round(mean_loss, 3)} | Valid Mean Loss: {round(valid_loss, 3)} | Valid Mean Epoch Accuracy: {round(valid_accuracy, 3)} ")
    
    print("Training complete :)")
    return model

train_model(dot_product_model, loss_f, SGD)

Epoch #1 | Train Mean Loss: 1.495 | Valid Mean Loss: 1.401 | Valid Mean Epoch Accuracy: 0.2 
Epoch #2 | Train Mean Loss: 1.401 | Valid Mean Loss: 1.396 | Valid Mean Epoch Accuracy: 0.2 
Epoch #3 | Train Mean Loss: 1.401 | Valid Mean Loss: 1.406 | Valid Mean Epoch Accuracy: 0.202 
Epoch #4 | Train Mean Loss: 1.401 | Valid Mean Loss: 1.406 | Valid Mean Epoch Accuracy: 0.201 
Epoch #5 | Train Mean Loss: 1.402 | Valid Mean Loss: 1.4 | Valid Mean Epoch Accuracy: 0.199 
Epoch #6 | Train Mean Loss: 1.402 | Valid Mean Loss: 1.403 | Valid Mean Epoch Accuracy: 0.201 
Epoch #7 | Train Mean Loss: 1.401 | Valid Mean Loss: 1.398 | Valid Mean Epoch Accuracy: 0.199 
Epoch #8 | Train Mean Loss: 1.402 | Valid Mean Loss: 1.402 | Valid Mean Epoch Accuracy: 0.201 
Epoch #9 | Train Mean Loss: 1.401 | Valid Mean Loss: 1.408 | Valid Mean Epoch Accuracy: 0.201 
Epoch #10 | Train Mean Loss: 1.402 | Valid Mean Loss: 1.407 | Valid Mean Epoch Accuracy: 0.201 
Training complete :)

DotProduct(
  (user_factors): Embedding(611, 5)
  (user_bias): Embedding(611, 1)
  (movie_factors): Embedding(193610, 5)
  (movie_bias): Embedding(193610, 1)
)

Epoch #1 | Train Mean Loss: 1.1 | Valid Mean Loss: 1.143 | Valid Mean Epoch Accuracy: 0.13 
Epoch #2 | Train Mean Loss: 1.098 | Valid Mean Loss: 1.112 | Valid Mean Epoch Accuracy: 0.13 
Epoch #3 | Train Mean Loss: 1.099 | Valid Mean Loss: 1.098 | Valid Mean Epoch Accuracy: 0.13 
Epoch #4 | Train Mean Loss: 1.099 | Valid Mean Loss: 1.097 | Valid Mean Epoch Accuracy: 0.13 
Epoch #5 | Train Mean Loss: 1.098 | Valid Mean Loss: 1.095 | Valid Mean Epoch Accuracy: 0.13 
Epoch #6 | Train Mean Loss: 1.1 | Valid Mean Loss: 1.1 | Valid Mean Epoch Accuracy: 0.13 
Epoch #7 | Train Mean Loss: 1.099 | Valid Mean Loss: 1.096 | Valid Mean Epoch Accuracy: 0.13 
Epoch #8 | Train Mean Loss: 1.099 | Valid Mean Loss: 1.115 | Valid Mean Epoch Accuracy: 0.13 
Epoch #9 | Train Mean Loss: 1.099 | Valid Mean Loss: 1.108 | Valid Mean Epoch Accuracy: 0.13 
Epoch #10 | Train Mean Loss: 1.098 | Valid Mean Loss: 1.101 | Valid Mean Epoch Accuracy: 0.13 
Training complete :)

CollabNN(
  (user_factors): Embedding(611, 72)
  (movie_factors): Embedding(193610, 103)
  (layers): Sequential(
    (0): Linear(in_features=175, out_features=100, bias=True)
    (1): ReLU()
    (2): Linear(in_features=100, out_features=1, bias=True)
  )
)

    wd_loss = loss + wd * (parameters**2).sum()

class CollabNN(nn.Module):
    def __init__(self, n_users, n_user_factors, n_movies, n_movie_factors, y_range = (0,5.5), n_act = 100):
        super().__init__()
        self.user_factors = nn.Embedding(n_users, n_user_factors)
        self.movie_factors = nn.Embedding(n_movies, n_movie_factors)
        self.layers = nn.Sequential(
            nn.Linear(n_user_factors + n_movie_factors, n_act), 
            nn.ReLU(),
            nn.Linear(n_act, 1)
        )
        self.y_range = y_range

    def forward(self, x):
        embs = self.user_factors(x[:,0]), self.movie_factors(x[:,1])
        pred = self.layers(torch.cat(embs, dim = 1))
        return ranged_sigmoid(pred, *self.y_range)

n_users = 611
n_movies = 193610
n_user_factors = 72
n_movie_factors = 103

nn_model = CollabNN(n_users, n_user_factors, n_movies, n_movie_factors)

sgd = torch.optim.SGD(params = nn_model.parameters(), lr = 0.1, weight_decay = 0.05)
train_model(nn_model, loss_f, sgd)

Epoch #1 | Train Mean Loss: 1.1 | Valid Mean Loss: 1.143 | Valid Mean Epoch Accuracy: 0.13 
Epoch #2 | Train Mean Loss: 1.098 | Valid Mean Loss: 1.112 | Valid Mean Epoch Accuracy: 0.13 
Epoch #3 | Train Mean Loss: 1.099 | Valid Mean Loss: 1.098 | Valid Mean Epoch Accuracy: 0.13 
Epoch #4 | Train Mean Loss: 1.099 | Valid Mean Loss: 1.097 | Valid Mean Epoch Accuracy: 0.13 
Epoch #5 | Train Mean Loss: 1.098 | Valid Mean Loss: 1.095 | Valid Mean Epoch Accuracy: 0.13 
Epoch #6 | Train Mean Loss: 1.1 | Valid Mean Loss: 1.1 | Valid Mean Epoch Accuracy: 0.13 
Epoch #7 | Train Mean Loss: 1.099 | Valid Mean Loss: 1.096 | Valid Mean Epoch Accuracy: 0.13 
Epoch #8 | Train Mean Loss: 1.099 | Valid Mean Loss: 1.115 | Valid Mean Epoch Accuracy: 0.13 
Epoch #9 | Train Mean Loss: 1.099 | Valid Mean Loss: 1.108 | Valid Mean Epoch Accuracy: 0.13 
Epoch #10 | Train Mean Loss: 1.098 | Valid Mean Loss: 1.101 | Valid Mean Epoch Accuracy: 0.13 
Training complete :)

CollabNN(
  (user_factors): Embedding(611, 72)
  (movie_factors): Embedding(193610, 103)
  (layers): Sequential(
    (0): Linear(in_features=175, out_features=100, bias=True)
    (1): ReLU()
    (2): Linear(in_features=100, out_features=1, bias=True)
  )
)

	userId	movieId	rating	timestamp	title
0	1	1	4.0	964982703	Toy Story (1995)
1	1	3	4.0	964981247	Grumpier Old Men (1995)
2	1	6	4.0	964982224	Heat (1995)
3	1	47	5.0	964983815	Seven (a.k.a. Se7en) (1995)
4	1	50	5.0	964982931	Usual Suspects, The (1995)

	userId	movieId	rating	timestamp
count	100836.000000	100836.000000	100836.000000	1.008360e+05
mean	326.127564	19435.295718	3.501557	1.205946e+09
std	182.618491	35530.987199	1.042529	2.162610e+08
min	1.000000	1.000000	0.500000	8.281246e+08
25%	177.000000	1199.000000	3.000000	1.019124e+09
50%	325.000000	2991.000000	3.500000	1.186087e+09
75%	477.000000	8122.000000	4.000000	1.435994e+09
max	610.000000	193609.000000	5.000000	1.537799e+09

movieId	1	2	3	4	5	6	7	8	9	10	...	193565	193567	193571	193573	193579	193581	193583	193585	193587	193609
userId
1	4.0	NaN	4.0	NaN	NaN	4.0	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
5	4.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
606	2.5	NaN	NaN	NaN	NaN	NaN	2.5	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
607	4.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
608	2.5	2.0	2.0	NaN	NaN	NaN	NaN	NaN	NaN	4.0	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
609	3.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	4.0	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
610	5.0	NaN	NaN	NaN	NaN	5.0	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

Creating a Collaborative Filtering Recommendation System Using The Movie Lens Dataset¶

Exploration¶

Preparing our Data for Training and Testing¶

Building the Collaborative Filtering Model¶

Latent Factors¶

Embeddings¶

Defining Our Model¶

Training Loop¶

Weight Decay¶

Neural Network Approach¶