Guangning Yu's Blog

Neural Network

2019-02-17 01:40:32 | MachineLearning

enter image description here

Calculate the similarity of two vectors

2019-02-17 01:40:32 | MachineLearning

Euclidean distance

from sklearn.metrics.pairwise import euclidean_distances
euclidean_distances([[1,2,3], [100,200,300]])
# return:
# array([[  0.        , 370.42408129],
#        [370.42408129,   0.        ]])

Cosine similarity

from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity([[1,2,3],[100,200,300]])
# return:
# array([[1., 1.],
#        [1., 1.]])

Pearson correlation

from scipy.stats.stats import pearsonr
pearsonr([1,2,3], [100,200,300])
# return ('1.0', 0.0) // (Pearson’s correlation coefficient, 2-tailed p-value)

Cosine Similarity and Pearson Correlation Coefficient

2019-02-17 01:40:32 | MachineLearning

enter image description here

Logistic Regression

2019-02-17 01:40:32 | MachineLearning

enter image description here

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib2
from numpy import mat, ones, shape, exp, array, arange
import matplotlib.pyplot as plt
def createDataSet():
    features = []
    labels = []
    lines = urllib2.urlopen('https://raw.github.com/pbharrin/machinelearninginaction/master/Ch05/testSet.txt').readlines()
    for line in lines:
        line = line.strip().split()
        features.append([1.0, float(line[0]), float(line[1])]) # set x0 to 1.0
        labels.append(int(line[2]))
    return features, labels
def sigmoid(value):
    return 1.0 / (1 + exp(-value))
def gradAscent(features, labels, alpha=0.001, iterations=500):
    '''
    梯度上升算法：
    - 批处理算法：每次更新回归系数时都需要遍历整个数据集
    '''
    featureMatrix = mat(features)
    labelMatrix = mat(labels).transpose()
    m, n = shape(featureMatrix)
    weights = ones((n, 1))
    for k in range(iterations):
        h = sigmoid(featureMatrix*weights)
        error = (labelMatrix - h)
        weig

Collaborative Filtering

2019-02-17 01:40:32 | MachineLearning

user-based collaborative filtering

for each user, find similar users by calculating similarity of the ratings (e.g. euclidean distance, pearson similarity)
for each item of the seleted users, calculate the weighted rating according to each user's similarity
select top n new items for this user

item-based collaborative filtering

for each item, calculate similarity of each other item
select top rating items of this user
for each selected item, find similar items and calculate the weighted rating according to each item's similarity
select top n new items for this user

user-based or item-based?

item-based method needs to maintain the item similarity table
for sparse dataset, item-based method is better
for dense dataset, both methods have the similar performance