1
Regresión Lineal Global.
Se buscan los coeficientes de una función lineal
Una manera fácil (si es lineal simple, sólo dos dimensiones x e y):
obteniendo y = w0 + w1x
Métodos Predictivos.Interpolación y Predicción Secuencial
Error típico de una regresión lineal simple:
2
Regresión Lineal Global por Gradient Descent.
Una manera usual es utilizando “gradient descent”.
Se intenta minimizar la suma de cuadrados:
Derivando,
Iterativamente se van ajustando los coeficientes y reduciendo el error.
Métodos Predictivos.Interpolación y Predicción Secuencial
3
Regresión No Lineal.
Estimación Logarítmica (se sustituye la función a obtener por y=ln(f)):
Se hace regresión lineal para calcular los coeficientes y a la hora de predecir se calcula la f = ey.
Regresión Logística. (variación que se usa para clasificación entre 0 y 1 usando la f= ln(p/(1-p)))
Pick and Mix – Supercharging
Se añaden dimensiones, combinando las dadas. P.ej. si tenemos cuatro dimensiones: x1, x2, x3 (además de y) podemos definir x4 = x1·x2 , x5= x32, x6 = x1x2 y obtener una función lineal de x1, x2, x3, x4, x5, x6
Métodos Predictivos.Interpolación y Predicción Secuencial
4
Regresión Lineal Ponderada Localmente.
La función lineal se aproxima para cada punto xq a interpolar:
Se intenta minimizar la suma de cuadrados de los k más cercanos
donde d(·,·) es una distancia y K es una función que disminuye con la distancia (una función Kernel), p.ej. 1/d2
Gradient Descent:
?
?
?
A mayor k más global, a menor k más local (pero ojo con el overfitting)
Métodos Predictivos.Interpolación y Predicción Secuencial
5
Regresión Adaptativa:
Son casos particulares de regresión local, en el que se supone un orden y se utiliza preferentemente para predecir futuros valores de una serie:
Muy utilizada en compresión de sonido y de vídeo, en redes, etc. (se predicen las siguientes tramas)
Algoritmos mucho más sofisticados (cadenas de Markov, VQ)
Algoritmo MARS (Multiple Adaptive Regression Splines) (Friedman 1991).
Métodos Predictivos.Interpolación y Predicción Secuencial
6
k-NN (Nearest Neighbour):
1. Se miran los k casos más cercanos.
2. Si todos son de la misma clase, el nuevo caso se clasifica en esa clase.
3. Si no, se calcula la distancia media por clase o se asigna a la clase con más elementos.
El valor de k se suele determinar heurísticamente.
7-nearest neighbor
(Gp:) 1-nearest neighbor
(Gp:) ?
?
Clasifica
círculo
Clasifica
cuadrado
PARTICIÓN DEL 1-nearest neighbor
(Poliédrica o de Voronoi)
Métodos Predictivos.Aprendizaje Supervisado
7
k-NN (Nearest Neighbour). Mejora (ponderar más los más cercanos):
donde:
Se calcula la fuerza de atracción de cada clase cj para el nuevo punto xq. Y se elige la clase que más atrae.
(Si el punto xq coincide con un punto xi, la clase es la de xi)
(Si el punto xq coincide con más de un punto xi, se procede de la forma anterior)
Para valores continuos (sirve para interpolar):
Si la clase es un valor real, el k-NN es fácilmente adaptable:
donde los xi son los k vecinos más próximos y f(·) es la función que da el valor real de cada uno.
Aprendizaje Supervisado
8
(On-line) k-means clustering:
Aunque lo vimos como una técnica no supervisada, también se puede utilizar para aprendizaje supervisado, si se utiliza convenientemente.
Elegir un k mayor que el número de clases pero no mucho mayor.
Aprendizaje Supervisado
9
Perceptron Learning.
Computan una función lineal para cada yj es:
Se añade un threshold escalón:
Aprendizaje Supervisado
W1,1
W1,2
W1,3
Salidas
Entradas
W2,3
W3,3
W4,3
W5,3
W2,2
W3,2
W4,2
W5,2
W2,1
W3,1
W4,1
W5,1
x1
x2
x3
x4
x5
y3
y2
y1
PARTICIÓN LINEAL POSIBLE
PARTICIÓN LINEAL IMPOSIBLE
10
Gradient Descent (formul. para una sola salida):
El error de Least Mean Squares de los p ejemplos se define como:
Si queremos disminuir el error poco a poco. El gradiente es la derivada por cada componente del vector.
Queda:
Aprendizaje Supervisado
W1
Salida
Entradas
W2
W3
x1
x2
x3
y
Página siguiente |