Aprendizaje por refuerzo

1325 palabras 6 páginas
Máster en Ingeniería de Sistemas y de Control – Sistemas Inteligentes

Caso de estudio – Aprendizaje por refuerzo
Laberinto El problema del laberinto trata de enseñar a un robot a alcanzar la salida de un laberinto desconocido. Problema El problema del laberinto tiene múltiples variantes. Aquí se adopta un sencillo laberinto de 3x3 sin obstáculos en él, aunque la solución adoptada puede generalizarse a casos más complejos. 1 2 3

1

Salida

2

3

-1

+1

En el ejemplo propuesto hay 2 estados terminales, (3,2) y (3,3), que tienen asignadas respectivamente utilidades de -1 y +1, que también consideramos como sus recompensas. El robot sale del estado (1,1). El modelo de transición del sistema permite al robot desplazarse en
…ver más…

La opción más simple es asignarle un valor constante, aunque ellos implica que el robot siempre aprende a la misma velocidad. Una opción más elaborada es considerar que esta tasa cambiar con las experiencias. Por ejemplo el robot está más abierto al cambio (mayor valor del parámetro) en los instantes iniciales, pero menos cuando tiene más experiencia (menor valor del parámetro). Esto se puede lograr con una definición del factor como: con n el número de veces que se ha estado en el estado que se considera en la ecuación. Para el estado inicial fijamos que las utilidades de todos los estados son 0. Sólo hay recompensa observada para el último estado de la traza, en este caso (3,3). Para la traza 1 se tiene que la única actualización no trivial es: 1 3,3 ← 0 ∗ 1 0,9 ∗ 0 0 1 1 Los valores de la utilidad quedan: 1 2 3 de las

1

0

0

0

2

0

0

0

Máster en Ingeniería de Sistemas y de Control – Sistemas Inteligentes

Caso de estudio – Aprendizaje por refuerzo
3 0 0 1,0

Para la traza 2 se tiene que la única actualización no trivial es: 1 2,3 ← 0 ∗ 0 0,9 ∗ 1 0 0,45 2 Los valores de la utilidad quedan: 1 2 3

1

0

0

0

2

0

0

0,45

3

0

0

1,0

Para la traza 3 hay dos actualizaciones no triviales: 1 1,3 ← 0 ∗ 0 0,9 ∗ 0,45 3 1 2,3 ← 0,45 ∗ 0 0,9 ∗ 1 3 Los valores de la utilidad quedan: 1 2

0 0,45

0,135 0,6

3

1

0

0

0,135

2

0

0

0,6

Máster en Ingeniería de

Documentos relacionados

  • Metodo operante de skinner
    1390 palabras | 6 páginas
  • Teorias del aprendizaje
    1696 palabras | 7 páginas
  • Naturaleza del aprendizaje
    3406 palabras | 14 páginas
  • Ideologia politica de la india
    2577 palabras | 11 páginas
  • Metodologia De Selección Y Uso De Tecnologia Educativa
    1005 palabras | 5 páginas
  • Teoria Del Aprendizaje (Pavlov, Watson Y Skinner) Y Cognoscitiva-Evolutiva (Piaget) Bibliografia De Libros.
    2129 palabras | 9 páginas
  • Resumen capital tomo iii capitulo 1
    915 palabras | 4 páginas
  • Museo casa de morelos
    884 palabras | 4 páginas
  • Aprendizaje por imitación
    609 palabras | 3 páginas
  • Agenda caribe
    12996 palabras | 52 páginas