¿Qué es un modelo?
Es una abstracción de la realidad que nos facilita el estudio de un fenómeno o problema.
Un modelo no es un algoritmo
Como veremos más adelante, para un mismo modelo pueden plantearse varios algoritmos.
Modelos para el ensamblamiento de ADN
Plantearemos tres modelos teóricos.
Shortest Common Superstring
Reconstruction
Multicontig
Cada uno plantea distintas restricción sobre los fragmentos.
Se asume que las muestras están libres de contaminación.
Primer Modelo:Shortest Common Superstring
Tiene principalmente interés teórico pues no es muy útil en la realidad.
Plantea muchas restricciones:
Los fragmentos no deben tener errores
Deben estar orientados correctamente
La secuencia buscada no debe tener repeticiones
SCS: Definición
Dado un conjunto de strings F, hallar un string S de longitud mínima tal que para todo string f en F, f es substring de S.
Notar que S debe ser un superstring perfecto, por lo que no permites errores experimentales.
Se debe conocer la orientacíon de cada string f.
SCS: Ejemplo
F = {ACT, CTA, AGT}
S = ACTAGT
SCS: Repeticiones
Supongamos que secuenciamos la siguiente cadena de nucleótidos
S = ACTTGTAAGGTTGTTAAG
de la cual obtenemos los siguientes fragmentos
F = {ACTT, TTGTAA, AAGGT, TTGT, GTT, TTAG}
SCS: Repeticiones (Cont.)
Según este modelo, el resultado de hallar el SCS de F sería:
SCS: Resumen
No admite repeticiones
No admite errores experimentales
Se debe conocer la orientación de los fragmentos.
Es un problema NP-Hard.
No resulta práctico para aplicaciones reales debido a la gran cantidad de restricciones y limitaciones.
¿Qué significa NP-Hard?
NP-Completo se refiere a una familia de problemas de decisión para los cuales no se conoce una solución polinomial.
Los problemas de decisión son aquellos para los que se espera una respuesta del tipo “sí” o “no”.
¿Qué significa NP-Hard?
En el caso del TSP, el problema sería:¿Existe un camino que pase por todas las ciudades exactamente una vez recorriendo una distancia menor a 500 Km.?
La respuesta esperada es simplemente “sí” o “no”.
¿Qué significa NP-Hard?
Un problema HP-Hard es el problema de optimización asociado a un problema NP-Completo.
En nuestro caso:¿Cuál es el camino más corto que pasa exactamente una vez por cada ciudad?
Segundo Modelo:Reconstruction
Este modelo tiene en cuenta:
Errores.
Orientación desconocida
Pero no modela:
Repeticiones
Falta de cubrimiento
Reconstruction: Definiciones
Para entender como este modelo considera los errores debemos contar con algunas definiciones previas.
Distancia de edición (o edit distance)
Distancia de edición de substrings (o substring edit distance)
Substring aproximado
Distancia de Edición
Dadas dos cadenas a y b, llamaremos distancia de edición, y lo notaremos d(a, b), a la cantidad de inserciones, deleciones y/o substituciones que deben realizarse sobre las cadenas para que valga a = b.
Ejemplo: d(ACTGT, AGGT) = 2
pues ACTGT = ACTGT
Substitución
Inserción
Distancia de Edición de Substrings
Dadas dos cadenas a y b, llamaremos distancia de edición de substrings a:
donde S(b) es el conjunto de los substrings de b.
Ejemplo: ds(ACT, GATTACA) = 1
Pues d(ACT, ACA) = 1 y ACT ? S(b)
Substring Aproximado
Sea ? un número real entre 0 y 1. Un string f es un substring aproximado de S con error ? cuando
donde |f| es la longitud del string f.
Por ejemplo: si ? = 0.05, permitiremos que f difiera en a lo sumo un 5% con el substring màs cercano en S.
Página siguiente |