Detección de Plagio
Texto-a-voz & Reconocimiento de voz
Recuperación de Información &
Extracción de Información
Sumarización (resúmenes) Automática
Corrección de Textos– Ortografía & Gramática
Interfaces de Diálogo de Lenguaje Natural a Bases de Datos
Clasificación de Documentos
Tradución automática (asistida)
Sistemas para entender historias
Análisis de documentos
en imágenes
APLICACIONES DE LAS TECNOLOGIAS DEL LENGUAJE
Question answering
Respuestas automáticas
Categorización/Ruteado de Texto
Enseñanza/Aprendizaje del Lenguaje
Madurez de las Tecnologías de Voz
Sistemas Controlados por Voz
Sistemas de Dictado
Sistemas de Texto-a-Voz
Sistemas de Diálogo Hablado drigido por la computadora
Sistemas de Identificación y Verificación Acceso Hablado a la Información
Sistemas abiertos de Diálogo Hablado
Sistemas autmáticos de Traducción de Voz
Deployed. En el mercado
Maduro o cerca de la madurez
Prototipos de investigación en R&D
Madurez de las Tecnologías – Recuperación Información
Recuperación de Información Basada en Palabras
Sumarización por Condensación Simple
Categorización Estadística Simple
Hiperligado Automático Simple
Recuperación de Información Cross-Lingual
Hiperligado Automático con Desambiguación
Extracción de Información Simple (Unario, Relaciones Binarias)
Extracción de Información Compleja (Ternario+ Relaciones)
Hiperligado Denso Asociativo
Recuperación de Información Basada en Conceptos
Comprensión de Texto
Deployed. En el mercado
Maduro o cerca de la madurez
Prototipos de investigación en R&D
Checadores de ortografía
Traductores asistidos por la computadora en dominios predeterminados
Checadores de Gramática
Herramientas de extracción de Información
Traductores automáticos asistidos por expertos
Generación automática de Reportes
Traducción de Texto de Alta Calidad
Sistemas de Generación de Texto
Madurez de las Tecnologías de Análisis de textos
Deployed. En el mercado
Maduro o cerca de la madurez
Prototipos de investigación en R&D
Ejemplos de avances del PLN:
Para la Traducción automática:
Traductor de Google :
Servicio de traducción automático multilingüe con enfoque estadístico
Traducción de texto, voz, imágenes, sitios web, o video text, speech, images, sites, o video en tiempo real, de un idioma al otro.
Traductor de Skype :
Aplicación de traducción voz-voz
Los usuarios conversan en su idioma nativo y la voz es traducida al otro idioma, casi en tiempo real.
https://translate.google.com
https://support.skype.com
Herramientas avanzas de Recuperación de Información (web search engines)
Google
Yahoo
Bing
Baidu …
https://www.google.com
https://www.yahoo.com
Ejemplos de avances del PLN:
Reconocimiento automático de voz
Apple Siri and Microsoft Cortana
Asistentes inteligentes personales
Interfaces para responder preguntas, hacer recomendaciones y ejecutar acciones delegando peticiones a conjuntos de servicios web
https://support.microsoft.com
https://support.apple.com
Ejemplos de avances del PLN:
Análisis de textos : el problema
Cuando la gente lee un texto, entiende su significado
Quisiéramos contar con agentes computacionales capaces de encontrar el significado de lo que leen.
Se han elaborado múltiples propuestas para formatear los textos de maenra estructurada, con mayor semántica.
Pero con frecuencia, el lenguaje usado es complejo y ambigüo
Manejo de la escalabilidad de los lenguajes
Desambiguación del significado o sentido de las palabras
Análisis semántico e interpretación
? RETO:
Descubrir el
SIGNIFICADO
Siguen siendo retos para el PLN:
Manejo de la escalabilidad en los lenguajes
Gran cantidad de información en la web (Big data).
¿Cómo manejarla?
¿Qué clase de información se puede extraer?
Las técnicas no se pueden extender fácilmente:
El lenguaje es una identidad cultural.
Distintos lenguajes, cada uno con sus propias características.
Enfoques para extraer información:
Técnicas secuenciales o paralelas.
Métodos de aprendizaje supervisado.
Técnicas de minería de datos.
Mayor eficiencia para analizar conjuntos grandes de datos (large data sets):
Información de los medios sociales.
Seguridad informática.
Apicaciones relacionadas con problemas del cuidado de la salud:
Comprensión de la enfermedad.
Cuidado del paciente.
Análisis del lenguaje con técnicas de cómputo paralelo y distribuido.
*Plale, B. (2013). Big data opportunities and challenges for IR, text mining and NLP.
AVANCES
Manejo de la escalabilidad en los lenguajes
MSRLM: Un kit para modelar lenguaje escalable *
Habilidad para crear relativamente modelos grandes de lenguaje como modelos n-gramas.
Usa una representación de espacio vectorial.
Construye un modelo de lenguaje en un hardware de high-end sobre 40 billones de palabras de datos web en menos de 8 horas.
CNTK: Computational Network Toolkit **
Herramienta para el análisis de redes especialmente diseñado para trabajar usando no sólo CPU’s sino también GPU sencillos y multi GPU.
Soporta muchas herramientas para problemas de PLN como traducción automática.
*Nguyen, P, et al. (2007). MSRLM: a scalable language modeling toolkit.
** https://github.com/Microsoft/CNTK
Manejo de la escalabilidad en los lenguajes
AVANCES
Significados múltiples asociados a la información:
¿Cómo manejarla?
¿Cómo obtener un sentido real?
… modelado del contexto
Dominio de la información:
Tópicos diferentes, nuevas palabras, nuevas reglas, nuevas excepciones.
Técnicas para extraer características claves:
Métodos de aprendizaje supervisado.
Técnicas de minería de datos.
RETO: Desambiguación del significado o sentido de las palabras
Conceptualizaciones de dominios específicos de interés usando ontologías.
Identificación de la correcta traducción de una palabra u oración en un contexto específico (traducción automática).
Extracción de información relevante de cuidado de la salud que contiene una gran cantidad de términos con más de un significado posible:
Información clínica.
Información biomédica.
*Bhala, V. B. R. V. & Abirami, S. (2014). Trends in word sense disambiguation.
RETO: Desambiguación del significado o sentido de las palabras
DeepText: Motor de Facebook para el entendimiento de texto*.
Un motor de entendimiento de texto basado en aprendizaje profundo (deep learning-based) que puede entender con una exactitud casi humana el contenido de texto con varios miles de posts por segundo. Usa diferentes arquitecturas de redes neuronales tales como redes neuronales convolucionales y recurrentes.
*https://code.facebook.com/posts/research/.
NLPWin: Computational Network Toolkit**
Proporciona herramientas para Procesamiento de Lenguaje Natural en Windows.
Soporta un parser gramatical, traductor y checador de desambiguación de sentido.
https://www.microsoft.com/en-us/research/project/nlpwin/
AVANCES en:
Desambiguación del significado o sentido de las palabras
Procesar lenguaje para producir conocimiento de sentido común acerca del mundo.
Obtener información valiosa de metadata:
¿Cómo representar conocimiento?
¿Qué clase de información es relevante?
Técnicas para representar información:
Modelos de grafos.
Modelos de espacios vectoriales.
RETO: Análisis semántico e interpretación
Investigación criminalidad sobretextos forenses –
Identificación del autor.
Perfil del autor.
Análisis de Sentimientos:
Clasificación de la Polaridad del Mensaje.
Cuantificación del Sentimiento.
Minería de opiniones.
Similitud de textos y Respuestas a Preguntas (Question Answering).
Detección de unidades semánticas mínimas y su significado.
Nakov, P. & Zesch, T. (2016). Computational semantic analysis of language: SemEval-2014 and beyond.
EJEMPLOS APLICACIONES del Análisis semántico
Diferentes herramientas para análisis de sentimientos tales como el motor de recomendación de Amazon o el motor analítico de Twitter.
No existen muchas herramientas para problemas de autoría o perfil de autor.
AVANCES del Análisis semántico e interpretación
Principales competencias internacionales de investigación para evaluar nuevos enfoques para atacar problemas de Procesamiento de Lenguaje Natural:
CLEF Pan (Europa)*:
Una serie de eventos científicos y tareas compartidas sobre el análisis de texto digital y forense.
Diferentes problemas como: Detección de plagio, Identificación de autor, Identificación de Acoso Sexual, etc.
*http://pan.webis.de/
SemEval (Norteamérica)**:
Una serie de evaluaciones de análisis de sistemas de semántica computacional.
Diferentes problemas como: desambiguación del sentido de las palabras, Pregunta-respuesta (Question Answering), Análisis de sentimientos, etc.
** http://alt.qcri.org/semeval2016/
Enfocándose en problemas de análisis de texto
Crear diferentes representaciones basadas en grafos para descubrir patrones relevantes en documentos de texto.
Extraer diferentes características lingüísticas para resolver el problema de clasificación de un texto.
(Gp:) Documentos de texto
(Gp:) Problema de
clasificación
(Gp:) Características Lingüísticas:
Lexicales
Sintáctica
Semántica
(Gp:) Grafos
Verificación de autor
Perfilado del autor
Atribución de autor
Análisis de sentimientos
Problemas de análisis de texto
Perfilado del autor
Análisis de sentimientos
Problemas de análisis de texto
Verificación de autor
Atribución de autor
Obtener/Confirmar quién es el autor de un document de texto.
Atribución de autor
Grafo propuesto, topología estrella:
Vértices: todas las palabras en un corpus de entrenamiento, except palabras de alto.
Ligas:
Relación léxico-sintáctica.
Una liga se crea si dos palabras aparecen juntas en un texto (al menos una vez).
Extraer palabras relevantes, aquellas que caracterizan el estilo de escritura de un autor.
*Castillo, E, et al. (2015). Author attribution using a graph based representation.
Atribución de autor
Usar una técnica de minería de grafos para iterar sobre los diferentes caminos del grafo, para encontrar las palabras relevantes.
Usamos un método de aprendizaje supervisado.
Resultados excelentes cuando los textos son largos, pero regulares cuando los textos son pequeños ( como en un tweet).
Página anterior | Volver al principio del trabajo | Página siguiente |