Grafo propuesto, grafo de co-ocurrence:
Vértices: todas las palabras de un corpus de entrenamiento, except palabras de paro.
Una liga se crea si dos palabras aparecen juntas en un texto (al menos una vez).
Uso de medidas de centralidad para extraer palabras relevantes.
Usar un método de aprendizaje supervisado.
*Castillo, E, et al. (2015). UDLAP: Sentiment Analysis Using a Graph Based Representation.
Castillo, E, et al. (2016). UDLAP at SemEval-2016 Task 4: Sentiment Quantification Using a
Graph Based Representation
Análisis de sentimiento y perfil de autor
“I’m very excited #happy”
Análisis de sentimiento y perfil de autor
Este enfoque trabaja sobre textos que no son muy largos, porque crea ventanas de co-ocurrencia de diferentes tamaños.
Análisis de sentimiento y perfil de autor
Alrededor de 45% de exactitud usando el corpus de SemEval 2015, 2016, que es un conjunto de datos preparado para la tarea de análisis de sentimientos.
Alrededor de 80% de exactitude usando el corpus de Clef Pan 2015, que es un conjunto de datos preparado para la tarea de perfil de autor.
http://alt.qcri.org/semeval2015/
http://alt.qcri.org/semeval2016/
http://pan.webis.de/clef15/pan15-web/
Herramientas Open source
Diferentes herramientas open source que se pueden usar en el problema de PLN.
La mayoría de las herramientas proporcionan un API en diferentes lenguajes de programación como:
Python
Java
Scala
C/C++
C#
Herramientas PLN
Wordnet es una gran base de datos léxica de inglés: nombres, verbos, adjetivos y adverbios.
Todas las palabras en Wordet se agrupan en conjuntos de sinónimos cognitivos llamados synsets.
Synsets están ligados por medio de relaciones conceptuales-semánticas and léxica
Para el Español: http://grial.uab.es/synset/synset2.php
Para el Francés: http://alpage.inria.fr/~sagot/wolf-en.html
…
https://wordnet.princeton.edu/
Herramientas PLN
La red de Wordnet se usa para obtener sentidos específicos de las palabras y las relaciones semánticas como:
Lemas.
Sinónimos.
Hiperónimos.
Hipónimos.
Similaridad semántica entre palabras.
https://wordnet.princeton.edu/
Herramientas PLN
(Gp:) http://www.nltk.org/
NLTK es una plataforma para construir programas en Python para trabajar con datos de lenguaje humano.
Proporciona interfaces fáciles de usar para más de 50 córporas y recursos lexicales como:
Wordnet.
SentiWordNet (sólo en inglés).
Dependency Parsed Treebank.
SENSEVAL 2 Corpus: Sense Tagged Text.
Herramientas PLN
(Gp:) http://www.nltk.org/
Provee una conjuntos de librerías para:
Clasificación: asignar información semántica relacionada a un document de texto.
Tokenización: proceso de romper un texto en palabras, frases o símbolos.
Stemming: proceso de reducción de palabras a su forma base (Word steam).
Tagging: el papel sintáctico de las palabras en el texto (Part of speech).
Parsing: proceso de analizar una oración tomando cada palabra y detrminando su estructura a partir de sus partes constituyentes.
Herramientas PLN
(Gp:) http://www.clips.ua.ac.be/pattern
Clips Pattern es un módulo de minería de web para el lenguaje de programación de Python.
Desarrollado en la Universidad de Lovaina, Bélgica.
Proporciona un paquete de herramientas para:
Minería de datos.
Procesamiento de Lenguaje Natural.
Aprendizaje por computadora.
Análisis de redes y visualización.
Herramientas Grafos
(Gp:) https://networkx.github.io/
NetworkX es un paquete en Python para la creación, mainpulación y estudio de la estructura, dinámica y funciones de grafos complejos y redes complejas. Es una aplicación de tipo stand-alone.
Principales características:
Creación de grafos, digrafos y multigrafos.
Diferentes tipos de algoritmos para calcular:
Medidas de Centralirdad.
Análisis de ligas/arcos (links).
Predicicón de ligas.
Igraph es una colección de herramientas para el análisis de redes con énfasis en la eficiencia, la portabilidad y la sencillez de uso.
Es una herramienta de código abierto que puede programarse en R, Python y C/C++
Principales características:
Creación de grafos y multigrafos.
Desarrollo de aplicaciones de tipo Stand-alone
Ofrece diferentes algoritmos para manipulación y análisis de grafos como:
Clustering y detección de Comunidades.
Conectividad
Isomorfismo
http://igraph.org/redirect.html
Herramientas Grafos
GraphX es un nuevo componente en Apache Spark para grafos y cómputo paralelo sobre grafos.
Es una herramienta de código abierto que puede programarse en R, Scala, Python y Java.
Usa un enfoque de tipo Map-Reduce.
Ofrece diferentes algoritmos paralelos para el cálculo de:
PageRank.
Propagación de etiquetas. Label propagation.
Componentes fuertemente conectados.
http://spark.apache.org/graphx/
Herramientas Grafos
Otras herramientas
Conclusiones
La comprensión total del lenguaje natural es un objetivo aún distante. Pero existen hoy en día, herramientas y sistemas útiles para resolver problemas varios problemas prácticos de PLN.
El reto consiste en encontrar la correcta adecuación entre los diferentes tipos de problemas y las herramientas disponibles para resolverlos.
Los enfoques basados en grafos para representar textos representan una alterniva interesante para etraaer la información lingüística relevante.
Usados adecuadamente, los métodos estadísiticos de PLN (… deep learning), han abierto nuevas posibilidades para el análisis y comprensión de los textos.
Página anterior | Volver al principio del trabajo | Página siguiente |