Aplicaciones de Procesamiento de Lenguaje Natural

##plugins.themes.bootstrap3.article.main##

Myriam Beatriz Hernández

José M. Gómez



Resumen


Resumen: El campo de procesamiento de lenguaje natural (PLN), ha tenido un gran crecimiento en los últimos años; sus áreas de investigación incluyen: recuperación y extracción de información, minería de datos, traducción automática, sistemas de búsquedas de respuestas, generación de resúmenes automáticos, análisis de sentimientos, entre otras. En este artículo se presentan conceptos y algunas herramientas con el fin de contribuir al entendimiento del procesamiento de texto con técnicas de PLN, con el propósito de extraer información relevante que pueda ser usada en un gran rango de aplicaciones. Se pueden desarrollar clasificadores automáticos que permitan categorizar documentos y recomendar etiquetas; estos clasificadores deben ser independientes de la plataforma, fácilmente personalizables para poder ser integrados en diferentes proyectos y que sean capaces de aprender a partir de ejemplos. En el presente artículo se introducen estos algoritmos de clasificación, se analizan algunas herramientas de código abierto disponibles actualmente para llevar a cabo estas tareas y se comparan diversas implementaciones utilizando la métrica F en la evaluación de los clasificadores.

Abstract: The field of natural language processing (NLP) has grown tremendously in recent years, its research interests include: information retrieval and extraction, data mining, machine translation systems, question answering systems, automatic summarization, sentiment analysis, among others. In this paper we present some concepts and tools in order to contribute to the understanding of text processing with NLP techniques, to extract relevant information that can be used in a wide range of applications. Automatic classifiers can be developed to categorize documents and recommend labels, these classifiers should be platform independent, easily customizable in order to be integrated in different projects and to be able to learn from examples. In this article we introduce the algorithms for classification, we discuss some open source tools currently available to perform these tasks and different implementations are compared using F metrics to evaluate classifiers.

Descargas

Descargas

Los datos de descargas todavía no están disponibles.

Detalles del artículo

Biografías de los autores/as

Myriam Beatriz Hernández, Escuela Politécnica Nacional. Facultad de Ingeniería de Sistemas. Departamento de Informática y Ciencias de la Computación.

Profesor Principal Escuela Politécnica Nacional.

Facultad de Ingeniería de Sistemas.
Departamento de Informática y Ciencias de la Computación.

Quito. Ecuador.

 

José M. Gómez, Universidad de Alicante

Profesor - Investigador

Departamento de Lenguajes y Sistemas Informáticos.

Universidad de Alicante.

Alicante. España.

Citas

Balie, Librerías de código abierto, [Online] Available: http://balie.sourceforge.net/

S. Bandyopadhyay, S. Naskar and A. Ekbal, "Emerging applications of natural language processing", IGI Global, October 31, 2012. [Also Online]. Available: www.safaribooksonline.com

Cognitive Computation Group, Etiquetador Demo, [Online] Available: http://cogcomp.cs.illinois.edu/demo/pos/

D. Bikel and I. Zitouni, "Multilingual natural language processing applications: from theory to practice", IBM Press, May 10, 2012. [Also Online]. Available: www.safaribooksonline.com

E. Brill, Etiquetador, [Online] Available: http://gposttl.sourceforge.net/ (C code)

Fondazione Bruno Kessler, [Online] Available: http://wndomains.fbk.eu/wnaffect.html y http://www.cse.unt.edu/~rada/affectivetext/

R. Feldman and J. Sanger, "The text mining handbook", Cambridge University Press, December 11, 2006. [Also Online]. Available: www.safaribooksonline.com

J. F. Gantz and D. Reinsel, "Extracting value from chaos." International Data Corporation. 2011. [Online]. Available: http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf

Gate, Librerías de código abierto, [Online] Available: http://gate.ac.uk/

P. Y. Hao, J. H. Chaing, and Y. K. Tu, "Hierarchically SVM classification based on support vector clustering method and its application to document categorization", International Journal ExpertSystems with Applications, vol. 33, no. 3, October 2007, pp. 1-5.

Hdcus, Fuente de corpus de sentimientos, [Online] Available: http://hdcus.com/ y http://www.hdcus.com/manuals/wdalman.pdf)

Illinois POS T, Etiquetador, [Online] Available: http://cogcomptest.cs.illinois.edu/page/software_view/3

G. S. Ingersoll, T. S. Morton, and A. L. Farris, "Taming text: how to find, organize, and manipulate It", Manning Publications, December 28, 2012. [Also Online]. Available: www.safaribooksonline.com

Y. J. KO, J. Park, and J. Seo, "Improving text categorization using the importance of sentences", on International Journal Information Processing and Management, vol. 40, no. 1, January 2004, pp. 65-79.

R. Korfhage, "Information storage and retrieval", New York: John Wiley, 2007. [Also Online]. Available: www.safaribooksonline.com

D. Kuropka, "Modelle zur repräsentation natürlichsprachlicher dokumente. ontologie-basiertes information-filtering und -retrieval mit relationalen datenbanken", in Advances in Information Systems and Management Science, Bd. 10, 2004, pp. 110.

C. L. Lan, J. Su, and Y. Lu, "Supervised and traditional term weighting methods for automatic text categorization", IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 31, no 4, April 2009, pp. 721 - 735.

C. Y. Liang, L. Guo, Z. H. Xia, F. G. Nie, X. Li, L. Su, and Z. Y. Yang, "Dictionary-based text categorization of chemical web pages", International Journal Information Processing and Management, vol. 42, no. 4, July 2006, pp.1072 - 1029.

Lingua-EN, Etiquetador, [Online] Available: http://search.cpan.org/~acoburn/Lingua-EN-Tagger/Tagger.pm

Mallet, [Online] Available: http://mallet.cs.umass.edu/

S. Manjunath, B.S. Harish, "Representation and classification of text documents : A brief review" IJCA Special Issue on Recent Trends in Image Processing and Pattern Recognition, TIPPR, 2010, pp. 110-119.

C. D. Manning, Prabhakar Raghavan, and Hinrich Schütze, "Introduction to information retrieval", Cambridge University Press, July 7, 2008. [Also Online]. Available: www.safaribooksonline.com

H. A. Mubaid, and L. Umair 2006, "A new text categorization technique using distributional clustering and learning logic", IEEE Trans. on Knowledge and Data Engineering, vol.18, no..9, September 2006, pp. 1156 - 1165.

OpenNLP, Etiquetador, [Online] Available: http://opennlp.sourceforge.net/models-1.5/

P. Y. Pawar and S. H. Gawande, "A comparative study on different types of approaches to text categorization", International Journal of Machine Learning and Computing vol. 2, no. 4, pp. 423-426, 2012.

S. J. Raudys and A. K. Jain, "Small Sample Size Effects in Statistical Pattern Recognition: Recommendations for Practitioners", in IEEE Transactions on Pattern Anaysis and Machine Intelligence, vol. 13, NO. 3. March 1991.

F. Sebastiani, "Machine learning in automated text categorization", ACM computing surveys (CSUR), vol. 34, n. 1, pp. 1-47, 2002.

S.Tan, X. Cheng, M. Ghanem, B,Wang, . and H. Xu, "A novel refinement approach for text Categorization", CIKM. 2005, pp. 469-476.

I. H. Witten, E. F. Mark and A. Hall, "Data mining: practical machine learning tools and techniques", in The Morgan Kaufmann Series in Data Management Systems, Third Edition, January 20, 2011.