Internet Bot para la Obtención y Análisis de Información Empleando el Motor de Búsqueda de Google

##plugins.themes.bootstrap3.article.main##

David Cevallos

Fernando Cevallos

Iván Bernal

David Mejía



Resumen

Resumen: Este artículo presenta la implementación de un Internet bot que puede ser utilizado por una o varias aplicaciones cliente a través de un servicio web. El Internet bot, empleando el motor de búsqueda de Google y un listado de palabras clave y URL de sitios web ingresados por el usuario, realiza varias búsquedas para obtener las páginas web de los sitios indicados que contengan información relacionada con las palabras clave. El Internet bot analiza la información de cada página web encontrada y, mediante un algoritmo de puntuaciones propio del Internet bot, determina por cada página web únicamente la información que con mayor probabilidad contiene el dato exacto que el usuario busca. De esta manera, el usuario puede encontrar de manera sencilla y rápida información precisa en Internet y no tan sólo los URL de las páginas web que contienen dicha información.

 

Abstract:This paper presentsthe implementation of anInternet botthatcan be used byone or moreclient applicationsthrough awebservice.TheInternet bot, byusing theGooglesearch engine, a list ofkeywordsand URL of websites specified by users, performsseveral searchesfor getting the webpages ofthe indicated sitesthat may have informationrelated with the provided keywords. TheInternetbotanalyzes the informationof eachwebpage found during the Google search andby using a scores algorithm, specifically developed for the Internet bot, determines, foreachweb page,only the informationthatmost likelycontainsthe precisedata that theuser is looking for. Thus, the user can easily andquickly findaccurate information in the Internet and not just the URL for the pages that contain such information as is tha case with a Google search.

Descargas

Descargas

Los datos de descargas todavía no están disponibles.

Detalles del artículo

Biografía del autor/a

Iván Bernal, Escuela Politécnica Nacional

Es Ingeniero en Electrónica y Telecomunicaciones de la Escuela Politécnica Nacional. Obtuvo tanto el título de master así como el de  P.h.D  en "Ingeniería de Computadoras" en "Syracuse University", Nueva York, Estados Unidos.

 

Ha realizado numerosos cursos especializados en varios países europeos, latinoamericanos, Estados Unidos y en Corea del Sur.

Realiza tareas de investigación, docencia y gestión en la Escuela Politécnica Nacional, en el Departamento de Electrónica, Telecomunicaciones y Redes de Información desde 1991. Sus áreas de interés actuales: son las comunicaciones inalámbricas, TV digital, diseño y síntesis de hardware, computación distribuida y redes de computadoras.

Citas

AHFX. GoogleBot and other spiders. [Online]. Disponible en: http://www.ahfx.net/weblog/39

CodePlex. HTMLAgilityPack. [Online]. Disponible en: http://htmlagilitypack.codeplex.com

D. Cevallos, F. Cevallos, D. Mejía e I. Bernal, "Sistema de Búsqueda, Almacenamiento y Procesamiento de Información para generar contenido interactivo de Televisión Digital," Revista Politécnica, vol. 33, no. 3, Ene. 2014.

G. Colouris, J. Dollimore, T. Kindberg y G. Blair, "Distributed Systems Concepts and Design", 5ta ed., Addison-Wesley, Ed. USA: Pearson, 2012.

Google. Buscadores semánticos. [Online]. Disponible en: https://sites.google.com/site/buscadoressemanticos/-que-es-un buscador-semantico

Google. Ejemplos de buscadores semánticos. [Online]. Disponible en: https://sites.google.com/site/buscadoressemanticos/ejemplos-de-buscadores-semanticos

Microsoft. Encoding (Clase). [Online]. Disponible en: http://msdn.microsoft.com/es-es/library/system.text.encoding%28v=vs.110%29.aspx

Microsoft. HttpUtility (Clase). [Online]. Disponible en: http://msdn.microsoft.com/es es/library/system.web.httputility%28v=vs.110%29.aspx

Microsoft. WebClient (Clase). [Online]. Disponible en: http://msdn.microsoft.com/eses/library/system.net.webclient%28v=vs.110%29.aspx

Visual Studio. Sintaxis de XPATH. [Online]. Disponible en: http://msdn.microsoft.com/es-es/library/vstudio/ms256471%28v=vs.100%29.aspx

Wikinsonpc. Codificando y decodificando una dirección URL. [Online]. Disponible en: http://www.wilkinsonpc.com.co/free/articulos/codificar-decodificar-url.html

Wikipedia. WebCrawler. [Online]. Disponible en: http://en.wikipedia.org/wiki/Web_crawler