Dra. Beatriz Valdez: Estrategia y Datos Sociales

Entradas

Mostrando las entradas de 2014

Obtener y limpiar texto de la Web empleando 'nltk' (Python)

- octubre 03, 2014

Notebook Veamos un ejemplo de cómo emplear el paquete 'nltk' de Python para bajar documentos de la red y limpiarlos para, posteriormente, hacer análisis con el contenido. Ofrecemos un ejemplo muy breve de una análisis de concordancia, una vez que hemos limpiado el texto In [1]: % pylab inline import nltk from nltk.corpus import PlaintextCorpusReader Populating the interactive namespace from numpy and matplotlib In [6]: # import los paquetes necesarios para trabajar html from urllib import urlopen In [14]: # crear la dirección desde la que obtendremos el corpus desde la web pop = "http://www.foreignaffairs.com/articles/141191/cynthia-j-arnson-and-carlos-de-la-torre/viva-el-populismo" In [15]: # bajar el archivo populismo = html = urlopen ( pop ) . read () In [16]: # verificar el tipo d...