martes, 20 de agosto de 2013

Ngram Viewer, la máquina del tiempo de las palabras

Siempre me ha intrigado el pasado, conocer como actuaban y que pensaban las generaciones anteriores y como esto se relaciona con lo que es la humanidad actualmente. Por lo tanto, la invención de la máquina del tiempo es uno de mis sueños. Mientras esperamos que esto suceda felizmente podemos usar otras maneras para estudiar el pasado.
 
Por ejemplo, ¿les gustaría conocer en que momento surgió una palabra o frase, o cuando se utilizó con mayor frecuencia?. Pues, sigan leyendo este post y se sorprenderán.


Ngram Viewer

Durante los últimos años Google ha digitalizado 5.2 millones de libros, publicados entre los años 1500 y 2012, en diversos idiomas (inglés, francés, español, alemán, chino y ruso). De esta manera ha construido una monumental base de datos, con más de 500 mil millones de palabras obtenidas de esos libros.

En diciembre de 2010 Google puso a disposición del público un software de análisis de las referencias bibliográficas contenidas en su base de datos, llamado Ngram Viewer. Este utiliza un algoritmo que bucea en el conjunto de libros indexados por Google y, apoyándose en la potencia de los metadatos utilizados en esa indexación, realiza comparaciones de “apariciones” de términos a lo largo del tiempo.
 
En pocas palabras, lo que hace Ngram Viewer es buscar cuantas veces aparece una determinada palabra entre los libros que tiene digitalizados.
 
¿Cómo funciona?
 
Primero se debe ingresar la palabra (n-grama), o palabras, sobre las que se quiere hacer la búsqueda. Luego se debe especificar un rango de años (entre 1500 y 2012) y elegir de una base de datos (corpus) el idioma en el cual buscar.

Finalmente se elegirá un factor de precisión (smoothing), que servirá para hacer más suave la curva de la gráfica resultante.

Ejemplos

Para comprobar como funciona este algoritmo buscamos la frase "Vale un Perú", que fue motivo de un post anterior en este blog. De esta manera descubrimos que el primer libro en el que Google encuentra esta frase es la edición de 1727 de "Vida, excelencias y muerte del gloriosissimo Patriarca San Joseph", escrito por Jose Valdivieso.

Valdivieso fue un poeta y autor dramático barroco perteneciente al Siglo de Oro español, y escribió este libro en el año 1604. En un párrafo de este libro Valdivieso dice: "el Perú es abundantisimo de riquezas y, de alla vienen poderosos muchos: y por ponderación del valor de alguna alhaja, decimos que vale un Perú." 

Del gráfico obtenido se desprende que la frase recién se utiliza con regularidad desde 1843, alcanzando su pico en 1944 y luego de eso ha ido perdiendo vigencia con los años.


Tambien buscamos la frecuencia de uso de las frases "gagner le Pérou" y "Ce n'est pas le Pérou". Segun Google el libro más antiguo que contiene la frase "gagner le ´Pérou" es la "Nouvelle Traduction de la Bible, suivant La Vulgata" editada en 1748, mientras que "Ce n'est pas le Pérou" lo encontramos en el "Dictionnaire de l' académie Francoise" de 1802.



Al dar a conocer este software los autores utilizaron un neologismo: "culturomics", que se refiere a la "aplicación de la recopilación de datos y el análisis de alto rendimiento para el estudio de la cultura humana, extendiendo los límites de la investigación cuantitativa rigurosa a una amplia gama de nuevos fenómenos que abarcan las ciencias sociales y las humanidades".
 
 


 

No hay comentarios.:

Publicar un comentario

¡Anímate y deja tus comentarios! Muchas gracias.

Related Posts Plugin for WordPress, Blogger...