Base de datos de 5.2 millones de libros digitalizados por Google

PATRICIA COHEN/THE NEW YORK TIMES/ 20/12/10

Jean-Baptiste Michel and Erez Lieberman, los creadores de "culturonomia." (Kris Snibbe/Harvard)

La base de datos —que esta compuesta de palabras, frases cortas y también un conteo de sus frecuencias de repeticiones año por año— es la primera de su índole. Las herramientas de búsqueda están disponibles para estudiantes doctorales, estudiantes primarios o cualquier persona que quiera pasar horas frente a la pantalla. Consiste en 500 mil millones de palabras contenidas en libros publicados entre 1500 y 2008 en inglés, francés, español, alemán, chino y ruso.

La audiencia principal se supone que será académica, pero la simple herramienta online permite a cualquiera que tenga acceso a la Red cargar una frase de hasta cinco palabras y graficar cómo el uso de esa frase ha ido cambiando en el tiempo. Puede llegar a ser un pasatiempo tan adictivo como el videojuego Angry Birds.

Con un click puedes ver que “women” (mujeres) en comparación con “men” (hombres) casi nunca se usa hasta principios de los 1970 cuando empezó a instalarse el feminismo en el debate cultural y político. Las líneas eventualmente convergen alrededor de 1986.

También puedes aprender que Mickey Mouse y Marilyn Monroe no recibieron tanta atención en los medios impresos como, por ejemplo, Jimmy Carter; comparen el aumento de referencias a “Tiananmen Square” después de 1989; o fíjense en la evolución de “grilling” (grillar) desde los 90’s hasta que superó “roasting” (hornear) y “frying” (freír) en 2004.

“La meta es crear una herramienta que podría utilizar un chico de 8 años para investigar tendencias culturales a través de la historia como se ven reflejados en libros impresos,” dijo Erez Lieberman Aiden, un investigador del Society of Fellows de Harvard. Lieberman Aiden y Jean-Baptiste Michel, un asociado pos-doctoral en Harvard, armaron la base de datos junto a Google y lideraron un proyecto de investigación para demostrar cómo las enormes bases de datos digitales pueden transformar nuestros conocimientos sobre los idiomas, la cultura y el flujo de ideas en el tiempo.

Su estudio, que se publicó en Science el viernes pasado ofrece una picada del increíble bufete de oportunidades para investigación que ahora se abren en los campos de literatura e historia. Se ve cómo esta herramienta puede acercar a investigadores no acostumbrados al análisis estadístico a conducir novedosos proyectos: Science, como excepción a su política, está publicando la nota gratis online.

“Queríamos mostrar qué es posible cuando aplicas un análisis de datos high-turbo a preguntas asociadas con las letras, historia y filosofía,” dijo Lieberman Aiden, cuyo campo de especialidad es la matemática y la genética. El denominó este nuevo aporte “culturomics” (o, culturonomia).

La base de datos se puede bajar y los usuarios pueden armar sus propias herramientas de investigación.

Trabajando con una versión de la base de datos que incluía el hebreo y comenzaba en 1800, los investigadores midieron la persistencia de la fama; descubrieron que las referencias escritas a las celebridades se desvanecían dos veces más rápido en la mitad del siglo XX comparado con el principio del siglo XIX. “En el futuro, cada persona será famosa por 7.5 minutos,” escriben.

Mirando a las invenciones, encontraron que los avances tecnológicos llevaron, por promedio, 66 años para ser adoptados por una cultura más amplia a principios del siglo XVIII contra solamente 27 años entre 1880 y 1920.

Steven Pinker, un lingüista de Harvard que colaboró en la sección del paper en Science sobre la evolución del lenguaje, ha estudiado hace 20 años los cambios en la gramática y formas del uso del tiempo pasado.

“Cuando vi esta base de datos, me sentí energizado,” dijo Pinker. “Hay tanta ignorancia. Hemos tenido que especular cómo ha evolucionado el lenguaje.”

La información sobre cambios en el uso de los verbos “hace que los resultados sean más convincentes y más completos,” agregó Pinker. “Lo que reportamos en este paper es solamente el comienzo.”

A pesar de la resistencia al análisis cuantitativo en los campos de letras, Pinker dijo que estaba confiado de que el uso de este tipo de herramientas sería universal dentro de poco tiempo.

Las reacciones de investigadores del campo contrario no eran tan entusiastas. “En términos generales, es una gran herramienta para tener a disposición,” dijo Louis Menand, profesor de literatura en Harvard, “especialmente para lingüistas.” Pero advirtió sobre su uso en el campo de historia cultural, “obviamente alguno de sus afirmaciones son un poco exageradas”. Además, expresó su desconcierto porque entre los 13 autores mencionados en el paper no hubiera ninguno del campo humanístico.

“No hay ni un historiador involucrado” dijo Menand.

Alan Brinkley, profesor de historia estadounidense, dijo que era demasiado temprano para calcular el impacto que este tipo de búsquedas podría llegar a tener. “Me podría imaginar muchos usos muy interesantes, pero no entiendo —aun— lo que están intentando hacer desde un punto de vista de las estadísticas.”

Concientes de este tipo de preocupaciones, Michel y Lieberman Aiden enfatizaron que la culturonomia simplemente creaba nueva información. La interpretación no es remplazada.

“No quiero que se aceptan las conclusiones específicas — simplemente estamos tirando muchas piezas interesantes sobre la mesa” dijo Lieberman Aiden. Y agregó: “La pregunta es: ¿estás dispuesto a analizar los datos?”

Michel y Lieberman Aiden comenzaron sus investigaciones sobre verbos irregulares en el 2004. En ese entonces, no existía Google Books y tuvieron que examinar pilas de libros anglo-sajones página por página. El proceso les levó 18 meses.

“Terminamos agotados,” dijo Lieberman Aiden. Ese trabajo de hormiga “fue una apuesta a todo o nada. Podríamos haber terminado sin haber comprobado nada”. Cuando se enteraron que Google iba a crear una biblioteca digital, vieron que podría revolucionar su método de investigación. Se acercaron a Peter Norvig, el director de investigación en Google.

“El se dio cuenta que era una gran oportunidad para Google,” dijo Michel. “Nos pasamos los próximos cuatro años tratando temas muy, muy complicados que iban surgiendo”, incluyendo problemas legales y de computación. Google dice que el proyecto culturonomia no toca el tema de copyright porque no se puede acceder a los libros completos a través de las bases de datos.

El depósito de palabras hace posible el análisis estadístico de influencias culturales de una manera que antes simplemente no existía. Referencias culturales suelen aparecer impresas con menos frecuencia que palabras cotidianas, dijo Michel, cuya área de especialización es matemática y biología sistemática. Una conclusión acertada requiere una muestra enorme. Investigar si la palabra “sasquach” ha infiltrado la cultura requiere una muestra de por lo menos mil millones de palabras por año, dijo.

¿Y la culturonomia? Dentro de 20 años, tipear la palabra en una versión actualizada de la base de datos y fíjense qué pasa.

Tomado de: http://bit.ly/gf9SFn

Trackbacks are closed, but you can post a comment.

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: