El genoma de la cultura

¿Qué ocurriría si tomáramos todos los libros escritos hasta el momento y los analizáramos en conjunto a través de computadoras? Si hiciéramos eso con todas las obras de la literatura argentina, ¿qué veríamos? ¿Qué temas y palabras se repiten? ¿Advertiríamos cuándo nacen unas ideas y cuándo se desvanecen? Estas y muchas otras preguntas atraviesan y dan vida a una disciplina, un método aún en pañales: la “culturómica”.

Le Monde Diplomatique, agosto 2014.

@fedkukso

Jisui. Así se llama. Como los robots descomunales, el hentai, una extraña espuma que quita el calor al rociarla sobre el cuerpo y las galletitas hechas con medusa, esta práctica ni secreta ni ancestral es en la actualidad toda una obsesión en Japón. La palabra estrictamentete significa “cocinar tu propia comida” pero remite a un universo completamente distinto. Apunta a una especie de ascetismo literario, impulsa una transmutación de la materia: jisui es la tendencia casi maniática de digitalizar la biblioteca personal.

El iPad y los libros electrónicos no irrumpieron en los espacios domésticos nipones hace un par de años únicamente como artefactos de ostentación, como okupas de silicio. Se instalaron con su propia gramática de uso. Impusieron una pedagogía sensorial y un mantra, la santificación de los bits sobre los anticuados átomos. Sin pensarlo dos veces, millones de lectores japoneses exhumaron las tijeras y los cutters y en silencio se abocaron a cometer un crimen: descuartizaron con saña sus hasta entonces amados libros de papel y dispusieron sus miembros —sus hojas— bajo el barrido lumínico de sus scanners. Una y otra vez. Transgresor como extremo, este hábito impulsado por la aparición de una tecnología invasora es la versión privada de una obstinación contemporánea: la digitalización de absolutamente todo.

El 21 de diciembre de 2012 quedó atrás hace rato y el mundo siguió dando vueltas. Y aún así, los ánimos preservacionistas de guardar todo antes del advenimiento del Apocalipsis no amainaron. En silencio y desde hace décadas, una biblioteca universal e inmaterial está tomando forma. El mandamiento moderno es alimentarla. Llenarla con todo aquello que quepa bajo la etiqueta de “patrimonio cultural de la humanidad”: libros, diarios, mapas, grabados, pinturas, películas, facturas, cartas de amor y de desamor. Nutrirla con lo que sea: con la red de correspondencia de filósofos como Voltaire, Leibniz y Rousseau durante la Ilustración (el proyecto Mapping the Republic of Lettershttp://republicofletters.stanford.edu), con los registros policiales de Londres de 1690 a 1800 (Londonlives.org), con las transcripciones de los juicios de brujas de Salem (Salem.lib.virginia.edu) o con la versión original de El Quijote (Quijote.bne.es/libro.html).

En Nueva York, por ejemplo, se han digitalizado 40.000 menús de restaurantes del siglo XVIII al XXI con la misma voracidad con la que la Universidad de Cambridge subió a Internet los manuscritos de Newton, Darwin y muchos otros. En el Vaticano con gula textos antiguos de la Biblioteca Apostólica. Y en Noruega planean —por ley— tener todos los libros de la Biblioteca Nacional digitalizados para el año 2020.

“Desde los días de las tabletas sumerias de arcilla hasta hoy —escribió hace unos años Kevin Kelly, el voraz tecnoescritor estadounidense con look amish—, los humanos han publicado unos 32 millones de libros, 750 millones de artículos y ensayos, 25 millones de canciones, 500 millones de imágenes, 500 mil películas, 3 millones de videos y shows de TV y 100 mil millones de páginas web públicas. Todo este material está actualmente contenido en todas las bibliotecas y archivos del mundo. Cuando todo esto haya sido digitalizado, la cultura humana estará comprimida en discos de 50 petabytes. En un tiempo podremos llevar todo nuestro acervo cultural en la billetera”.

Pero Kelly se equivocaba en algo. El total de libros que han sido publicados en el mundo a lo largo de la historia, lo corrigieron desde las oficinas de Google, es aún mayor: 129.864.880 obras. Imposible como atractivo, este cálculo pende como el objetivo final —la meta— a alcanzar del mayor proyecto de digitalización de nuestra época: Google Books. Desde que la Biblioteca de Alejandría fuera destruida por órdenes del califa Amrou en el siglo VII, no existe una iniciativa tan titánica y ambiciosa para reunir en un lugar todo el conocimiento humano. Los escaneados frenéticos arrancaron en 2002 en un clima de incertidumbre legal. Y no cesan, pese a los palos en la rueda puestos por gobiernos, abogados y escritores culturalmente miopes: hasta el momento ya han sido digitalizadas más de 15 millones de obras.

La tecnología acelera la migración de todo lo que conocemos al universo digital, el de los bits. Lo aprehensible se diluye en mega, giga, tera, peta, exabytes. Pero por más fascinante que parezca esta mudanza al no-espacio infinito de Internet, se trata de sólo el primer acto de una misión mucho más ambiciosa y trascendental para el (auto)conocimiento humano. La verdadera magia se desplegará en un segundo movimiento cuando cada palabra de aquellos millones de libros digitalizados sea etiquetada, indexada, cruzada, analizada. Cuando, como sucedió con el genoma humano desnudado a principios del siglo XXI, nuestra cultura sea decodifiada.

Y ese momento es ahora.

Cromosomas literarios

Los números nos enloquecen. Por más alérgicos que seamos a las matemáticas, por alguna razón los porcentajes, las cifras, los promedios irradian cierto halo de autoridad, el poder dogmático de lo incuestionable. Será porque los números delinean acabadamente el mapa de una cuestión, un territorio. Vuelven lo invisible visible. Sabemos, por ejemplo, que la novela más larga de la literatura es En busca del tiempo perdido de Marcel Proust que contiene aproximadamente 9.609.000 caracteres (con espacios). O que más de 495 millones de personas hablan español en el mundo. Y que, según las proyecciones en 2050, Estados Unidos será el primer país hispanohablante de la Tierra.

Las cifras hablan. No se conoce, por ejemplo, el estado de la cultura argentina hasta saber que de 2002 a 2012 se publicaron 46675 novedades literarias, de acuerdo a la Cámara Argentina del Libro. Y que, curiosamente —o no tanto—, se editan más libros de astrología que de ciencias.

La cuestión es que hasta ahora nos las pasamos viendo el bosque cultural desde afuera, en fracciones reducidas. Es hora de mirar el bosque completo y por dentro. ¿Qué pasaría si tomáramos todos los libros escritos hasta la fecha y los observáramos en conjunto, como quien une todas las piezas de un rompecabezas y descubre un panorama, un mensaje, hasta entonces oculto? Si hiciéramos eso con todas las obras de la literatura argentina, ¿qué veríamos? ¿Qué temas y palabras se repiten? ¿Advertiríamos cuándo nacen unas ideas y cuándo se desvanecen? Estas y muchas otras preguntas atraviesan y dan vida a una disciplina, un método aun en pañales: la “culturómica”.

Así como un fósil de una antigua criatura sobresale sobre el terreno y revela a paleontólogos y biólogos la dinámica evolución de la vida en nuestro planeta, las palabras que conforman y discurren a lo largo de todos los libros cuentan una fracción de la historia de la cultura humana. Sus fluctuaciones muestran algo obvio aunque olvidado por muchos: que las culturas evolucionan con el tiempo, a lo largo de siglos y milenios. No usamos ni pronunciamos exactamente las mismas palabras que pronunciaba San Martín en el siglo XIX o que Pedro de Mendoza mascullaba en el siglo XVI. El lenguaje y el imaginario mutan. Y las computadoras, las bases de datos digitalizados, los algoritmos —todas herramientas híbridas: científicas y literarias— podrían revelarlo. Internet, así, podría ser el mecanismo más potente que jamás se haya inventado para comprender la historia. Una ventana a la cultura.

La culturómica nació como nacen las grandes experimentos: con una idea descabellada como germen. El nuevo enfoque surgió hace poco, en 2007, cuando un matemático con un doctorado en genómica de la Universidad de Harvard y de barba candado llamado Erez Lieberman Aiden golpeó la puerta de la oficina del director de investigación de Google, el científico informático Peter Norvig, en California y, sin vergüenza, le solicitó acceso total a las masivas bases de datos de Google Books para estudiar la evolución cultural, un tema que intriga a humanistas y biólogos desde hace décadas. Aficionado a la literatura, Aiden ya venía investigando la evolución del genoma humano y quería poner a prueba sus hipótesis en otro organismo, en este caso artificial: la cultura. La propuesta era tan interesante que Norvig no la pudo rechazar.

El primer paso, cuenta Aiden en su reciente libro Uncharted: Big Data and an Emerging Science of Human History, fue hacer un recorte. Y juntos, armaron un corpus de 5.195.769 libros digitalizados (el 4% de todo lo publicado) donde bucear. Luego crearon Google Books Ngram, una especie de megabuscador literario, como todo motor de búsqueda, una herramienta de descubrimiento. Y entonces, bucearon en un océano de palabras en inglés (361 mil millones), francés (45 mil millones), español (45 mil millones) y lo que resta en alemán, chino, ruso y hebreo, en obras que van del 1500 a nuestros días.

Las primeras exploraciones se relataron en un paper de ocho páginas publicado en la revistaScience (“Análisis cuantitativo de la cultura usando millones de libros digitalizados”) que causó conmoción. Fue una bisagra. Si bien los investigadores —entre los que figuraban lingüistas, historiadores, sociólogos y el gran psicólogo Steven Pinker— sólo habían rascado la superficie de la literatura universal —un fragmento mínimo de nuestro genoma cultural—, lo que hallaron utilizando todo el poder informático y las llamadas técnicas de minería de datos fue más que interesante: por ejemplo, que en los últimos cien años el vocabulario en inglés en lugar de reducirse se amplió. Se expandió como un gas. De 544.000 palabras en 1900 saltó a 597.000 en 1950 y a 1.022.000 palabras en el año 2000.

Fue sólo el comienzo. El desafío de la culturómica reside, como sucede en la investigación con fósiles en paleontología, en la interpretación de la evidencia. Lo dicho es tan importante como lo que no se dice. La ausencia de ciertos apellidos en los libros durante períodos oscuros de la historia como la Segunda Guerra Mundial, por ejemplo, exponen la censura y persecución.

El mandamiento digital

No es la primera vez que la genética infecta a la cultura con sus conceptos. Y no será la última. El caso más notable es el de Richard Dawkins. Más que por sus hipótesis sobre la dictadura de los genes (los “genes egoístas”) y por su ateísmo militante, a este naturalista inglés se lo suele recordar como el padre de la idea de “meme”, algo así como un gen cultural, una unidad de transmisión cultural o una unidad de imitación, un virus que se replica al saltar de mente a mente, para explicar la evolución de las ideas y conductas. La idea de dios, por ejemplo, es un meme, como lo es la religión, o una canción pegadiza.

La culturómica sería así la versión cultural de la genética, una ciencia que con el Proyecto Genoma Humano, tuvo la obligación que aprender a manejar y rastrillar entre grandes volúmenes de datos. Esta habilidad —desarrollada por una nueva especialidad científica, la bioinformática— ayudó a la vez al nacimiento de una técnica, una filosofía, una moda tecno llamada Big Data: la tendencia de aprovechar el tsunami de información que generamos a diario en novedosas maneras, hallar en ella patrones. En lo que sea: en medicina, en Twitter, en las transacciones bancarias, o para anticiparse a cómo se esparce una epidemia. Este tipo de análisis cuantitativo no dicen precisamente por qué o cómo sucede algo. Nos alertan, más bien, de que algo ocurre. Utilizar toda esta información hace posible que veamos las conexiones, los detalles ocultos en la vastedad, en la marea de los datos. Una vez digitalizado un texto deja de ser una entidad autónoma. Tolstoi deja de ser Tolstoi para fundirse en un magma literario como canal conductor de una época. En la biblioteca universal, ningún libro es una isla.

Desde aquel paper inicial de la culturómica en la revista Science, este tipo de estudios se multiplicaron. El antropólogo Alberto Acerbi, de la Universidad de Bristol, constató que el uso de palabras con contenido emocional en los libros se redujo bastante en el último siglo. Si las palabras que usamos dicen mucho de nuestra personalidad, también dicen de nuestro momento histórico.

Otro caso es el de un equipo de físicos italianos, isreaelíes y estadounidenses que  examinaron el nacimiento y muerte de palabras en inglés, hebreo y español publicados entre 1800 y 2008 en un corpus de 10.000.000 de palabras digitalizadas. Y advirtieron algo impensado: que las guerras provocan un intercambio y aumento de ciertas palabras entre los miembros de los países en conflicto. Y algo para pensar: que los correctores de texto de programas como Word desempeñan un rol crucial en la evolución lingüística al volver a un  lenguaje más homogéneo, más pobre.

Las críticas a la culturómica son tan obvias y entendibles que los investigadores no se defienden. Saben que su novedosa aproximación a la literatura —en las antípodas del canon literario y de las posturas de Harold Bloom— abraza el reduccionismo. O peor: que decir que los libros son el equivalente al ADN de la cultura implica caer en una trampa, la de olvidar que la cultura es mucho más que novelas y ensayos. La cultura se expresa tanto en los libros publicados, como en los que se publican, en el arte, en la música, en el cine, en las costumbres populares, la escultura, la arquitectura, los graffiti, la moda, los mitos, las ceremonias. Y en muchas otras expresiones incapaces de ser digitalizadas.

Quizás la crítica más acertada sea aquella que apunta a la principal hipótesis de trabajo de la culturómica que equipara literatura —fruto de la sensibilidad y creación humana— con su opuesto: la información, datos crudos. En este punto, ciertos investigadores como Kalev H. Leetaru de la Universidad de Georgetown, Estados Unidos, no se disculpan. Más bien, se van al extremo y  aseguran que se si alimentáramos a una supercomputadora con información periodística y con diarios digitalizados se podría predecir el futuro: desde cracks financieros a alzamientos populares como la Primavera Árabe.

Esto solo lo demuestra: con disimulo, la psicohistoria —aquella ciencia ficticia creada por Isaac Asimov que combina historia, psicología y estadística matemática para calcular el comportamiento futuro de grandes poblaciones— estaría dando sus primeros pasos fuera del útero de los libros.

El software de la cultura

Lo dice con convicción: “Yo soy medievalista”. Hija de gallegos, de chica Gimena del Río tuvo un fuerte apego por los castillos y las princesas. Quizás por eso no fue una sorpresa que con el pasar de los años se inclinara por el estudio de la literatura española medieval, la lírica gallego-portuguesa y los cancioneros —colección de canciones y poesías de diversos autores— del siglo XIII al XVI. “Hice mi tesis doctoral en España en el año 2005. Trabajé con una enorme cantidad de material que ya estaba digitalizado: imágenes de manuscritos, bases de datos, visualizaciones, muchas herramientas digitales — cuenta esta investigadora del Seminario de Edición y Crítica Textual (SECRIT-IIBICRIT CONICET)—. Alrededor de 2010, comencé a percibir cómo se iba gestando un movimiento que aplicaba toda clase de herramientas de software a los estudios académicos. Lo llamaban ‘humanidades digitales’”.

Un día de marzo de 2013, Gimena del Río volvió a la Argentina. Y quiso ponerse en contacto con otros investigadores interesados como ella en digitalización y librerías digitales. Así organizó un THATCamp (siglas de The Humanities and Technology camp,http://buenosaires2013.thatcamp.org), una reunión informal y participativa que congregó a distintas personas que vienen hace tiempo trabajando en este cruce de manera disgregada. Juntos formaron la Asociación Argentina de Humanidades Digitales. “Los bibliotecarios fueron los primeros en trabajar con software digital —cuenta—. No hay bibliotecas sin alguna clase de base datos. Muchos ya están digitalizando su inventario. El software se instaló en nuestras vidas. En el ámbito académico, las humanidades digitales tienen un rol crucial. Plantean la incorporación del uso de software a las técnicas y metodología de las disciplinas humanísticas como literatura, filosofía, artes, ciencias sociales, psicología, sociología”.

Y, como movimiento, se está dando en todo el mundo. Uno de sus principales figuras es el crítico italiano Franco Moretti, del Stanford Literary Lab, conocido por la idea de “lectura distante”. Así como un satélite ve desde arriba un paisaje, investigadores como Moretti estudian el panorama literario como un todo buscando en la vastedad patrones, tendencias, relaciones del sistema colectivo de la literatura. “Usar la tecnología para analizar a la literatura como un todo, en lugar de hacer foco en un puñado de obras —señaló el escritor Jonathan Franzen—, es una interesante dirección hacia donde debería moverse la crítica cultural. Nos permitiría comprender el espíritu de la época en la que fue escrito un libro”.

Muy pocos discuten que la tecnología digital está cambiando la manera en que se llevan a cabo los procesos de investigación. Ahora los historiadores trabajan con abundancia y no con la escasez. Como escribieron en el Digital Humanities Manifesto 2.0 los profesores de literatura comparada Todd Presner y Jeffrey Schnapp de la Universidad de California, la primera ola de humanidades digitales fue cuantitativa, movilizando la búsqueda y adquisición de las bases de datos, automatizando corpus lingüísticos. La segunda ola es de un carácter cualitativo, interpretativo, experimental.

Así surgen proyectos interesantes como el Book Genome Project que analiza libros en clave científica, los cuantifica. Sólo hay que poner un título en Booklamp.org. Y Enter. Por ejemplo, Crónica del pájaro que da cuerda al mundo de Haruki Murakami. El sistema no sólo recomienda otros libros similares sino que revela su estructura, su ADN: la cantidad de diálogos, de descripciones, la frecuencia de temas, personajes y figuras en ellos.

Curiosamente, un lingüista argentino hace tiempo viene haciendo algo parecido. Jorge Barale desarrolló un método de análisis literario para descubrir los hilos secretos detrás de obras. Al alimentar un software en el que se basó su sitio Super-word.com con El Aleph de Borges, arroja que abunda el uso de la tercera persona (48,74 %), el tiempo presente (83,67 %), el modo indicativo (77,76 %), la cantidad de oraciones (205), uso de sustantivos (37,11%). En La Autopista del sur de Julio Cortázar, el software reconoce que usa más verbos (44,46%) que adjetivos (18,92%).

Con la culturómica, la lectura distante y las humanidades digitales, la literatura y los estudios académicos no sólo se enriquecen con una nueva perspectiva. Surge con ellos también un fenómeno imprevisto: a través de millones de libros digitalizados, las máquinas de a poco están aprendiendo a leer.

Fuente