Katherine Bellamy – DECM Project

Explorando la inteligencia artificial para la investigación en humanidades

Katherine Bellamy — Tue, 05 Mar 2019 15:59:41 +0000

La semana anterior, participamos en un taller de dos días, “Explorando la inteligencia artificial para la investigación en humanidades”, organizado por el en colaboración con , y financiado por ESRC IAA Business Boost.

Tagtog es una plataforma de inteligencia artificial en línea que utiliza procesamiento de lenguaje natural y aprendizaje automático para la anotación automática de documentos. La idea de este taller surgió de una colaboración entre el proyecto TAP-ESRC ‘ (DECM) y , donde se usa tagtog para ayudar con la anotación y extracción de información de documentos históricos escritos mayormente en lengua española, pero incluyendo lenguas indígenas como el náhuatl, el mixteco o las variantes del maya. El procesamiento del lenguaje natural y el aprendizaje automático son campos en constante evolución, y para la investigación en humanidades, que emplea herramientas de estas disciplinas, presenta desafíos nuevos e interesantes.

El taller reunió a expertos de numerosos campos tanto de humanidades como de ciencias de la computación, con el objetivo de abordar preguntas y problemas que encontramos en el campo de las Humanidades Digitales, explorando las formas de resolver estos problemas a través del trabajo colaborativo.

Nuestro primer día incluyó una variedad de presentaciones de casos de estudio realizados por investigadores de humanidades de la Universidad de Lancaster:

Patricia Murrieta Flores

Towards the identification, extraction and analysis of information from 16th century colonial sources

En esta presentación, Patricia expuso los procedimientos mediante los que estamos identificando, extrayendo y analizando la información en el proyecto Digging Into Early Colonial Mexico. Este proyecto está creando y desarrollando nuevos enfoques computacionales para la exploración semiautomática de miles de páginas de fuentes coloniales del siglo XVI. Las Relaciones Geográficas de la Nueva España son una serie de informes geográficos que contienen una gran variedad de información sobre áreas locales en Nueva España. Puede leer más sobre cómo este proyecto ha estado usando tagtog para la anotación de corpus ��í.

Descubre más sobre el trabajo de Patricia:

Clare Egan

Using the Records of Early Modern Libel for Spatial Analysis

Clare nos dio una introducción al mundo de la difamación en época medieval y moderna temprana, centrándose en las calumnias con rima. Estos libelos contienen una gran cantidad de información, incluidas muchas referencias espaciales que, con métodos computacionales, podrían identificarse automáticamente. Los registros de difamación no están digitalizados, sin embargo, se está trabajando para fotografiar y transcribir las fuentes manuscritas. El objetivo de transcribir este material escrito a mano es convertirlo a un formato legible por el ordenador, lo que permitirá el análisis computacional. La extracción de datos de estas fuentes permitirán nuevos análisis y nuevas formas de representar espacialmente la rica información que contienen.

Descubre más sobre el trabajo de Clare:

��

Anna Mackenzie

TagTogging Time Lords: using AI and computational methods in developing the first annotated Doctor Who* corpus*

En su presentación, Anna mostró cómo ha comenzado el proceso de anotación de guiones de los episodios de Doctor Who, con el objetivo de desarrollar el primer corpus anotado de esta serie de TV. Como corpus de ciencia ficción, estos textos presentan referencias a ubicaciones, elementos, especies y conceptos únicos, algunos de los cuales solo existen en el universo de Doctor Who. Como tal, la anotación y el análisis posterior de los mismos presentan desafíos únicos a los métodos de análisis computacional de texto. Con más de 750 episodios de material, el análisis de este corpus en expansión podría ofrecer nuevas perspectivas sobre cómo se han retratado diversos temas/conceptos durante las siete décadas en las que se ha desarrollado la serie.

Descubre más sobre el trabajo de Anna:

James Butler

The Intent, Content, and Context Narratives of Literary Namescapes: Mapping spatial inference

James’ La presentación de James proporcionó una introducción al proyecto de investigación de la Universidad de Lancaster, Chronotopic Cartographies, y cómo está investigando los modos de utilizar herramientas digitales para analizar, mapear y visualizar el espacio en los textos literarios. Las referencias a espacios ficticios que no se pueden ubicar geográficamente representan desafíos apasionantes para el análisis computacional de texto. James, con el equipo de Chronotopic Cartographies, está explorando nuevas formas de abordar este problema, a la vez que trabaja examinando el papel de los topónimos a la hora de contextualizar su uso dentro de la ficción, lo que permitirá una comprensión y un análisis más complejos de estos textos.

Descubre más sobre el trabajo de James:

Raquel Liceras Garrido

Archaeological Reports: The case of Numantia

Raquel presentó el potencial para utilizar el análisis computacional de textos para extraer información de informes arqueológicos históricos, usando el caso de Numancia como referencia. Numancia es un sitio de gran importancia arqueológica en la Meseta Norte de España, donde se desarrollaron una serie de excavaciones en el período comprendido entre 1906 y 1923, que produjeron un conjunto de informes cruciales con información espacial, estratigráfica y textual sobre los materiales y estructuras. La extracción automática de la información contenida en estas memorias permitiría un nuevo acercamiento a las distribuciones espaciales, la estratigrafía y los materiales de este sitio.

Descubre más sobre el trabajo de Raquel:

�ȱ��Դ

Deborah Sutton

Mapping the Eighteenth-century Carnatic through Digitised Texts

Deborah nos presentó las cartografías de la Carnatic del siglo XVIII (sur de la India) y algunos textos contemporáneos en inglés producidos en relación con campañas militares, alianzas y conquistas. Estos textos contienen referencias espaciales tanto en términos de topografía como en relación con el valor de las tierras incautadas durante la conquista. El análisis computacional de estos textos permitirá mapear y estudiar los paisajes, así como explorar la relación entre los textos en inglés y las nomenclaturas indias.

Descubre más sobre el trabajo de Deborah:

James Taylor

Money talks: the language of finance in the nineteenth-century press

James presentó el caso de analizar columnas financieras en la prensa del siglo XIX, haciendo hincapié en la gran variedad de información que podría extraerse de estos textos. Si bien estos periódicos se han digitalizado, el primer desafío para extraer los datos relevantes es aislar automáticamente las secciones específicas del texto que presentan las mencionadas columnas. Una vez extraída, su análisis podría ofrecer la posibilidad de obtener nuevos conocimientos sobre la forma en la que se presentó la información financiera durante siglo XIX, así como la forma mediante la que se referían a noticias y temas más amplios.

Descubre más sobre el trabajo de James:

Ian Gregory

Geographical Text Analysis

En esta presentación final, Ian explicó los procesos utilizados para el análisis geográfico de texto de un corpus del Distrito de los Lagos, que se empleó durante un proyecto de cinco años en la Universidad de Lancaster, entre 2012-2016: Spatial Humanities: Texts, GIS & Places. El corpus contiene 80 textos publicados de 1622 a 1900, que suma 1,5 millones de palabras. El texto se anotó utilizando un esquema XML, y los topónimos se extrajeron y asignaron a unas coordenadas específicas, lo que produjo un Sistema de Información Geográfica que se utilizó para visualizar los diferentes aspectos contenidos en el texto. Como, por ejemplo, mostrar la frecuencia de uso de la palabra “hermoso” en los topónimos identificados. Aunque este enfoque permitió extraer y analizar gran cantidad de información, aún hay un largo camino por recorren con estos métodos computacionales.

Descubre más sobre el trabajo de Ian:

�ȱ��Դ

El segundo día fue organizado por Juan Miguel Cejuela y Jorge Campos de tagtog, con una presentación que abordó el aprendizaje automático y el procesamiento del lenguaje natural. Las diapositivas de esta presentación se pueden ver . Esto fue seguido por una sesión práctica que introdujo a los participantes al uso de la plataforma tagtog para la anotación automática de documentos, centrado en las formas en que este enfoque podría ayudar a la investigación en humanidades.

Si estas interesado en usar tagtog, pero no está seguro por dónde empezar, tienes algunos en su sitio web que ofrecen algunos ejemplos de los modos en los que esta plataforma puede usarse para analizar y extraer datos del texto.

Descubre más sobre tagtog: | |

Estos dos días fueron una oportunidad fantástica para reunir a investigadores de humanidades y ciencias de la computación, explorando las diferentes formas en que podemos trabajar juntos. Durante ellos, escuchamos algunos proyectos fascinantes de Humanidades Digitales y aprendimos mucho de Juan Miguel y Jorge en tagtog sobre cómo funciona el aprendizaje automático y el procesamiento del lenguaje natural, así como la mejor manera de utilizar su maravillosa plataforma de anotaciones, .

Esperamos tener nuevas oportunidades de organizar talleres como éste, por lo que estate atento a las actualizaciones del Centro de Humanidades Digitales de la Universidad de Lancaster: |

DECM en el Conferencia de Humanidades Espaciales

Katherine Bellamy — Tue, 02 Oct 2018 09:07:37 +0000

Hace un par de semanas, se celebró en la Universidad de Lancaster la (del 20 al 21 de septiembre), en la que se profundizó en el papel de tecnologías geoespaciales, como los Sistemas de Información Geográfica (SIG), y su contribución a la investigación en humanidades. Uno de los principales objetivos fue mostrar y analizar las aportaciones que han proporcionado estas tecnologías al conocimiento, enfoques y métodos dentro y fuera de las humanidades digitales. Si quieres leer más sobre la cómo fue la conferencia, echa un vistazo al publicado en la página web del Departamento de Historia de la Universidad de Lancaster o sigue la discusión en Twitter siguiendo .

En la conferencia, el proyecto Digging Into Early Colonial México realizó dos presentaciones. El primer día, el (Universidad de Lisboa) presentó Exploring the challenges of Named Entity Recognition in an historical multilingual corpus: Digging into Early Colonial Mexico’, en la que se centró en dos de los principales objetivos de nuestro proyecto: la creación del primer diccionario geográfico digital español-náhuatl del siglo XVI y también de un sistema de información geográfica para Nueva España. Como mencionamos en una , nuestro corpus presenta un desafío clave para el procesamiento del lenguaje natural (NLP): ¿cómo podemos realizar con precisión las tareas de reconocimiento de entidades nombradas en un corpus multilingüe, y particularmente uno con una combinación de idiomas europeos y no europeos? La presentación de Bruno abordó estos desafíos y examinó las diferentes soluciones posibles, además de mostrar algunos resultados preliminares de los experimentos de NLP realizados hasta ahora en nuestro proyecto.

En el segundo, y último día de la conferencia, la (Universidad de Lancaster) presentó ‘Development of an Historical Place-Name Gazetteer for the Viceroyalty of New Spain’. Su presentación describió los principios fundamentales detrás del desarrollo de nuestro diccionario geográfico, el proceso utilizado para recopilar e integrar datos de múltiples fuentes, el software con el que administrar y exportar los datos (disponible como código abierto en (), y las lecciones aprendidas de nuestros esfuerzos que podrían ser útiles para la creación de recursos similares. Nuestro diccionario geográfico ha adoptado el modelo de datos del , que ya considera la asociación de lugares a múltiples nombres de lugares, características, información espacial detallada, calidad de la información y procedencia, y rangos temporales para todos los elementos mencionados. Para ver cómo nuestras maravillosas tablas se relacionan, haga clic .

Además de estas dos presentaciones sobre nuestro proyecto, nuestra Investigadora Principal, la , fue la encargada de la ponencia de apertura de la conferencia, ‘Subaltern Spatial Thinking: Reflections on the technological integration of non-western and non-cartographic thinking in Humanities research’. En un repaso de cómo se ha adoptado el SIG en la investigación de Humanidades y los problemas que esto podría acarrear, Paty habló sobre cómo la cartografía puede ser vista como una herramienta hegemónica y relacionada con el poder colonial, y cómo las Humanidades necesitan una visión crítica sobre la adopción de este o cualquier otra tecnología. En su reflexión incluyó ejemplos de la concepción espacial mesoamericana y colonial que pueden ser desconocidos para una mirada moderna y centrada en el oeste, abogando por un enfoque poscolonial en el uso las tecnologías. La charla incluyó un recorrido por el y algunos de los mapas de las Relaciones Geográficas del siglo XVI.

Esta ponencia de apertura estableció un valioso espíritu crítico durante la conferencia, destacando la necesidad por abogar por un pensamiento no-occidental y no-cartográfico en la investigación de Humanidades Espaciales, así como la importancia de reconocer métodos alternativos para representar y analizar el espacio y el lugar en la investigación histórica.

Anotación del Corpus con Tagtog

Katherine Bellamy — Tue, 28 Aug 2018 08:46:34 +0000

Un elemento clave de nuestra investigación sobre las Relaciones Geográficas es el análisis de la información textual contenida en los informes del siglo XVI. Para ello, utilizaremos técnicas computacionales, concretamente procesamiento de lenguaje natural (NLP) y aprendizaje automático (ML). Si bien estas disciplinas presentan un amplio recorrido, la gran mayoría de la investigación la han realizado utilizando idiomas modernos y, mayoritariamente, inglés.

Nuestro corpus no es ni moderno ni está en inglés. Las Relaciones Geográficas fueron escritas en el siglo XVI por funcionarios españoles, en las que contribuyeron indígenas de todo México. La mezcla de idiomas español e indígenas a lo largo de las Relaciones plantea un desafío para estos métodos computacionales que, en su mayoría, han sido entrenados con textos recientes. Por ello, nos enfrentamos a la tarea de entrenar nuestro propio sistema de NLP que tiene en cuenta los desafíos únicos que presentan las Relaciones Geográficas.

Anotación del Corpus

Recientemente, hemos establecido una colaboración con , una compañía de tecnología NLP, que ha desarrollado una herramienta de anotación de texto en línea capaz de desarrollar modelos para anotar grandes cantidades de información textual. Tagtog ofrece una versión gratuita que permite a un único usuario trabajar con hasta 100 documentos y utilizar sus capacidades de anotación automática de Machine Learning. Puedes consultar sus planes gratuitos y pagos en su .

Por el momento, hemos utilizado Tagtog para anotar algunos extractos de nuestro corpus. Entendemos por anotación el hecho de asignar metadatos a términos o frases específicos para entrenar a la máquina y que sea capaz de reconocer palabras clave. Por ejemplo, en el siguiente fragmento de texto hemos etiquetado “Yenynguia” como un topónimo -se puede observar como este lugar también se conoce como Coyula, hecho que se puede registrar mediante el uso de diccionarios, como explicaremos más adelante en este post-.

Antes de comenzar a anotar, es importante definir los tipos de entidades que necesitamos identificar dentro del texto. Comenzamos con algunas categorías clave -como topónimos, instituciones y características geográficas-, y desde entonces hemos ampliado el número de categorías a cuarenta, para que sean capaces de reflejar la diversa naturaleza de la información que contienen las Relaciones. Este es un número ingente de categorías para la anotación y ¡Tagtog se está portando maravillosamente bien hasta ahora!

A continuación, se muestra un extracto de la Relación de Papaloticpac (Antequera) que una idea del tipo de información que hemos estado anotando con Tagtog.

Dentro de las primeras 800 palabras de esta Relación, encontramos información útil entre la que destacan los numerosos pueblos del área y la ubicación de los unos respecto a los otros. También, los nombres de aquellos señores relevantes, calificados de “ilustres” y “muy excelentes”, involucrados en la producción de este informe, así como algunas pinceladas de las características geográficas del área, con cerros, sierras y quebradas. Toda esta valiosa información es la que queremos ser capaces de extraer con el análisis de los textos.

Diccionarios

Como se mencionó anteriormente, en los casos en que tenemos nombres alternativos para un topónimo (Yenynguia = Coyula), es posible utilizar diccionarios para decirle a la computadora que estas entidades son una misma cosa. Con las inconsistencias de la ortografía en las Relaciones Geográficas, la normalización de las entidades es esencial. Fíjate en las primeras líneas del texto anterior, se nos dan tres formas diferentes de deletrear el nombre del pueblo: tras ‘Papaloticpac’, tenemos ‘Papaloticpaque’ y ‘Papalotiquipaque’. Por supuesto, todas se refieren al mismo lugar, pero el ordenador necesita que se lo especifiquen. En Tagtog, esto es posible gracias al uso de diccionarios que permiten la normalización de las entidades. Por ello, en el caso de “Papaloticpac”, incluiríamos cada ortografía en el “diccionario” de la siguiente manera:

(Ten en cuenta que las mayúsculas de cada palabra también han de incluirse para que la máquina reconozca esto como una coincidencia)

Nuestros siguientes pasos, una vez que hayamos anotado algo más del corpus, serán entrenar un modelo usando las anotaciones que hemos creado. Para hacer esto, añadiremos texto “sin procesar”, sin anotaciones, para que la máquina lo anote automáticamente con lo que ha aprendido de nuestras anotaciones manuales y diccionarios. Por supuesto, esto no producirá un modelo de anotación 100% preciso, por lo que corregiremos manualmente cualquier error, repitiendo este proceso hasta que consigamos un nivel alto de precisión. La capacidad de que un modelo pueda producir anotaciones automáticas con exactitud permitirá una interacción mucho más intuitiva con nuestro corpus multilingüe de más de 3 millones de palabras.

Sitios, sitios y más sitios

Katherine Bellamy — Tue, 28 Aug 2018 08:36:49 +0000

En nuestra última publicación, , mencionamos los problemas a los que nos enfrentamos en la identificación automática de topónimos. Por ello, pensamos que valdría la pena echar un vistazo a los topónimos con los que estamos trabajando e indagar en los porqués de los enfoques computacionales que nos permitirán profundizar en la comprensión de las Relaciones Geográficas.

Uno de nuestros primeros, y actuales, desafíos a los que nos enfrentamos en este proyecto es la identificación de miles de topónimos de Mesoamérica. Los principales recursos con los que contamos para crear nuestro diccionario geográfico, incluyen:

de Rene Acuña

Las de Mercedes de la Garza

La de Alejandra Moreno Toscano

La de Francisco del Paso y Troncoso

y de Peter Gerhard

Nuestra primera tarea ha sido limpiar y convertir cada una de estas fuentes a un formato legible por la computadora, lo que nos ha permitido extraer los datos más fácilmente. El OCR ha sido (a veces) un amigo imprescindible en esta parte del proceso, gracias al que hemos podido extraer todos los nombres de lugares que figuran en los índices de estos trabajos -corrigiendo los errores de OCR por el camino-, con un resultado de una lista de casi 14.500 topónimos. Por supuesto, muchos de éstos son duplicados o grafías alternativas del mismo lugar. Actualmente, estamos desambiguando estas listas de topónimos para asegurarnos de que nos estamos refiriendo a la ubicación correcta -describimos este proceso previamente en nuestra publicación , por si quieres profundizar en el tema-.

El siguiente gráfico ha sido creado a partir de la lista completa de topónimos enumerados en las ediciones de Rene Acuña de las Relaciones Geográficas, excluyendo ortografías alternativas para el mismo lugar. Si hubiésemos incluido la ortografía alternativa, la lista habría sido de más de 6.200 nombres. Tal como estaba, hemos añadido una lista de alrededor de 4.900 topónimos.

Podemos observar como la influencia del idioma español es clara, aunque no sorprendente, con nombres de santos destacados junto a características comunes como “río, valle y laguna”. Sin embargo, los topónimos indígenas siguen siendo prominentes, con menciones frecuentes de lugares específicos como Acámbaro, Tlaxcala e Ixtlahuacan. Es destacable el caso de palabras como Yucu de origen mixteca, que significa “colina”, y aparece 33 veces con una frecuencia similar a la de “valle”. En la documentación que estamos manejando, las referencia a Yucu aparecen exclusivamente en la región de Antequera -actualmente Oaxaca-, debido a que es una región en la que convergen numerosas cadenas montañosas conocidas como el Complejo Oaxaqueño o Complejo de Oaxaca.

La desambiguación de los miles de topónimos que se mencionan en las Relaciones Geográficas nos permitirá interactuar efectivamente con las fuentes documentales utilizando métodos computacionales. El uso de técnicas como el Análisis de Colocación junto con nuestro diccionario geográfico abrirá un amplio abanico de oportunidades para analizar los textos desde nuevas perspectivas, así como profundizar en la identificación de asociaciones entre ubicaciones, entidades, temas, etc. Por ejemplo, será posible buscar Tlacotepec y determinar si este topónimo tiene alguna relación con otro lugar, persona o concepto. Además, de la posibilidad de buscar un Tlacotepec específico y cualquier otro nombre/ortografía alternativa asociada para ese lugar en particular. Como se muestra en el siguiente mapa, los topónimos a menudo se repiten dentro de las mismas regiones ¡Por eso, es tan importante la desambiguación de nuestro corpus!

Actualmente, tenemos un total de 3.650 nombres de lugares completamente desambiguados, lo que significa que hemos asignado coordenadas concretas a esos topónimos. Puedes ver una muestra de algunas de estas ubicaciones en la pestaña de nuestra web.

También, tenemos unos cuantos topónimos parcialmente localizados -es decir, de los que hemos sido capaces de identificar la región aproximada en la que se encuentran- y miles más esperando la desambiguación. Estamos llegando a la mitad del camino … ¡justo por encima del próximo yucu!

Extraer y crear datos de las Relaciones Geográficas

Katherine Bellamy — Mon, 13 Aug 2018 13:46:14 +0000

En los últimos meses, nuestro equipo ha sentando las bases de nuestra investigación sobre las Relaciones Geográficas y ha profundizado en el conocimiento de nuestro material original. A continuación, os mostramos un adelanto de nuestras capas SIG de topónimos que van creciendo exponencialmente.

El gran tamaño y el formato no estandarizado de las Relaciones han significado que el estudio de estos documentos se haya basado anteriormente en una lectura atenta de los textos, lo que ha limitado el alcance de la investigación. Abordar este estudio desde una perspectiva interdisciplinar nos ofrece la oportunidad de involucrarnos con metodologías computacionales innovadoras para crear nuevas oportunidades en el análisis y el estudio de estos documentos históricos, mejorando el acceso y ampliando las posibilidades de la investigación.

Algunos de los problemas clave a los que nos enfrentaremos serán: la capacidad de los métodos computacionales para tratar con corpora multilingüe, la naturaleza ambigua de muchos topónimos mencionados dentro de las Relaciones o la inaccesibilidad general de textos históricos tan amplios y complejos como éste.

Abordaremos estos problemas en colaboración como un equipo interdisciplinar, asegurando que nuestra investigación contribuya a los avances de cada uno de nuestros campos de estudio. Cada equipo aporta su propia experiencia al proyecto y, al trabajar en colaboración, estamos mejor equipados para hacer frente a los problemas que plantean materiales históricos tan extensos como las Relaciones Geográficas.

Uno de los desafíos clave a los que enfrentamos con las Relaciones Geográficas es el de la lingüística. Este corpus multilingüe presenta una combinación de español y una serie de lenguas indígenas (predominantemente náhuatl) de todas partes. El siguiente fragmento demuestra uno de los problemas lingüísticos a afrontar al tratar con estos documentos históricos: “Hun 4at” y “Oxi 4ahol” son los nombres indígenas en Quiche Maya para dos volcanes a los que se hace referencia en la Relación de Santiago Atitlán.

Con los sistemas de Procesamiento de Lenguajes Naturales generalmente entrenados con textos de noticias modernas, no podrían reconocer y etiquetar palabras en un idioma indígena como Quiche, especialmente con el uso desconocido de un carácter numérico en un topónimo. Los métodos computacionales para el análisis del lenguaje mejoran continuamente, aunque su uso en el análisis de textos históricos y no ingleses todavía presenta muchos desafíos. Nuestro proyecto tiene como objetivo abordar estos problemas y mejorar los métodos para el análisis de documentos históricos complejos, como las Relaciones Geográficas.

Déjanos tus comentarios y/o . Si deseas leer más sobre miembros individuales de nuestro equipo, consulta nuestra página de .

SIG Histórico

Katherine Bellamy — Mon, 13 Aug 2018 13:36:16 +0000

En el proyecto, una gran parte de nuestro tiempo hasta el momento se ha dedicado a los SIG y a la creación de mapas que reflejan los límites geográficos tal como existían en el siglo XVI en Mesoamérica. El trabajo de y ha sido una fuente inestimable de información, proporcionando estudios detallados de la geografía histórica de Nueva España en los años posteriores a la llegada de los ��貹ñ�Ǳ��.

Los mapas que Gerhard produjo se centraron principalmente en las fronteras administrativas impuestas por los españoles en el siglo XVI. Nosotros hemos utilizado estos mapas como punto de partida, creando capas SIG que reflejan los límites tal como los describe Gerhard:

Si bien algunas de estas unidades administrativas se construyeron sobre sistemas de gobierno indígenas preexistentes y bien establecidos, en última instancia reflejan una geografía administrativa española, dividida en �徱ó��, audiencias y provincias, con topónimos identificados que corresponden a alcaldías mayores y corregimientos ��貹ñ�Ǳ��.

Por supuesto, la geografía histórica de Mesoamérica no comenzó con el establecimiento de unidades administrativas españolas, y nuestro objetivo es producir una imagen más representativa de la geografía del siglo XVI en Mesoamérica. La identificación de los topónimos históricos será clave para nuestra comprensión de las geografías indígenas e históricas, y actualmente estamos creando capas SIG que localizan estos topónimos.

El proceso para realizar ésto ha sido sencillo, pero largo, ya que solo puede ser semiautomatizado. Para ello, comenzamos con la digitalización de varios índices geográficos incluidos en las obras de Peter Gerhard, Mercedes de la Garza, René Acuña, Francisco del Paso y Troncoso y Alejandra Moreno Toscano. Estos índices contienen miles de topónimos a los que se hace referencia en las Relaciones Geográficas. Con estas listas compiladas, pasamos a hacer referencias cruzadas o unir estas tablas con los datos geográficos existentes, derivados de diversas fuentes, entre las que se incluyen fuentes históricas secundarias como y .

Por supuesto, los cambios en el tiempo y las variaciones en la escritura de los topónimos dan lugar a que la unión de estos conjuntos de datos no puede depender únicamente de que el ordenador reconozca coincidencias idénticas. Por ello, nuestra Investigadora Asociada del Reino Unido, la Dra. Raquel Liceras Garrido en colaboración con nuestra Investigadora Asociada de México, Mariana Favila-Vázquez, han encabezado la laboriosa tarea de localizar los miles de topónimos para los que no había coincidencia con los datos geográficos existentes. En esta empresa monumental, el proceso se complica aún más por el hecho de que a menudo hay numerosos nombres para el mismo lugar (¡y estos multiples nombres tienen muchas formas de escritura alternativa!). Por ejemplo, en todo el registro histórico, Ixtacamaxtitlán en actual en el estado de Puebla se conoce por diferentes nombres, tales como San Francisco Iztaquimaxtitlan, S Francisco Iztaquimaxtitlan, Istac-ymachtitlan, Estacquimestitlan, Itztaquimitztitlan o Castilblanco.

Los topónimos a menudo se repiten en toda América (y sino empecemos por aquellos llamados San Juan) y además hay numerosos casos en los que no es posible determinar la ubicación exacta de un nombre de lugar. La experiencia de nuestros colegas de México, Mariana Favila Vázquez y el Dr. Diego Jiménez-Badillo, es indispensable en la desambiguación de cientos de estos topónimos. Para los nombres de lugares que no hemos podido localizar, nuestro equipo mexicano ha realizado investigaciones históricas para asignarles coordenadas. Así, para aquellos topónimos que han logrado evadir todas nuestras investigaciones (¡por ahora!), nuestro equipo en México ha podido determinar la región en la que se encontraban.

Esta investigación también será imprescindible en nuestros experimentos llevados a cabo en colaboración con el equipo portugués sobre el reconocimiento automático de la entidad designada multilingüe y la desambiguación geográfica y lingüística de topónimos, que será la siguiente etapa de nuestra investigación.