Katherine Bellamy – DECM Project /digging-ecm Digging into Early Colonial Mexico Tue, 05 Mar 2019 16:03:30 +0000 es-MX hourly 1 https://wordpress.org/?v=6.9.4 Explorando la inteligencia artificial para la investigaci贸n en humanidades /digging-ecm/es/2019/03/explorando-la-inteligencia-artificial/ Tue, 05 Mar 2019 15:59:41 +0000 http://www.lancaster.ac.uk/digging-ecm/?p=2028

La semana anterior, participamos en un taller de dos d铆as, “Explorando la inteligencia artificial para la investigaci贸n en humanidades”, organizado por el en colaboraci贸n con , y financiado por ESRC IAA Business Boost.

Tagtog es una plataforma de inteligencia artificial en l铆nea que utiliza procesamiento de lenguaje natural y aprendizaje autom谩tico para la anotaci贸n autom谩tica de documentos. La idea de este taller surgi贸 de una colaboraci贸n entre el proyecto TAP-ESRC ‘ (DECM) y , donde se usa tagtog para ayudar con la anotaci贸n y extracci贸n de informaci贸n de documentos hist贸ricos escritos mayormente en lengua espa帽ola, pero incluyendo lenguas ind铆genas como el n谩huatl, el mixteco o las variantes del maya. El procesamiento del lenguaje natural y el aprendizaje autom谩tico son campos en constante evoluci贸n, y para la investigaci贸n en humanidades, que emplea herramientas de estas disciplinas, presenta desaf铆os nuevos e interesantes.

El taller reuni贸 a expertos de numerosos campos tanto de humanidades como de ciencias de la computaci贸n, con el objetivo de abordar preguntas y problemas que encontramos en el campo de las Humanidades Digitales, explorando las formas de resolver estos problemas a trav茅s del trabajo colaborativo.

Photo showing the opening workshop presentation by Dr Patricia Murrieta Flores

Nuestro primer d铆a incluy贸 una variedad de presentaciones de casos de estudio realizados por investigadores de humanidades de la Universidad de Lancaster:

Patricia Murrieta Flores

Towards the identification, extraction and analysis of information from 16th century colonial sources

En esta presentaci贸n, Patricia expuso los procedimientos mediante los que estamos identificando, extrayendo y analizando la informaci贸n en el proyecto Digging Into Early Colonial Mexico. Este proyecto est谩 creando y desarrollando nuevos enfoques computacionales para la exploraci贸n semiautom谩tica de miles de p谩ginas de fuentes coloniales del siglo XVI. Las Relaciones Geogr谩ficas de la Nueva Espa帽a son una serie de informes geogr谩ficos que contienen una gran variedad de informaci贸n sobre 谩reas locales en Nueva Espa帽a. Puede leer m谩s sobre c贸mo este proyecto ha estado usando tagtog para la anotaci贸n de corpus 补辩耻铆.

Descubre m谩s sobre el trabajo de Patricia:

Clare Egan

Using the Records of Early Modern Libel for Spatial Analysis

Clare nos dio una introducci贸n al mundo de la difamaci贸n en 茅poca medieval y moderna temprana, centr谩ndose en las calumnias con rima. Estos libelos contienen una gran cantidad de informaci贸n, incluidas muchas referencias espaciales que, con m茅todos computacionales, podr铆an identificarse autom谩ticamente. Los registros de difamaci贸n no est谩n digitalizados, sin embargo, se est谩 trabajando para fotografiar y transcribir las fuentes manuscritas. El objetivo de transcribir este material escrito a mano es convertirlo a un formato legible por el ordenador, lo que permitir谩 el an谩lisis computacional. La extracci贸n de datos de estas fuentes permitir谩n nuevos an谩lisis y nuevas formas de representar espacialmente la rica informaci贸n que contienen.

Descubre m谩s sobre el trabajo de Clare:

Anna Mackenzie

TagTogging Time Lords: using AI and computational methods in developing the first annotated Doctor Who corpus

En su presentaci贸n, Anna mostr贸 c贸mo ha comenzado el proceso de anotaci贸n de guiones de los episodios de Doctor Who, con el objetivo de desarrollar el primer corpus anotado de esta serie de TV. Como corpus de ciencia ficci贸n, estos textos presentan referencias a ubicaciones, elementos, especies y conceptos 煤nicos, algunos de los cuales solo existen en el universo de Doctor Who. Como tal, la anotaci贸n y el an谩lisis posterior de los mismos presentan desaf铆os 煤nicos a los m茅todos de an谩lisis computacional de texto. Con m谩s de 750 episodios de material, el an谩lisis de este corpus en expansi贸n podr铆a ofrecer nuevas perspectivas sobre c贸mo se han retratado diversos temas/conceptos durante las siete d茅cadas en las que se ha desarrollado la serie.

Descubre m谩s sobre el trabajo de Anna:

James Butler

The Intent, Content, and Context Narratives of Literary Namescapes: Mapping spatial inference

James鈥 La presentaci贸n de James proporcion贸 una introducci贸n al proyecto de investigaci贸n de la Universidad de Lancaster, Chronotopic Cartographies, y c贸mo est谩 investigando los modos de utilizar herramientas digitales para analizar, mapear y visualizar el espacio en los textos literarios. Las referencias a espacios ficticios que no se pueden ubicar geogr谩ficamente representan desaf铆os apasionantes para el an谩lisis computacional de texto. James, con el equipo de Chronotopic Cartographies, est谩 explorando nuevas formas de abordar este problema, a la vez que trabaja examinando el papel de los top贸nimos a la hora de contextualizar su uso dentro de la ficci贸n, lo que permitir谩 una comprensi贸n y un an谩lisis m谩s complejos de estos textos.

Descubre m谩s sobre el trabajo de James:

Raquel Liceras Garrido

Archaeological Reports: The case of Numantia

Raquel present贸 el potencial para utilizar el an谩lisis computacional de textos para extraer informaci贸n de informes arqueol贸gicos hist贸ricos, usando el caso de Numancia como referencia. Numancia es un sitio de gran importancia arqueol贸gica en la Meseta Norte de Espa帽a, donde se desarrollaron una serie de excavaciones en el per铆odo comprendido entre 1906 y 1923, que produjeron un conjunto de informes cruciales con informaci贸n espacial, estratigr谩fica y textual sobre los materiales y estructuras. La extracci贸n autom谩tica de la informaci贸n contenida en estas memorias permitir铆a un nuevo acercamiento a las distribuciones espaciales, la estratigraf铆a y los materiales de este sitio.

Descubre m谩s sobre el trabajo de Raquel:

比比资源

Deborah Sutton

Mapping the Eighteenth-century Carnatic through Digitised Texts

Deborah nos present贸 las cartograf铆as de la Carnatic del siglo XVIII (sur de la India) y algunos textos contempor谩neos en ingl茅s producidos en relaci贸n con campa帽as militares, alianzas y conquistas. Estos textos contienen referencias espaciales tanto en t茅rminos de topograf铆a como en relaci贸n con el valor de las tierras incautadas durante la conquista. El an谩lisis computacional de estos textos permitir谩 mapear y estudiar los paisajes, as铆 como explorar la relaci贸n entre los textos en ingl茅s y las nomenclaturas indias.

Descubre m谩s sobre el trabajo de Deborah:

James Taylor

Money talks: the language of finance in the nineteenth-century press

James present贸 el caso de analizar columnas financieras en la prensa del siglo XIX, haciendo hincapi茅 en la gran variedad de informaci贸n que podr铆a extraerse de estos textos. Si bien estos peri贸dicos se han digitalizado, el primer desaf铆o para extraer los datos relevantes es aislar autom谩ticamente las secciones espec铆ficas del texto que presentan las mencionadas columnas. Una vez extra铆da, su an谩lisis podr铆a ofrecer la posibilidad de obtener nuevos conocimientos sobre la forma en la que se present贸 la informaci贸n financiera durante siglo XIX, as铆 como la forma mediante la que se refer铆an a noticias y temas m谩s amplios.

Descubre m谩s sobre el trabajo de James:

Ian Gregory

Geographical Text Analysis

En esta presentaci贸n final, Ian explic贸 los procesos utilizados para el an谩lisis geogr谩fico de texto de un corpus del Distrito de los Lagos, que se emple贸 durante un proyecto de cinco a帽os en la Universidad de Lancaster, entre 2012-2016: Spatial Humanities: Texts, GIS & Places. El corpus contiene 80 textos publicados de 1622 a 1900, que suma 1,5 millones de palabras. El texto se anot贸 utilizando un esquema XML, y los top贸nimos se extrajeron y asignaron a unas coordenadas espec铆ficas, lo que produjo un Sistema de Informaci贸n Geogr谩fica que se utiliz贸 para visualizar los diferentes aspectos contenidos en el texto. Como, por ejemplo, mostrar la frecuencia de uso de la palabra “hermoso” en los top贸nimos identificados. Aunque este enfoque permiti贸 extraer y analizar gran cantidad de informaci贸n, a煤n hay un largo camino por recorren con estos m茅todos computacionales.

Descubre m谩s sobre el trabajo de Ian:

比比资源

El segundo d铆a fue organizado por Juan Miguel Cejuela y Jorge Campos de tagtog, con una presentaci贸n que abord贸 el aprendizaje autom谩tico y el procesamiento del lenguaje natural. Las diapositivas de esta presentaci贸n se pueden ver . Esto fue seguido por una sesi贸n pr谩ctica que introdujo a los participantes al uso de la plataforma tagtog para la anotaci贸n autom谩tica de documentos, centrado en las formas en que este enfoque podr铆a ayudar a la investigaci贸n en humanidades.

Si estas interesado en usar tagtog, pero no est谩 seguro por d贸nde empezar, tienes algunos en su sitio web que ofrecen algunos ejemplos de los modos en los que esta plataforma puede usarse para analizar y extraer datos del texto.

Descubre m谩s sobre tagtog: | |

Estos dos d铆as fueron una oportunidad fant谩stica para reunir a investigadores de humanidades y ciencias de la computaci贸n, explorando las diferentes formas en que podemos trabajar juntos. Durante ellos, escuchamos algunos proyectos fascinantes de Humanidades Digitales y aprendimos mucho de Juan Miguel y Jorge en tagtog sobre c贸mo funciona el aprendizaje autom谩tico y el procesamiento del lenguaje natural, as铆 como la mejor manera de utilizar su maravillosa plataforma de anotaciones, .

Esperamos tener nuevas oportunidades de organizar talleres como 茅ste, por lo que estate atento a las actualizaciones del Centro de Humanidades Digitales de la Universidad de Lancaster: |

]]>
DECM en el Conferencia de Humanidades Espaciales /digging-ecm/es/2018/10/decm-en-el-conferencia-de-humanidades-espaciales/ Tue, 02 Oct 2018 09:07:37 +0000 http://www.lancaster.ac.uk/digging-ecm/?p=1871

Hace un par de semanas, se celebr贸 en la Universidad de Lancaster la (del 20 al 21 de septiembre), en la que se profundiz贸 en el papel de tecnolog铆as geoespaciales, como los Sistemas de Informaci贸n Geogr谩fica (SIG), y su contribuci贸n a la investigaci贸n en humanidades. Uno de los principales objetivos fue mostrar y analizar las aportaciones que han proporcionado estas tecnolog铆as al conocimiento, enfoques y m茅todos dentro y fuera de las humanidades digitales. Si quieres leer m谩s sobre la c贸mo fue la conferencia, echa un vistazo al publicado en la p谩gina web del Departamento de Historia de la Universidad de Lancaster o sigue la discusi贸n en Twitter siguiendo .

Photo of opening presentation at the Spatial Humanities Conference

En la conferencia, el proyecto Digging Into Early Colonial M茅xico realiz贸 dos presentaciones. El primer d铆a, el (Universidad de Lisboa) present贸 Exploring the challenges of Named Entity Recognition in an historical multilingual corpus: Digging into Early Colonial Mexico鈥, en la que se centr贸 en dos de los principales objetivos de nuestro proyecto: la creaci贸n del primer diccionario geogr谩fico digital espa帽ol-n谩huatl del siglo XVI y tambi茅n de un sistema de informaci贸n geogr谩fica para Nueva Espa帽a. Como mencionamos en una , nuestro corpus presenta un desaf铆o clave para el procesamiento del lenguaje natural (NLP): 驴c贸mo podemos realizar con precisi贸n las tareas de reconocimiento de entidades nombradas en un corpus multiling眉e, y particularmente uno con una combinaci贸n de idiomas europeos y no europeos? La presentaci贸n de Bruno abord贸 estos desaf铆os y examin贸 las diferentes soluciones posibles, adem谩s de mostrar algunos resultados preliminares de los experimentos de NLP realizados hasta ahora en nuestro proyecto.

En el segundo, y 煤ltimo d铆a de la conferencia, la (Universidad de Lancaster) present贸 鈥楧evelopment of an Historical Place-Name Gazetteer for the Viceroyalty of New Spain鈥. Su presentaci贸n describi贸 los principios fundamentales detr谩s del desarrollo de nuestro diccionario geogr谩fico, el proceso utilizado para recopilar e integrar datos de m煤ltiples fuentes, el software con el que administrar y exportar los datos (disponible como c贸digo abierto en (), y las lecciones aprendidas de nuestros esfuerzos que podr铆an ser 煤tiles para la creaci贸n de recursos similares. Nuestro diccionario geogr谩fico ha adoptado el modelo de datos del , que ya considera la asociaci贸n de lugares a m煤ltiples nombres de lugares, caracter铆sticas, informaci贸n espacial detallada, calidad de la informaci贸n y procedencia, y rangos temporales para todos los elementos mencionados. Para ver c贸mo nuestras maravillosas tablas se relacionan, haga clic .

Adem谩s de estas dos presentaciones sobre nuestro proyecto, nuestra Investigadora Principal, la , fue la encargada de la ponencia de apertura de la conferencia, 鈥楽ubaltern Spatial Thinking: Reflections on the technological integration of non-western and non-cartographic thinking in Humanities research鈥. En un repaso de c贸mo se ha adoptado el SIG en la investigaci贸n de Humanidades y los problemas que esto podr铆a acarrear, Paty habl贸 sobre c贸mo la cartograf铆a puede ser vista como una herramienta hegem贸nica y relacionada con el poder colonial, y c贸mo las Humanidades necesitan una visi贸n cr铆tica sobre la adopci贸n de este o cualquier otra tecnolog铆a. En su reflexi贸n incluy贸 ejemplos de la concepci贸n espacial mesoamericana y colonial que pueden ser desconocidos para una mirada moderna y centrada en el oeste, abogando por un enfoque poscolonial en el uso las tecnolog铆as. La charla incluy贸 un recorrido por el y algunos de los mapas de las Relaciones Geogr谩ficas del siglo XVI.

Esta ponencia de apertura estableci贸 un valioso esp铆ritu cr铆tico durante la conferencia, destacando la necesidad por abogar por un pensamiento no-occidental y no-cartogr谩fico en la investigaci贸n de Humanidades Espaciales, as铆 como la importancia de reconocer m茅todos alternativos para representar y analizar el espacio y el lugar en la investigaci贸n hist贸rica.

]]>
Anotaci贸n del Corpus con Tagtog /digging-ecm/es/2018/08/anotacion-del-corpus-con-tagtog/ Tue, 28 Aug 2018 08:46:34 +0000 http://www.lancaster.ac.uk/digging-ecm/?p=1847

Un elemento clave de nuestra investigaci贸n sobre las Relaciones Geogr谩ficas es el an谩lisis de la informaci贸n textual contenida en los informes del siglo XVI. Para ello, utilizaremos t茅cnicas computacionales, concretamente procesamiento de lenguaje natural (NLP) y aprendizaje autom谩tico (ML). Si bien estas disciplinas presentan un amplio recorrido, la gran mayor铆a de la investigaci贸n la han realizado utilizando idiomas modernos y, mayoritariamente, ingl茅s.

Nuestro corpus no es ni moderno ni est谩 en ingl茅s. Las Relaciones Geogr谩ficas fueron escritas en el siglo XVI por funcionarios espa帽oles, en las que contribuyeron ind铆genas de todo M茅xico. La mezcla de idiomas espa帽ol e ind铆genas a lo largo de las Relaciones plantea un desaf铆o para estos m茅todos computacionales que, en su mayor铆a, han sido entrenados con textos recientes. Por ello, nos enfrentamos a la tarea de entrenar nuestro propio sistema de NLP que tiene en cuenta los desaf铆os 煤nicos que presentan las Relaciones Geogr谩ficas.

Anotaci贸n del Corpus

Recientemente, hemos establecido una colaboraci贸n con , una compa帽铆a de tecnolog铆a NLP, que ha desarrollado una herramienta de anotaci贸n de texto en l铆nea capaz de desarrollar modelos para anotar grandes cantidades de informaci贸n textual. Tagtog ofrece una versi贸n gratuita que permite a un 煤nico usuario trabajar con hasta 100 documentos y utilizar sus capacidades de anotaci贸n autom谩tica de Machine Learning. Puedes consultar sus planes gratuitos y pagos en su .

Por el momento, hemos utilizado Tagtog para anotar algunos extractos de nuestro corpus. Entendemos por anotaci贸n el hecho de asignar metadatos a t茅rminos o frases espec铆ficos para entrenar a la m谩quina y que sea capaz de reconocer palabras clave. Por ejemplo, en el siguiente fragmento de texto hemos etiquetado “Yenynguia” como un top贸nimo -se puede observar como este lugar tambi茅n se conoce como Coyula, hecho que se puede registrar mediante el uso de diccionarios, como explicaremos m谩s adelante en este post-.

an excerpt from the Relacion de Papaloticpac (in Antequera) which shows some annotation of our corpus using the tagtog interface

Antes de comenzar a anotar, es importante definir los tipos de entidades que necesitamos identificar dentro del texto. Comenzamos con algunas categor铆as clave -como top贸nimos, instituciones y caracter铆sticas geogr谩ficas-, y desde entonces hemos ampliado el n煤mero de categor铆as a cuarenta, para que sean capaces de reflejar la diversa naturaleza de la informaci贸n que contienen las Relaciones. Este es un n煤mero ingente de categor铆as para la anotaci贸n y 隆Tagtog se est谩 portando maravillosamente bien hasta ahora!

A continuaci贸n, se muestra un extracto de la Relaci贸n de Papaloticpac (Antequera) que una idea del tipo de informaci贸n que hemos estado anotando con Tagtog.

a screenshot showing an excerpt from the Relacion de Papaloticpac (in Antequera) which shows the tagtog interface

Dentro de las primeras 800 palabras de esta Relaci贸n, encontramos informaci贸n 煤til entre la que destacan los numerosos pueblos del 谩rea y la ubicaci贸n de los unos respecto a los otros. Tambi茅n, los nombres de aquellos se帽ores relevantes, calificados de “ilustres鈥 y “muy excelentes”, involucrados en la producci贸n de este informe, as铆 como algunas pinceladas de las caracter铆sticas geogr谩ficas del 谩rea, con cerros, sierras y quebradas. Toda esta valiosa informaci贸n es la que queremos ser capaces de extraer con el an谩lisis de los textos.

Diccionarios

Como se mencion贸 anteriormente, en los casos en que tenemos nombres alternativos para un top贸nimo (Yenynguia = Coyula), es posible utilizar diccionarios para decirle a la computadora que estas entidades son una misma cosa. Con las inconsistencias de la ortograf铆a en las Relaciones Geogr谩ficas, la normalizaci贸n de las entidades es esencial. F铆jate en las primeras l铆neas del texto anterior, se nos dan tres formas diferentes de deletrear el nombre del pueblo: tras ‘Papaloticpac’, tenemos ‘Papaloticpaque’ y ‘Papalotiquipaque’. Por supuesto, todas se refieren al mismo lugar, pero el ordenador necesita que se lo especifiquen. En Tagtog, esto es posible gracias al uso de diccionarios que permiten la normalizaci贸n de las entidades. Por ello, en el caso de 鈥淧apaloticpac鈥, incluir铆amos cada ortograf铆a en el 鈥渄iccionario鈥 de la siguiente manera:

an example to show how to format a dictionary entry in tagtog

(Ten en cuenta que las may煤sculas de cada palabra tambi茅n han de incluirse para que la m谩quina reconozca esto como una coincidencia)

Nuestros siguientes pasos, una vez que hayamos anotado algo m谩s del corpus, ser谩n entrenar un modelo usando las anotaciones que hemos creado. Para hacer esto, a帽adiremos texto “sin procesar”, sin anotaciones, para que la m谩quina lo anote autom谩ticamente con lo que ha aprendido de nuestras anotaciones manuales y diccionarios. Por supuesto, esto no producir谩 un modelo de anotaci贸n 100% preciso, por lo que corregiremos manualmente cualquier error, repitiendo este proceso hasta que consigamos un nivel alto de precisi贸n. La capacidad de que un modelo pueda producir anotaciones autom谩ticas con exactitud permitir谩 una interacci贸n mucho m谩s intuitiva con nuestro corpus multiling眉e de m谩s de 3 millones de palabras.

]]>
Sitios, sitios y m谩s sitios /digging-ecm/es/2018/08/sitios-sitios-y-mas-sitios/ Tue, 28 Aug 2018 08:36:49 +0000 http://www.lancaster.ac.uk/digging-ecm/?p=1842

En nuestra 煤ltima publicaci贸n, , mencionamos los problemas a los que nos enfrentamos en la identificaci贸n autom谩tica de top贸nimos. Por ello, pensamos que valdr铆a la pena echar un vistazo a los top贸nimos con los que estamos trabajando e indagar en los porqu茅s de los enfoques computacionales que nos permitir谩n profundizar en la comprensi贸n de las Relaciones Geogr谩ficas.

Uno de nuestros primeros, y actuales, desaf铆os a los que nos enfrentamos en este proyecto es la identificaci贸n de miles de top贸nimos de Mesoam茅rica. Los principales recursos con los que contamos para crear nuestro diccionario geogr谩fico, incluyen:

de Rene Acu帽a

Las de Mercedes de la Garza

La de Alejandra Moreno Toscano

La de Francisco del Paso y Troncoso

y de Peter Gerhard

Nuestra primera tarea ha sido limpiar y convertir cada una de estas fuentes a un formato legible por la computadora, lo que nos ha permitido extraer los datos m谩s f谩cilmente. El OCR ha sido (a veces) un amigo imprescindible en esta parte del proceso, gracias al que hemos podido extraer todos los nombres de lugares que figuran en los 铆ndices de estos trabajos -corrigiendo los errores de OCR por el camino-, con un resultado de una lista de casi 14.500 top贸nimos. Por supuesto, muchos de 茅stos son duplicados o graf铆as alternativas del mismo lugar. Actualmente, estamos desambiguando estas listas de top贸nimos para asegurarnos de que nos estamos refiriendo a la ubicaci贸n correcta -describimos este proceso previamente en nuestra publicaci贸n , por si quieres profundizar en el tema-.

El siguiente gr谩fico ha sido creado a partir de la lista completa de top贸nimos enumerados en las ediciones de Rene Acu帽a de las Relaciones Geogr谩ficas, excluyendo ortograf铆as alternativas para el mismo lugar. Si hubi茅semos incluido la ortograf铆a alternativa, la lista habr铆a sido de m谩s de 6.200 nombres. Tal como estaba, hemos a帽adido una lista de alrededor de 4.900 top贸nimos.

Podemos observar como la influencia del idioma espa帽ol es clara, aunque no sorprendente, con nombres de santos destacados junto a caracter铆sticas comunes como 鈥渞铆o, valle y laguna鈥. Sin embargo, los top贸nimos ind铆genas siguen siendo prominentes, con menciones frecuentes de lugares espec铆ficos como Ac谩mbaro, Tlaxcala e Ixtlahuacan. Es destacable el caso de palabras como Yucu de origen mixteca, que significa 鈥渃olina鈥, y aparece 33 veces con una frecuencia similar a la de 鈥渧alle鈥. En la documentaci贸n que estamos manejando, las referencia a Yucu aparecen exclusivamente en la regi贸n de Antequera -actualmente Oaxaca-, debido a que es una regi贸n en la que convergen numerosas cadenas monta帽osas conocidas como el Complejo Oaxaque帽o o Complejo de Oaxaca.

La desambiguaci贸n de los miles de top贸nimos que se mencionan en las Relaciones Geogr谩ficas nos permitir谩 interactuar efectivamente con las fuentes documentales utilizando m茅todos computacionales. El uso de t茅cnicas como el An谩lisis de Colocaci贸n junto con nuestro diccionario geogr谩fico abrir谩 un amplio abanico de oportunidades para analizar los textos desde nuevas perspectivas, as铆 como profundizar en la identificaci贸n de asociaciones entre ubicaciones, entidades, temas, etc. Por ejemplo, ser谩 posible buscar Tlacotepec y determinar si este top贸nimo tiene alguna relaci贸n con otro lugar, persona o concepto. Adem谩s, de la posibilidad de buscar un Tlacotepec espec铆fico y cualquier otro nombre/ortograf铆a alternativa asociada para ese lugar en particular. Como se muestra en el siguiente mapa, los top贸nimos a menudo se repiten dentro de las mismas regiones 隆Por eso, es tan importante la desambiguaci贸n de nuestro corpus!

Map displaying multiple occurrences of the toponym Tlacotepec across central Mexico

Actualmente, tenemos un total de 3.650 nombres de lugares completamente desambiguados, lo que significa que hemos asignado coordenadas concretas a esos top贸nimos. Puedes ver una muestra de algunas de estas ubicaciones en la pesta帽a de nuestra web.

Tambi茅n, tenemos unos cuantos top贸nimos parcialmente localizados -es decir, de los que hemos sido capaces de identificar la regi贸n aproximada en la que se encuentran- y miles m谩s esperando la desambiguaci贸n. Estamos llegando a la mitad del camino … 隆justo por encima del pr贸ximo yucu!

]]>
Extraer y crear datos de las Relaciones Geogr谩ficas /digging-ecm/es/2018/08/extraer-y-crear-datos-de-las-relaciones-geograficas/ /digging-ecm/es/2018/08/extraer-y-crear-datos-de-las-relaciones-geograficas/#comments Mon, 13 Aug 2018 13:46:14 +0000 http://www.lancaster.ac.uk/digging-ecm/?p=1806

En los 煤ltimos meses, nuestro equipo ha sentando las bases de nuestra investigaci贸n sobre las Relaciones Geogr谩ficas y ha profundizado en el conocimiento de nuestro material original. A continuaci贸n, os mostramos un adelanto de nuestras capas SIG de top贸nimos que van creciendo exponencialmente.

El gran tama帽o y el formato no estandarizado de las Relaciones han significado que el estudio de estos documentos se haya basado anteriormente en una lectura atenta de los textos, lo que ha limitado el alcance de la investigaci贸n. Abordar este estudio desde una perspectiva interdisciplinar nos ofrece la oportunidad de involucrarnos con metodolog铆as computacionales innovadoras para crear nuevas oportunidades en el an谩lisis y el estudio de estos documentos hist贸ricos, mejorando el acceso y ampliando las posibilidades de la investigaci贸n.

Algunos de los problemas clave a los que nos enfrentaremos ser谩n: la capacidad de los m茅todos computacionales para tratar con corpora multiling眉e, la naturaleza ambigua de muchos top贸nimos mencionados dentro de las Relaciones o la inaccesibilidad general de textos hist贸ricos tan amplios y complejos como 茅ste.

Abordaremos estos problemas en colaboraci贸n como un equipo interdisciplinar, asegurando que nuestra investigaci贸n contribuya a los avances de cada uno de nuestros campos de estudio. Cada equipo aporta su propia experiencia al proyecto y, al trabajar en colaboraci贸n, estamos mejor equipados para hacer frente a los problemas que plantean materiales hist贸ricos tan extensos como las Relaciones Geogr谩ficas.

Uno de los desaf铆os clave a los que enfrentamos con las Relaciones Geogr谩ficas es el de la ling眉铆stica. Este corpus multiling眉e presenta una combinaci贸n de espa帽ol y una serie de lenguas ind铆genas (predominantemente n谩huatl) de todas partes. El siguiente fragmento demuestra uno de los problemas ling眉铆sticos a afrontar al tratar con estos documentos hist贸ricos: “Hun 4at” y “Oxi 4ahol” son los nombres ind铆genas en Quiche Maya para dos volcanes a los que se hace referencia en la Relaci贸n de Santiago Atitl谩n.

Con los sistemas de Procesamiento de Lenguajes Naturales generalmente entrenados con textos de noticias modernas, no podr铆an reconocer y etiquetar palabras en un idioma ind铆gena como Quiche, especialmente con el uso desconocido de un car谩cter num茅rico en un top贸nimo. Los m茅todos computacionales para el an谩lisis del lenguaje mejoran continuamente, aunque su uso en el an谩lisis de textos hist贸ricos y no ingleses todav铆a presenta muchos desaf铆os. Nuestro proyecto tiene como objetivo abordar estos problemas y mejorar los m茅todos para el an谩lisis de documentos hist贸ricos complejos, como las Relaciones Geogr谩ficas.

D茅janos tus comentarios y/o . Si deseas leer m谩s sobre miembros individuales de nuestro equipo, consulta nuestra p谩gina de .

]]>
/digging-ecm/es/2018/08/extraer-y-crear-datos-de-las-relaciones-geograficas/feed/ 2
SIG Hist贸rico /digging-ecm/es/2018/08/sig-historico/ Mon, 13 Aug 2018 13:36:16 +0000 http://www.lancaster.ac.uk/digging-ecm/?p=1792

En el proyecto, una gran parte de nuestro tiempo hasta el momento se ha dedicado a los SIG y a la creaci贸n de mapas que reflejan los l铆mites geogr谩ficos tal como exist铆an en el siglo XVI en Mesoam茅rica. El trabajo de y ha sido una fuente inestimable de informaci贸n, proporcionando estudios detallados de la geograf铆a hist贸rica de Nueva Espa帽a en los a帽os posteriores a la llegada de los 别蝉辫补帽辞濒别蝉.

Los mapas que Gerhard produjo se centraron principalmente en las fronteras administrativas impuestas por los espa帽oles en el siglo XVI. Nosotros hemos utilizado estos mapas como punto de partida, creando capas SIG que reflejan los l铆mites tal como los describe Gerhard:

Si bien algunas de estas unidades administrativas se construyeron sobre sistemas de gobierno ind铆genas preexistentes y bien establecidos, en 煤ltima instancia reflejan una geograf铆a administrativa espa帽ola, dividida en 诲颈贸肠别蝉颈蝉, audiencias y provincias, con top贸nimos identificados que corresponden a alcald铆as mayores y corregimientos 别蝉辫补帽辞濒别蝉.

Por supuesto, la geograf铆a hist贸rica de Mesoam茅rica no comenz贸 con el establecimiento de unidades administrativas espa帽olas, y nuestro objetivo es producir una imagen m谩s representativa de la geograf铆a del siglo XVI en Mesoam茅rica. La identificaci贸n de los top贸nimos hist贸ricos ser谩 clave para nuestra comprensi贸n de las geograf铆as ind铆genas e hist贸ricas, y actualmente estamos creando capas SIG que localizan estos top贸nimos.

El proceso para realizar 茅sto ha sido sencillo, pero largo, ya que solo puede ser semiautomatizado. Para ello, comenzamos con la digitalizaci贸n de varios 铆ndices geogr谩ficos incluidos en las obras de Peter Gerhard, Mercedes de la Garza, Ren茅 Acu帽a, Francisco del Paso y Troncoso y Alejandra Moreno Toscano. Estos 铆ndices contienen miles de top贸nimos a los que se hace referencia en las Relaciones Geogr谩ficas. Con estas listas compiladas, pasamos a hacer referencias cruzadas o unir estas tablas con los datos geogr谩ficos existentes, derivados de diversas fuentes, entre las que se incluyen fuentes hist贸ricas secundarias como y .

Por supuesto, los cambios en el tiempo y las variaciones en la escritura de los top贸nimos dan lugar a que la uni贸n de estos conjuntos de datos no puede depender 煤nicamente de que el ordenador reconozca coincidencias id茅nticas. Por ello, nuestra Investigadora Asociada del Reino Unido, la Dra. Raquel Liceras Garrido en colaboraci贸n con nuestra Investigadora Asociada de M茅xico, Mariana Favila-V谩zquez, han encabezado la laboriosa tarea de localizar los miles de top贸nimos para los que no hab铆a coincidencia con los datos geogr谩ficos existentes. En esta empresa monumental, el proceso se complica a煤n m谩s por el hecho de que a menudo hay numerosos nombres para el mismo lugar (隆y estos multiples nombres tienen muchas formas de escritura alternativa!). Por ejemplo, en todo el registro hist贸rico, Ixtacamaxtitl谩n en actual en el estado de Puebla se conoce por diferentes nombres, tales como San Francisco Iztaquimaxtitlan, S Francisco Iztaquimaxtitlan, Istac-ymachtitlan, Estacquimestitlan, Itztaquimitztitlan o Castilblanco.

Los top贸nimos a menudo se repiten en toda Am茅rica (y sino empecemos por aquellos llamados San Juan) y adem谩s hay numerosos casos en los que no es posible determinar la ubicaci贸n exacta de un nombre de lugar. La experiencia de nuestros colegas de M茅xico, Mariana Favila V谩zquez y el Dr. Diego Jim茅nez-Badillo, es indispensable en la desambiguaci贸n de cientos de estos top贸nimos. Para los nombres de lugares que no hemos podido localizar, nuestro equipo mexicano ha realizado investigaciones hist贸ricas para asignarles coordenadas. As铆, para aquellos top贸nimos que han logrado evadir todas nuestras investigaciones (隆por ahora!), nuestro equipo en M茅xico ha podido determinar la regi贸n en la que se encontraban.

Esta investigaci贸n tambi茅n ser谩 imprescindible en nuestros experimentos llevados a cabo en colaboraci贸n con el equipo portugu茅s sobre el reconocimiento autom谩tico de la entidad designada multiling眉e y la desambiguaci贸n geogr谩fica y ling眉铆stica de top贸nimos, que ser谩 la siguiente etapa de nuestra investigaci贸n.

]]>