Resolución de topónimo - Toponym resolution

En los sistemas de información geográfica , la resolución de topónimos es el proceso de relación entre un topónimo , es decir, la mención de un lugar, y una huella espacial inequívoca del mismo lugar.

Históricamente, los colonos emigrantes han utilizado los mismos nombres geográficos para denotar sus nuevos hogares, lo que lleva a una ambigüedad referencial de los nombres de los lugares. A veces, el nombre original se modifica (como en "York" frente a "Nueva York"). En muchos casos, un nombre se reutiliza sin modificaciones ("Boston" en Inglaterra, Reino Unido frente a "Boston" en Massachusetts, EE. UU.). Para mapear un conjunto de topónimos o topónimos que se encuentran en un documento a sus correspondientes coordenadas de latitud / longitud , un polígono o cualquier otra huella espacial, es necesario un paso de desambiguación. Un algoritmo de resolución de topónimos es un método automático que realiza un mapeo de un topónimo a una huella espacial.

La mayoría de los métodos para la resolución de topónimos emplean un nomenclátor de posibles asignaciones entre nombres y huellas espaciales.

Proceso de resolución

La "huella espacial inequívoca del mismo lugar" de definición puede ser de hecho inequívoca o "no tan inequívoca". Hay algunos contextos diferentes de incertidumbre donde puede ocurrir el proceso de resolución:

Cuando la evidencia es geográfica y sin incertidumbre. Por ejemplo, para obtener el nombre del país de un lugar de fotografía, cuando el lugar es una posición GPS (10 metros de error), a 1000 km de las fronteras del país.

Cuando la evidencia es geográfica, pero con considerable incertidumbre. Imagine un escenario similar en el que el error de GPS es de 100 metros y el lugar está cerca de, ~ 100 metros, de las fronteras del país.

Cuando la evidencia es solo textual. Imagine una carta en la que el narrador es un turista que cuenta su viaje después de regresar de vacaciones. Las únicas evidencias son textuales, en la narrativa.

Fuentes de evidencia mixtas: más de una evidencia, ninguna precisa.

De evidencia geográfica

La resolución del topónimo a veces es una simple conversión de nombre a abreviatura, en especial cuando la abreviatura se utiliza como código geográfico estándar . Por ejemplo, convertir el nombre oficial del país de Afganistán en un código de país ISO , AF.

En la anotación de medios y metadatos , la conversión utilizando un mapa y la evidencia geográfica (por ejemplo, GPS), es el enfoque más habitual para obtener un topónimo, o un geocódigo que representa el topónimo.

De evidencia textual

A diferencia de la codificación geográfica de direcciones postales, que normalmente se almacenan en registros de bases de datos estructuradas , la resolución de topónimos se aplica normalmente a grandes colecciones de documentos de texto no estructurados para asociar las ubicaciones mencionadas en ellos con mapas.

El proceso de anotar medios (por ejemplo, imágenes, texto, video) utilizando huellas espaciales se conoce como geoetiquetado . Para geoetiquetar automáticamente un documento de texto, generalmente se llevan a cabo los siguientes pasos: reconocimiento de topónimos (es decir, detectar referencias textuales a ubicaciones geográficas) y resolución de topónimos (es decir, seleccionar una interpretación de ubicación apropiada para cada referencia geográfica).

El reconocimiento de topónimos se puede considerar como un caso especial de reconocimiento de entidad nombrada donde el objetivo es simplemente derivar entidades de ubicación. Sin embargo, el resultado del reconocimiento de entidades nombradas se puede mejorar aún más utilizando reglas hechas a mano o reglas estadísticas.

Para obtener interpretaciones de ubicación, los modelos de resolución tienden a aprovechar los índices geográficos (es decir, enormes bases de datos de ubicaciones) como GeoNames y OpenStreetMap . Un enfoque ingenuo para resolver topónimos es elegir la interpretación más poblada de la lista de candidatos. Por ejemplo, en el siguiente extracto:

Toronto, hombre que vive y trabaja en Londres, tiene un futuro incierto en el Reino Unido después del Brexit

- CBC

El enfoque ingenuo parece viable ya que los topónimos Toronto y Londres se refieren a su interpretación más común, ubicada en Canadá y Gran Bretaña respectivamente, mientras que en el siguiente artículo de una noticia:

Tren de alta velocidad entre Toronto y Londres para 2025

- CBC

Este enfoque no identifica el topónimo de Londres como la ciudad ubicada en Ontario, Canadá . Por lo tanto, seleccionar la población más alta no puede funcionar bien para topónimos en un contexto localizado.

Además, la resolución de topónimos no aborda la metonimia en general. No obstante, una técnica de resolución puede eliminar la ambigüedad de una referencia de metonimia siempre que se identifique como topónimo en la fase de reconocimiento. Por ejemplo, en el siguiente extracto:

Canadá también está ajustando sus leyes de conducción para tener en cuenta los DUI de cannabis.

- Esquire

Canadá indica una metonimia y se refiere al "gobierno de Canadá". Sin embargo, puede ser identificado como una ubicación por un reconocedor de entidad con nombre genérico y, por lo tanto, un solucionador de topónimos puede eliminar la ambigüedad.

Enfoques

Los métodos de resolución de topónimos se pueden dividir generalmente en modelos supervisados y no supervisados . Los métodos supervisados suelen plantear el problema como una tarea de aprendizaje en la que el modelo primero extrae características contextuales y no contextuales y luego, se entrena un clasificador en un conjunto de datos etiquetado. El modelo adaptativo es uno de los modelos destacados propuestos en la resolución de topónimos. Para cada interpretación de un topónimo, el modelo deriva características sensibles al contexto basadas en la proximidad geográfica y las relaciones entre hermanos con otras interpretaciones. Además de las funciones relacionadas con el contexto, el modelo se beneficia de las funciones sin contexto, incluida la población y la ubicación de la audiencia. Por otro lado, los modelos sin supervisión no garantizan datos anotados. Son superiores a los modelos supervisados cuando el corpus anotado no es lo suficientemente grande y los modelos supervisados pueden no generalizar bien.

Los modelos no supervisados tienden a aprovechar mejor la interacción de los topónimos mencionados en un documento. El modelo de fusión de contexto y jerarquía estima el alcance geográfico de los documentos y aprovecha las conexiones entre los nombres de lugares cercanos como evidencia para resolver topónimos. Mediante la asignación del problema a un problema de cobertura de conjunto libre de conflictos , este modelo logra una resolución coherente y sólida.

Además, la adopción de Wikipedia y las bases de conocimientos ha demostrado ser eficaz en la resolución de topónimos. TopoCluster modela los sentidos geográficos de las palabras mediante la incorporación de páginas de Wikipedia de ubicaciones y elimina la ambigüedad de los topónimos utilizando los sentidos espaciales de las palabras en el texto.

Geoparsing

Geoparsing es un proceso especial de resolución de topónimos que convierte descripciones de lugares en texto libre (como "veinte millas al noreste de Jalalabad") en identificadores geográficos inequívocos, como coordenadas geográficas expresadas como latitud - longitud . También se pueden geoparar referencias de ubicación de otras formas de medios, por ejemplo, contenido de audio en el que un hablante menciona un lugar. Con coordenadas geográficas, las características se pueden mapear e ingresar en los sistemas de información geográfica . Los dos usos principales de las coordenadas geográficas derivadas de contenido no estructurado son trazar partes del contenido en mapas y buscar el contenido usando un mapa como filtro.

Geoanálisis sintáctico va más allá de geocodificación . La codificación geográfica analiza referencias de ubicación estructuradas sin ambigüedades, como direcciones postales y coordenadas numéricas con formato riguroso. Geoparsing maneja referencias ambiguas en el discurso no estructurado, como "Al Hamra", que es el nombre de varios lugares, incluidas ciudades de Siria y Yemen.

Un geoparser es una pieza de software o un servicio (web) que ayuda en este proceso. Algunos ejemplos:

GEOLocate georreferenciación automatizada
BioGeomancer - Georreferenciación semiautomática
Servidor de nombres GEOnet : información GIS disponible de forma gratuita para áreas fuera de EE. UU. Y la Antártida, actualizada mensualmente por la Agencia Nacional de Inteligencia Geoespacial (NGA) y la Junta de Nombres Geográficos de EE. UU. (US BGN)
Sistema de información de nombres geográficos (GNIS) : base de datos de libre acceso que contiene información sobre casi 2 millones de características físicas, lugares y puntos de referencia en los EE. UU.
CLAVIN - CLAVIN (Cartographic Location And Vicinity INdexer) es un paquete de software de código abierto para geoetiquetado y análisis geográfico de documentos que emplea resolución de entidad geográfica basada en el contexto.
Geoparser.io : Geoparser.io es un servicio web que identifica los lugares mencionados en el texto, elimina la ambigüedad de esos lugares y devuelve GeoJSON con metadatos detallados sobre los lugares que se encuentran en el texto.
Geocode.xyz : Geocode.xyz es un servicio web que identifica tanto los nombres de lugares como las direcciones de calles mencionadas en el texto.
geoparsepy : geoparsepy es una biblioteca gratuita de análisis geográfico de Python que admite la identificación de ubicación de texto libre y la eliminación de ambigüedades utilizando la base de datos OpenStreetMap

Languages

In other projects

Resolución de topónimo - Toponym resolution

Contenido

Proceso de resolución

De evidencia geográfica

De evidencia textual

Enfoques

Geoparsing

Referencias

Ver también