Creación de un Framework para el tratamiento de corpus lingüísticos = Development of a Framework for corpus linguistic analysis

Repositorio Dspace/Manakin

Creación de un Framework para el tratamiento de corpus lingüísticos = Development of a Framework for corpus linguistic analysis

Mostrar el registro completo del ítem

Título: Creación de un Framework para el tratamiento de corpus lingüísticos = Development of a Framework for corpus linguistic analysis
Autor: Sanjurjo González, Hugo
Director/es: Alaiz Moretón, Héctor
Rabadán, Rosa
Facultad/Centro: Escuela de Ingenierias Industrial e Informatica
Area de conocimiento: Ingenieria de Sistemas y Automatica
Resumen: A pesar de los indudables avances en el software para el tratamiento de corpus lingüísticos en los últimos tiempos, ya sea por medio de procesamiento de corpus cada vez más grandes o inclusión de estadísticas más complejas, sigue sin tenerse en cuenta la usabilidad y el perfil no técnico del usuario final. La situación resulta más evidente cuando se trabaja con lenguas distintas del inglés y con combinaciones de lenguas, ya que la tipología y especificidad de las mismas incide en los requisitos del software, y por este motivo la disponibilidad de recursos es menor y de peor calidad. El estado de la cuestión revela que la creación de corpus lingüísticos bi-/multilingües paralelos o comparables, así como la incorporación de etiquetados lingüísticos en los frameworks para el tratamiento de corpus lingüísticos ya existentes, obliga al usuario a disponer de ciertos conocimientos de programación, o al menos a saber ejecutar programas con usabilidad reducida y/o scripts informáticos propios, para ajustar el corpus a los requisitos establecidos por el framework utilizado. Si no se dan estas condiciones, es indispensable contar con especialistas técnicos con habilidades en programación y NLP (por sus siglas en inglés Natural Language Processing). El objetivo de la tesis doctoral es, por tanto, el desarrollo de un software, denominado ACTRES Corpus Manager, que permita a los usuarios lingüistas construir sus propios corpus lingüísticos (monolingües, paralelos bi-/multilingües o comparables) con distintas capas de anotación (gramatical, semántica o retórica) y obtener datos lingüísticos y estadísticos sin necesidad sin necesidad de asistencia técnica en ningún punto del proceso e independientemente de las habilidades técnicas del usuario. La estrategia seleccionada para el desarrollo de ACTRES Corpus Manager es la creación de un framework accesible vía web formado por distintos componentes interconectados entre sí. Cada actividad necesaria para la creación de un corpus es asignada a cada uno de estos componentes, posibilitando su fácil modificación y reutilización. ACTRES Corpus Manager combina la utilización de recursos software de terceros, cuya eficiencia y validez haya sido demostrada (ej. The IMS Corpus Workbench, Treetagger, hunalign, etc.), junto con soluciones software propias en aquellos procesos que el estado de la cuestión ha relevado más inmaduros y/o complejos de integrar (etiquetador retórico, etiquetador semántico, etc.). Por último, señalar que la interfaz de consulta de ACTRES Corpus Manager se inspira en P-ACTRES 2.0 y permite la realización de consultas complejas asistidas, basadas en expresiones regulares, así como la extracción de las estadísticas habituales, sin necesidad de que el usuario disponga de conocimientos específicos de la sintaxis del lenguaje de consulta utilizado
Descripción física: 436 p.
URI: http://hdl.handle.net/10612/6920
Fecha: 2017-11-13
Fecha de lectura: 2017-09-20
Tipo: info:eu-repo/semantics/doctoralThesis
Materia: Lengua inglesa
Palabras clave: Lenguajes de programación
Framework
Lingüística computacional
Corpus lingüísticos
Derechos de acceso: info:eu-repo/semantics/openAccess
Exportar referencia a Refworks:


Ficheros en el ítem

Ficheros Tamaño Formato Ver Descripción
Tesis Hugo Sanjurjo.pdf 10.37Mb PDF Ver/Abrir Tesis de Hugo Sanjurjo

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro completo del ítem

Buscar en BULERIA


Búsqueda avanzada

Listar

Mi cuenta

Estadísticas