TOWARDS NEW REPRESENTATIONS OF DOCUMENTS FOR AUTHOR PROFILING IN DIGITAL TEXTS

LÓPEZ SANTILLÁN , JESÚS ROBERTO (2021) TOWARDS NEW REPRESENTATIONS OF DOCUMENTS FOR AUTHOR PROFILING IN DIGITAL TEXTS. Doctorado en Ingenierías thesis, UNIVERSIDAD AUTONOMA DE CHIHUAHUA.

[img]
Vista Previa
Text
Obra -tesis doctoral 113153.pdf

Download (96Mb) | Vista Previa

Resumen

El perfilado de autores (AP por sus siglas en ingles) trata de la predicción de características personales de los autores detrás de un texto. Para que un algoritmo computacional pueda comprender las “palabras” que un humano usa, estas deben ser representadas por medio de entidades numéricas, tales como vectores en un espacio n-dimensional. Un método novedoso para lograr esto son los conocidos vectores de palabras o word embeddings (WE), los cuales pueden ser comprendidos como vectores altamente densos los cuales codifican el significado de las palabras. Se pueden incluso producir “embeddings” a nivel documento en vez de solamente para palabras. Teóricamente estos vectores de documentos pueden ser incluso mas densos y comúnmente se les conoce como Document Embeddings (DE por sus siglas en ingles). En el primer método propuesto en esta tesis se introdujo una nueva medida para valorar la importancia de las palabras, al cual se le llamó valor de relevancia del tópico (relevance topic value, rtv). Así mismo, se implemento un enfoque que utiliza programación genética (GP por sus siglas en ingles) para “evolucionar” esquemas de pesado que mezclen esta y otras estadísticas de valoración de importancia de términos. En la segunda parte de esta disertación doctoral se introdujo un modelo neuronal novedoso basado en redes neuronales profundas (DNN por sus siglas en ingles). Esta nueva arquitectura propuesta se inspira en redes Wide & Deep y en el mecanismo de atención del modelo denominado Transformer. Esta nueva propuesta fue bautizada como el “Profiler” o el Wide & Deep Transformer (WD-T). Ambas estrategias se evaluaron en datasets de siete competencias internacionales en AP para los años 2013 al 2019. En resumen, en esta tesis se presentan dos enfoques para abordar el problema de AP, ambas estrategias obtuvieron resultados que incluso se pueden considerar estado del arte, por lo que se logro demostrar las hipótesis que dieron lugar a ambas propuestas, contribuyendo así al avance científico en el área de AP/NLP.

Tipo de Documento: Tesis (Doctorado en Ingenierías)
Palabras Clave: Perfilado de autores, Programación genética, Esquemas de ponderación, Redes Wide & Deep, La red neuronal Transformer
Clasificación temática: Q Science > QA Mathematics > QA76 Computer software
Usuario Remitente: Admin Administrador del Respositorio
Depositado: 25 Oct 2021 16:07
Ultima Modificación: 05 Oct 2022 16:11
URI: http://repositorio.uach.mx/id/eprint/371

Actions (login required)

Ver Objeto Ver Objeto

Universidad Autonoma de Chihuahua