Loading...
Compilação de Corpos Comparáveis Especializados: Devemos sempre confiar nas Ferramentas de Compilação Semi-automáticas?
Costa, Hernani ; Muñoz, Isabel Dúran ; Pastor, Gloria Corpas ; Mitkov, Ruslan
Costa, Hernani
Muñoz, Isabel Dúran
Pastor, Gloria Corpas
Mitkov, Ruslan
Editors
Other contributors
Affiliation
Epub Date
Issue Date
2016-07-22
Submitted date
Alternative
Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools?
Abstract
Decisões tomadas anteriormente à compilação de um corpo comparável têm um grande impacto na forma em que este será posteriormente construído e analisado. Diversas variáveis e critérios externos são normalmente seguidos na construção de um corpo, mas pouco se tem investigado sobre a sua distribuição de similaridade textual interna ou nas suas vantagens qualitativas para a investigação. Numa tentativa de preencher esta lacuna, este artigo tem como objetivo apresentar uma metodologia simples, contudo eficiente, capaz de medir o grau de similaridade interno de um corpo. Para isso, a metodologia proposta usa diversas técnicas de processamento de linguagem natural e vários métodos estatísticos, numa tentativa bem sucedida de avaliar o grau de similaridade entre documentos. Os nossos resultados demonstram que a utilização de uma lista de entidades comuns e um conjunto de medidas de similaridade distribucional são suficientes, não só para descrever e avaliar o grau de similaridade entre os documentos num corpo comparável, mas também para os classificar de acordo com seu grau de semelhança e, consequentemente, melhorar a qualidade do corpos através da eliminação de documentos irrelevantes.
Citation
Costa, H., Dúran Muñoz, I., Corpas Pastor, G., & Mitkov, R. (2016) Compilação de Corpos Comparáveis Especializados: Devemos sempre confiar nas Ferramentas de Compilação Semi-automáticas?. Linguamática, 8(1), 3-19.
Journal
Research Unit
DOI
PubMed ID
PubMed Central ID
Embedded videos
Additional Links
Type
Journal article
Language
other
Description
© 2016 The Authors. Published by Universidade de Vigo & Universidade do Minho. This is an open access article available under a Creative Commons licence.
The published version can be accessed at the following link on the publisher’s website: https://linguamatica.com/index.php/linguamatica/article/view/v8n1-1
Series/Report no.
ISSN
1647-0818