Automatic Evaluation | Wadhwani School of Data Science and Artificial Intelligence

Towards a Better Metric for Evaluating Question Generation Systems

Publications

There has always been criticism for using ngram based similarity metrics, such as BLEU, NIST, etc, for evaluating the performance of NLG systems. However, these metrics continue to remain popular and are recently being …

Tags: automatic question generation, automatic evaluation