Language Models can Subtly Deceive Without Lying: A Case Study on Strategic Phrasing in Legislation | Wadhwani School of Data Science and Artificial Intelligence

https://doi.org/10.48550/arXiv.2405.04325

Authors

Dogra, Atharvan , Pillutla, Krishna , Deshpande, Ameet , Sai, Ananya B , Nay, John , Rajpurohit, Tanmay , Kalyan, Ashwin , Ravindran, Balaraman

Preprint Server

arXiv

Atharvan Dogra, Krishna Pillutla, Ameet Deshpande, Ananya B Sai, John Nay, Tanmay Rajpurohit, Ashwin Kalyan, Balaraman Ravindran.“Deception in reinforced autonomous agents”

Preprint link: https://arxiv.org/abs/2405.04325v2