Publications

You can also find my articles on my Google Scholar.

Preprints

Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, and Maosong Sun. Configurable Foundation Models: Building LLMs from a Modular Perspective. [arxiv]
Jianhui Chen*, Xiaozhi Wang*, Zijun Yao, Yushi Bai, Lei Hou, Juanzi Li. Finding Safety Neurons in Large Language Models. [arxiv]
Hao Peng*, Xiaozhi Wang*, Chunyang Li, Kaisheng Zeng, Jiangshan Duo, Yixin Cao, Lei Hou, Juanzi Li. Event-level Knowledge Editing. [arxiv]
Hao Peng*, Xiaozhi Wang*, Jianhui Chen*, Weikai Li, Yunjia Qi, Zimu Wang, Zhili Wu, Kaisheng Zeng, Bin Xu, Lei Hou, Juanzi Li. When does In-context Learning Fall Short and Why? A Study on Specification-Heavy Tasks. [arxiv]
Yuan Yao, Qingxiu Dong, Jian Guan, Boxi Cao, Zhengyan Zhang, Chaojun Xiao, Xiaozhi Wang, Fanchao Qi, Junwei Bao, Jinran Nie, Zheni Zeng, Yuxian Gu, Kun Zhou, Xuancheng Huang, Wenhao Li, Shuhuai Ren, Jinliang Lu, Chengqiang Xu, Huadong Wang, Guoyang Zeng, Zile Zhou, Jiajun Zhang, Juanzi Li, Minlie Huang, Rui Yan, Xiaodong He, Xiaojun Wan, Xin Zhao, Xu Sun, Yang Liu, Zhiyuan Liu, Xianpei Han, Erhong Yang, Zhifang Sui, Maosong Sun. CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark. [arxiv]

Publications

* indicates equal contribution.

2025

Hao Peng, Yunjia Qi, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li. VERIF: Verification Engineering for Reinforcement Learning in Instruction Following. EMNLP 2025 [pdf] [code]
Yi Jing, Zijun Yao, Hongzhu Guo, Lingxu Ran, Xiaozhi Wang, Lei Hou, Juanzi Li. LinguaLens: Towards Interpreting Linguistic Mechanisms of Large Language Models via Sparse Auto-Encoder. EMNLP 2025 [pdf] [code]
Yunjia Qi*, Hao Peng*, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li. Constraint Back-translation Improves Complex Instruction Following of Large Language Models. CIKM 2025 [pdf] [code]
Yushi Bai, Shangqing Tu, Jiajie Zhang, Hao Peng, Xiaozhi Wang, Xin Lv, Shulin Cao, Jiazheng Xu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li. LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks. ACL 2025 [pdf] [Homepage]
Hao Peng*, Yunjia Qi*, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li. Agentic reward modeling: Integrating human preferences with verifiable correctness signals for reliable reward systems. ACL 2025 [pdf] [code]
Haowen Pan, Xiaozhi Wang, Yixin Cao, Zenglin Shi, Xun Yang, Juanzi Li, Meng Wang. Precise Localization of Memories: A Fine-grained Neuron-level Knowledge Editing Technique for LLMs. ICLR 2025 [pdf] [code]

2024

Ming Li*, Yusheng Su*, Hsiu-Yuan Huang, Jiali Cheng, Xin Hu, Xinmiao Zhang, Huadong Wang, Yujia Qin, Xiaozhi Wang, Zhiyuan Liu, Dan Zhang. Language-specific representation of emotion-concept knowledge causally supports emotion inference. iScience [pdf]
Chunyang Li*, Hao Peng*, Xiaozhi Wang, Yunjia Qi, Lei Hou, Bin Xu, Juanzi Li. MAVEN-Fact: A Large-scale Event Factuality Detection Dataset. Findings of EMNLP 2024 [pdf] [code & data]
Yunjia Qi*, Hao Peng*, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li. ADELIE: Aligning Large Language Models on Information Extraction EMNLP 2024 [pdf] [code]
Xiaozhi Wang, Hao Peng, Yong Guan, Kaisheng Zeng, Jianhui Chen, Lei Hou, Xu Han, Yankai Lin, Zhiyuan Liu, Ruobing Xie, Jie Zhou, Juanzi Li. MAVEN-Arg: Completing the puzzle of all-in-one event understanding dataset with event argument annotation. ACL 2024 [pdf] [code & data] (oral)
Yujia Qin*, Xiaozhi Wang*, Yusheng Su, Yankai Lin, Ning Ding, Zhiyuan Liu, Juanzi Li, Lei Hou, Peng Li, Maosong Sun, Jie Zhou. Exploring Universal Intrinsic Task Subspace via Prompt Tuning. IEEE/ACM Transactions on Audio, Speech, and Language Processing [pdf] [code]
Haowen Pan, Yixin Cao, Xiaozhi Wang, Xun Yang, Meng Wang. Finding and Editing Multi-Modal Neurons in Pre-Trained Transformers. Findings of ACL 2024 [pdf]
Shangqing Tu, Yuanchun Wang, Jifan Yu, Yuyang Xie, Yaran Shi, Xiaozhi Wang, Jing Zhang, Lei Hou, Juanzi Li. R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models. KDD2024 Applied Data Science Track [code]
Jifan Yu*, Xiaozhi Wang*, Shangqing Tu*, et al. KoLA: Carefully Benchmarking World Knowledge of Large Language Models. ICLR 2024 [pdf] [homepage]

2023

Yushi Bai*, Jiahao Ying*, Yixin Cao, Xin Lv, Yuze He, Xiaozhi Wang, Jifan Yu, Kaisheng Zeng, Yijia Xiao, Haozhe Lyu, Jiayin Zhang, Juanzi Li, Lei Hou. Benchmarking Foundation Models with Language-Model-as-an-Examiner. NeurIPS 2023 [pdf] [homepage]
Ji Qi, Chuchun Zhang, Xiaozhi Wang, Kaisheng Zeng, Jifan Yu, Jinxin Liu, Jiuding Sun, Yuxiang Chen, Lei How, Juanzi Li, Bin Xu. Preserving knowledge invariance: Rethinking robustness evaluation of open information extraction. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023) [pdf] [code] (Outstanding Paper Award, Oral)
Hao Peng*, Xiaozhi Wang*, Feng Yao, Zimu Wang, Chuzhao Zhu, Kaisheng Zeng, Lei Hou, Juanzi Li. OmniEvent: A comprehensive, fair, and easy-to-use toolkit for event understanding. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: System Demonstrations [pdf] [code] [Demo]
Ji Qi*, Jifan Yu*, Teng Tu, Kunyu Gao, Yifan Xu, Xinyu Guan, Xiaozhi Wang, Yuxiao Dong, Bin Xu, Lei Hou, Juanzi Li, Jie Tang, Weidong Guo, Hui Liu, Yu Xu. GOAL: A challenging knowledge-grounded video captioning benchmark for real-time soccer commentary generation. Proceedings of the 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) [pdf] [code]
Hao Peng*, Xiaozhi Wang*, Feng Yao*, Kaisheng Zeng, Lei Hou, Juanzi Li, Zhiyuan Liu, Weixing Shen. The Devil is in the Details: On the Pitfalls of Event Extraction Evaluation. Findings of ACL 2023 [pdf] [code]
Zhengyan Zhang*, Zhiyuan Zeng*, Yankai Lin, Chaojun Xiao, Xiaozhi Wang, Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou. Emergent Modularity in Pre-trained Transformers. Findings of ACL 2023 [pdf] [code]
Chenglei Si*, Zhengyan Zhang*, Yingfa Chen*, Xiaozhi Wang, Zhiyuan Liu, Maosong Sun. READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input Noises. The 61st Annual Meeting of the Association for Computational Linguistics (ACL), 2023. [pdf] [code & dataset]
Chenglei Si*, Zhengyan Zhang*, Yingfa Chen*, Fanchao Qi, Xiaozhi Wang, Zhiyuan Liu, Yasheng Wang, Qun Liu, Maosong Sun. Sub-Character Tokenization for Chinese Pretrained Language Models. Transactions of the Association for Computational Linguistics (TACL), 2023. [pdf] [code]
Ning Ding*, Yujia Qi*, Guang Yang, Fuchao Wei, Zonghan Yang, Yusheng Su, Shengding Hu, Yulin Chen, Chi-Min Chan, Weize Chen, Jing Yi, Weilin Zhao, Xiaozhi Wang, Zhiyuan Liu, Hai-Tao Zheng, Jianfei Chen, Yang Liu, Jie Tang, Juanzi Li, Maosong Sun. Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models. Nature Machine Intelligence, 2023 [pdf] [code]

2022

Xiaozhi Wang*, Yulin Chen*, Ning Ding, Hao Peng, Zimu Wang, Yankai Lin, Xu Han, Lei Hou, Juanzi Li, Zhiyuan Liu, Peng Li, Jie Zhou. MAVEN-ERE: A Unified Large-scale Dataset for Event Coreference, Temporal, Causal, and Subevent Relation Extraction. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2022). [pdf] [code] [CodaLab] (oral)
Xiaozhi Wang*, Kaiyue Wen*, Zhengyan Zhang, Lei Hou, Zhiyuan Liu, Juanzi Li. Finding Skill Neurons in Pre-trained Transformer-based Language Models. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2022). [pdf] [code]
Hao Peng*, Xiaozhi Wang*, Shengding Hu, Hailong Jin, Lei Hou, Juanzi Li, Zhiyuan Liu, Qun Liu. COPEN: Probing Conceptual Knowledge in Pre-trained Language Models. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2022). [pdf] [code] [CodaLab]
Kaijie Shi, Xiaozhi Wang, Jifan Yu, Lei Hou, Juanzi Li, Jingtong Wu, Dingyu Yong, Jinghui Xiao, Qun Liu. CStory: A Chinese Large-scale News Storyline Dataset. The 31st ACM International Conference on Information and Knowledge Management (CIKM 2022). [pdf] [code & data]
Yusheng Su*, Xiaozhi Wang*, Yujia Qin, Chi-Min Chan, Yankai Lin, Huadong Wang, Kaiyue Wen, Zhiyuan Liu, Peng Li, Juanzi Li, Lei Hou, Maosong Sun, Jie Zhou. On Transferability of Prompt Tuning for Natural Language Understanding. The 2022 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2022). [pdf] [code]
Feng Yao, Chaojun Xiao, Xiaozhi Wang, Zhiyuan Liu, Lei Hou, Cunchao Tu, Juanzi Li, Yun Liu, Weixing Shen, Maosong Sun. LEVEN: A Large-Scale Chinese Legal Event Detection Dataset. Findings of ACL 2022. [pdf] [code]

2021

Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun. CPM: A Large-scale Generative Chinese Pre-trained Language Model. AI Open. [pdf] [code] [homepage]
Ziqi Wang*, Xiaozhi Wang*, Xu Han, Yankai Lin, Lei Hou, Zhiyuan Liu, Peng Li, Juanzi Li and Jie Zhou. CLEVE: Contrastive Pre-training for Event Extraction. The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021). [pdf] [code]
Xiaozhi Wang, Tianyu Gao, Zhaocheng Zhu, Zhengyan Zhang, Zhiyuan Liu, Juanzi Li, Jian Tang. KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation. Transactions of the Association for Computational Linguistics (TACL), 2021. [pdf] [code] [dataset] (ESI Highly Cited Paper, TACL top 10 most cited paper)
Yuan Yao, Haoxi Zhong, Zhengyan Zhang, Xu Han, Xiaozhi Wang, Chaojun Xiao, Guoyang Zeng, Zhiyuan Liu, Maosong Sun. Adversarial Language Games for Advanced Natural Language Intelligence. AAAI Conference on Artifical Intelligence (AAAI 2021). [arxiv]

2020

Xiaozhi Wang*, Shengyu Jia*, Xu Han, Zhiyuan Liu, Juanzi Li, Peng Li, Jie Zhou. Neural Gibbs Sampling for Joint Event Argument Extraction. The 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing (AACL-IJCNLP 2020). [pdf] [code]
Xiaozhi Wang, Ziqi Wang, Xu Han, Wangyi Jiang, Rong Han, Zhiyuan Liu, Juanzi Li, Peng Li, Yankai Lin, Jie Zhou. MAVEN: A Massive General Domain Event Detection Dataset. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2020). [pdf] [code] [CodaLab] [leaderboard] (oral)
Yuxian Gu, Zhengyan Zhang, Xiaozhi Wang, Zhiyuan Liu, Maosong Sun. Train No Evil: Selective Masking for Task-guided Pre-training. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2020). [pdf] [code]

2019

Xiaozhi Wang*, Ziqi Wang*, Xu Han, Zhiyuan Liu, Juanzi Li, Peng Li, Maosong Sun, Jie Zhou, Xiang Ren. HMEAE: Hierarchical Modular Event Argument Extraction. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2019). [pdf] [code] (oral) (short)
Xiaozhi Wang*, Xu Han*, Zhiyuan Liu, Maosong Sun, Peng Li. Adversarial Training for Weakly Supervised Event Detection. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics - Human Language Technologies (NAACL-HLT 2019). [pdf] [code] (oral)

2018

Xiaozhi Wang*, Xu Han*, Yankai Lin, Zhiyuan Liu, Maosong Sun. Adversarial Multi-lingual Neural Relation Extraction. The 27th International Conference on Computational Linguistics (COLING 2018). [pdf] [code] (oral)

Xiaozhi Wang

Preprints

Publications

2025

2024

2023

2022

2021

2020

2019

2018