NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages

Origin paper

NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages

Samuel Cahyawijaya, Holy Lovenia, Fajri Koto, Dea Adhista, Emmanuel Dave, Sarah Oktavianti, Salsabil Maulana Akbar, Jhonson Lee, Nuur Shadieq, T. W. Cenggoro, Hanung Wahyuning Linuwih, Bryan Wilie, Galih Pradipta Muridan, Genta Indra Winata, David Moeljadi, Alham Fikri Aji, A. Purwarianti, Pascale Fung

2023

InstructAlign: High-and-Low Resource Language Alignment via Continual Crosslingual Instruction Tuning

Samuel Cahyawijaya, Holy Lovenia, Tiezheng Yu, Willy Chung, Pascale Fung

2023

NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages

Genta Indra Winata, Alham Fikri Aji, Samuel Cahyawijaya, Rahmad Mahendra, Fajri Koto, Ade Romadhony, Kemal Kurniawan, David Moeljadi, Radityo Eko Prasojo, Pascale Fung, Timothy Baldwin, Jey Han Lau, Rico Sennrich, Sebastian Ruder

2022

Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages

Samuel Cahyawijaya, Holy Lovenia, Fajri Koto, Rifki Afina Putri, Emmanuel Dave, Jhonson Lee, Nuur Shadieq, Wawan Cenggoro, Salsabil Maulana Akbar, Muhammad Ihza Mahendra, Dea Annisayanti Putri, Bryan Wilie, Genta Indra Winata, Alham Fikri Aji, Ayu Purwarianti, Pascale Fung

2024

Instruct-Align: Teaching Novel Languages with to LLMs through Alignment-based Cross-Lingual Instruction

Samuel Cahyawijaya, Holy Lovenia, Tiezheng Yu, Willy Chung, Pascale Fung

2023

LLMs Are Few-Shot In-Context Low-Resource Language Learners

Samuel Cahyawijaya, Holy Lovenia, Pascale Fung

2024

Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU

Fajri Koto, Nurul Aisyah, Haonan Li, Timothy Baldwin

2023

One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia

Alham Fikri Aji, Genta Indra Winata, Fajri Koto, Samuel Cahyawijaya, Ade Romadhony, Rahmad Mahendra, Kemal Kurniawan, David Moeljadi, Radityo Eko Prasojo, Timothy Baldwin, Jey Han Lau, Sebastian Ruder

2022

NusaCrowd: Open Source Initiative for Indonesian NLP Resources

Samuel Cahyawijaya, Holy Lovenia, Alham Fikri Aji, Genta Indra Winata, Bryan Wilie, Rahmad Mahendra, Christian Wibisono, Ade Romadhony, Karissa Vincentio, Fajri Koto, Jennifer Santoso, David Moeljadi, Cahya Wirawan, Frederikus Hudi, I. Parmonangan, Ika Alfina, Muhammad Satrio Wicaksono, Ilham Firdausi Putra, Samsul Rahmadani, Yulianti Oenang, A. Septiandri, James Jaya, Kaustubh D. Dhole, Arie A. Suryani, Rifki Afina Putri, Dan Su, K. Stevens, Made Nindyatama Nityasya, M. Adilazuarda, Ryan Ignatius, Ryandito Diandaru, Tiezheng Yu, Vito Ghifari, Wenliang Dai, Yan Xu, Dyah Damapuspita, C. Tho, Ichwanul Muslim Karo Karo, Tirana Noor Fatyanosa, Ziwei Ji, Pascale Fung, Graham Neubig, Timothy Baldwin, Sebastian Ruder, Herry Sujaini, S. Sakti, A. Purwarianti

2022

BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual Transfer

Akari Asai, Sneha Kudugunta, Xinyan Velocity Yu, Terra Blevins, Hila Gonen, Machel Reid, Yulia Tsvetkov, Sebastian Ruder, Hannaneh Hajishirzi

2023

Multilingual Large Language Models Are Not (Yet) Code-Switchers

Ruochen Zhang, Samuel Cahyawijaya, Jan Christian Blaise Cruz, Alham Fikri Aji

2023

Many-to-Many Multilingual Translation Model for Languages of Indonesia

Wilson Wongso, Ananto Joyoadikusumo, Brandon Scott Buana, Derwin Suhartono

2023

SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Holy Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James Validad Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus Irawan, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, I. Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, M. Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, M. Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, T. Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William-Chandra Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Scott Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya

2024

NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural

Wilson Wongso, David Samuel Setiawan, Steven Limcorn, Ananto Joyoadikusumo

2024

Bactrian-X : A Multilingual Replicable Instruction-Following Model with Low-Rank Adaptation

Haonan Li, Fajri Koto, Minghao Wu, Alham Fikri Aji, Timothy Baldwin

2023

IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural Language Generation

Samuel Cahyawijaya, Genta Indra Winata, Bryan Wilie, Karissa Vincentio, Xiaohong Li, A. Kuncoro, Sebastian Ruder, Zhi Yuan Lim, Syafri Bahar, M. L. Khodra, A. Purwarianti, Pascale Fung

2021

Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

Viet Dac Lai, Chien Van Nguyen, Nghia Trung Ngo, Thuat Nguyen, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen

2023

ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic

Fajri Koto, Haonan Li, Sara Shatnawi, Jad Doughman, A. Sadallah, A. Alraeesi, Khalid Almubarak, Zaid Alyafeai, Neha Sengupta, Shady Shehata, Nizar Habash, Preslav Nakov, Timothy Baldwin

2024

MEGA: Multilingual Evaluation of Generative AI

Kabir Ahuja, Rishav Hada, Millicent Ochieng, Prachi Jain, Harshita Diddee, Krithika Ramesh, Samuel C. Maina, T. Ganu, Sameer Segal, Maxamed Axmed, Kalika Bali, Sunayana Sitaram

2023

Cross-lingual Few-Shot Learning on Unseen Languages

Genta Indra Winata, Shijie Wu, Mayank Kulkarni, T. Solorio, Daniel Preotiuc-Pietro

2022

IndoCulture: Exploring Geographically Influenced Cultural Commonsense Reasoning Across Eleven Indonesian Provinces

Fajri Koto, Rahmad Mahendra, Nurul Aisyah, Timothy Baldwin

2024

Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages

Zheng-Xin Yong, Ruochen Zhang, J. Forde, Skyler Wang, Arjun Subramonian, Samuel Cahyawijaya, Holy Lovenia, Genta Indra Winata, Lintang Sutawika, Jan Christian Blaise Cruz, Long Phan, Yinghua Tan, Alham Fikri Aji

2023

Transfer Learning-Based Neural Machine Translation for Low-Resource Languages

Jun Dong

2023

CMMLU: Measuring massive multitask language understanding in Chinese

Haonan Li, Yixuan Zhang, Fajri Koto, Yifei Yang, Hai Zhao, Yeyun Gong, Nan Duan, Tim Baldwin

2023

IdSarcasm: Benchmarking and Evaluating Language Models for Indonesian Sarcasm Detection

Derwin Suhartono, Wilson Wongso, Alif Tri Handoyo

2024

Location-based Twitter Filtering for the Creation of Low-Resource Language Datasets in Indonesian Local Languages

Mukhlis Amien, Chong Feng, Heyan Huang

2022

Cheetah: Natural Language Generation for 517 African Languages

Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul-Mageed

2024

Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting

Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei

2023

Improving Bi-LSTM Performance for Indonesian Sentiment Analysis Using Paragraph Vector

A. Purwarianti, Ida Ayu Putu Ari Crisdayanti

2019

Findings of the 1st Shared Task on Multi-lingual Multi-task Information Retrieval at MRL 2023

Francesco Tinner, David Ifeoluwa Adelani, Chris Emezue, Mammad Hajili, Omer Goldman, M. Adilazuarda, Muhammad Dehan Al Kautsar, Aziza Mirsaidova, Muge Kural, Dylan Massey, Chiamaka Chukwuneke, C. Mbonu, Damilola Oluwaseun Oloyede, Kayode Olaleye, Jonathan Atala, Benjamin Ayoade Ajibade, Saksham Bassi, Rahul Aralikatte, Na-joung Kim, Duygu Ataman

2023

IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding

Bryan Wilie, Karissa Vincentio, Genta Indra Winata, Samuel Cahyawijaya, Xiaohong Li, Zhi Yuan Lim, Sidik Soleman, Rahmad Mahendra, Pascale Fung, Syafri Bahar, A. Purwarianti

2020

COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances

Haryo Akbarianto Wibowo, Erland Hilman Fuadi, Made Nindyatama Nityasya, Radityo Eko Prasojo, Alham Fikri Aji

2023

Towards Computational Linguistics in Minangkabau Language: Studies on Sentiment Analysis and Machine Translation

Fajri Koto, Ikhwan Koto

2020

Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results

Philipp Ennen, Po-chun Hsu, Chan-Jan Hsu, Chang-Le Liu, Yen-Chen Wu, Yin-Hsiang Liao, Chin-Tung Lin, Da-shan Shiu, Wei-Yun Ma

2023

Can the capability of Large Language Models be described by human ability? A Meta Study

Mingrui Zan, Yunquan Zhang, Boyang Zhang, Fangmin Liu, Daning Cheng

2025

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Jiayi Lei, Fanchao Qi, Yao Fu, Maosong Sun, Junxian He

2023

Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets

Isaac Caswell, Julia Kreutzer, Lisa Wang, Ahsan Wahab, D. Esch, Nasanbayar Ulzii-Orshikh, A. Tapo, Nishant Subramani, Artem Sokolov, Claytone Sikasote, Monang Setyawan, Supheakmungkol Sarin, Sokhar Samb, B. Sagot, Clara Rivera, Annette Rios Gonzales, Isabel Papadimitriou, Salomey Osei, Pedro Ortiz Suarez, Iroro Orife, Kelechi Ogueji, Andre Niyongabo Rubungo, Toan Q. Nguyen, Mathias Muller, A. Muller, Shamsuddeen Hassan Muhammad, N. Muhammad, Ayanda Mnyakeni, Jamshidbek Mirzakhalov, Tapiwanashe Matangira, Colin Leong, Nze Lawson, Sneha Kudugunta, Yacine Jernite, M. Jenny, Orhan Firat, Bonaventure F. P. Dossou, Sakhile Dlamini, Nisansa de Silva, Sakine cCabuk Balli, Stella Biderman, A. Battisti, Ahmed Baruwa, Ankur Bapna, P. Baljekar, Israel Abebe Azime, Ayodele Awokoya, Duygu Ataman, Orevaoghene Ahia, Oghenefego Ahia, Sweta Agrawal, Mofetoluwa Adeyemi

2021

Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination

Eva Sánchez-Salido, Roser Morante, Julio Gonzalo, Guillermo Marco, Jorge Carrillo-de-Albornoz, Laura Plaza, Enrique Amig'o, A. Fern'andez, Alejandro Benito-Santos, Adri'an Ghajari Espinosa, Víctor Fresno-Fernández

2024

Scaling Up Multilingual Evaluation

Kabir Ahuja, Antonios Anastasopoulos, Barun Patra, Graham Neubig, M. Choudhury, Shantanu Patankar, Omkar Gokhale, Onkar Litake, Aditya Mandke, Dipali Kadam, Syeda Sabrina Akter

2022

Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon

Fajri Koto, Tilman Beck, Zeerak Talat, Iryna Gurevych, Timothy Baldwin

2024

Large-scale Lifelong Learning of In-context Instructions and How to Tackle It

J. Mok, Jaeyoung Do, Sungjin Lee, Tara Taghavi, Seunghak Yu, Sungroh Yoon

2023

Democratizing access to natural language processing (NLP) technology is crucial, especially for underrepresented and extremely low-resource languages. Previous research has focused on developing labeled and unlabeled corpora for these languages through online scraping and document translation. While these methods have proven effective and cost-efficient, we have identified limitations in the resulting corpora, including a lack of lexical diversity and cultural relevance to local communities. To address this gap, we conduct a case study on Indonesian local languages. We compare the effectiveness of online scraping, human translation, and paragraph writing by native speakers in constructing datasets. Our findings demonstrate that datasets generated through paragraph writing by native speakers exhibit superior quality in terms of lexical diversity and cultural content. In addition, we present the \datasetname{} benchmark, encompassing 12 underrepresented and extremely low-resource languages spoken by millions of individuals in Indonesia. Our empirical experiment results using existing multilingual large language models conclude the need to extend these models to more underrepresented languages. We release the NusaWrites dataset at https://github.com/IndoNLP/nusa-writes.

We're experiencing high traffic, building new graphs may be slower.

NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages

InstructAlign: High-and-Low Resource Language Alignment via Continual Crosslingual Instruction Tuning

NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages

Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages

Instruct-Align: Teaching Novel Languages with to LLMs through Alignment-based Cross-Lingual Instruction

LLMs Are Few-Shot In-Context Low-Resource Language Learners

Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU

One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia

NusaCrowd: Open Source Initiative for Indonesian NLP Resources

BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual Transfer

Multilingual Large Language Models Are Not (Yet) Code-Switchers

Many-to-Many Multilingual Translation Model for Languages of Indonesia

SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural

Bactrian-X : A Multilingual Replicable Instruction-Following Model with Low-Rank Adaptation

IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural Language Generation

Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic

MEGA: Multilingual Evaluation of Generative AI

Cross-lingual Few-Shot Learning on Unseen Languages

IndoCulture: Exploring Geographically Influenced Cultural Commonsense Reasoning Across Eleven Indonesian Provinces

Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages

Transfer Learning-Based Neural Machine Translation for Low-Resource Languages

CMMLU: Measuring massive multitask language understanding in Chinese

IdSarcasm: Benchmarking and Evaluating Language Models for Indonesian Sarcasm Detection

Location-based Twitter Filtering for the Creation of Low-Resource Language Datasets in Indonesian Local Languages

Cheetah: Natural Language Generation for 517 African Languages

Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting

Improving Bi-LSTM Performance for Indonesian Sentiment Analysis Using Paragraph Vector

Findings of the 1st Shared Task on Multi-lingual Multi-task Information Retrieval at MRL 2023

IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding

COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances

Towards Computational Linguistics in Minangkabau Language: Studies on Sentiment Analysis and Machine Translation

Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results

Can the capability of Large Language Models be described by human ability? A Meta Study

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets

Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination

Scaling Up Multilingual Evaluation

Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon

Large-scale Lifelong Learning of In-context Instructions and How to Tackle It