Rabu 10 Maret 2021, 17:01 WIB

Kembangkan Korpus, Badan Bahasa Jadikan Media Indonesia Acuan

Ferdian Ananda Majni | Humaniora
Kembangkan Korpus, Badan Bahasa Jadikan Media Indonesia Acuan

MI/Fransisco Carollio.
Suasana lengang di ruang redaksi koran Media Indonesia di kawasan Kedoya, Jakarta Barat, beberapa waktu lalu.

 

MEDIA Indonesia menjadi salah satu sumber data untuk Badan Pengembangan dan Pembinaan Bahasa (Badan Bahasa) mengembangkan Korpus Indonesia (Koin). Koin yang kini berisi 10 juta kata hendak dimutakhirkan dengan target mencapai 25 juta kata.

Koordinator Kelompok Kepakaran dan Layanan Profesional Perkamusan dan Peristilahan Badan Bahasa yang juga ketua pelaksana pengembangan korpus Azhari Dasman, Rabu (10/3), mengatakan Media Indonesia disertakan sebagai sumber data karena surat kabar nasional ini pernah mendapatkan penghargaan dari Badan Bahasa dalam penggunaan bahasa Indonesia di media cetak. Selain Media Indonesia, yang menjadi sumber data Koin ialah Koran Tempo, Kompas, dan Republika.

Pada tahap awal, data yang dimanfaatkan Badan Bahasa untuk Koin ialah editorial media yang bersangkutan. Rentang waktu yang direkam tidak kurang dari lima tahun ke belakang.

Korpus Indonesia diluncurkan pada 2018. Hingga kini sudah ada 10 juta kata yang disusun berdasarkan teks ilmiah dan sastra. Badan Bahasa hendak mengembangkan Koin tahun ini hingga 25 juta kata dengan mencakupkan teks dari media massa.

Untuk tahap awal, yang disasar ialah media cetak. Koin dikembangkan dengan tujuan menyediakan data digital kebahasaan yang dapat dimanfaatkan secara luas oleh peneliti bahasa, pekamus, penerjemah, dan pemerhati bahasa. Melalui Koin, orang dapat melihat tuturan alami bahasa Indonesia di masyarakat. Dalam Koin terdapat detail kalimat, konkordansi, kolokasi, dan kelas kata.

Pada 2018 sudah terinput 5.140.780 token (kemunculan kata). Token itu diambil dari tesis dan skripsi sebanyak 900 teks dan jurnal ilmiah sebanyak 1.130 teks. Pada 2020 input ditambah dengan 5.428.688 token dari berbagai jurnal dan teks sastra.

Jurnal kedokteran, misalnya, menyumbang 235 teks dan jurnal komputer 209. Karya sastra terbitan 1920-2016 menyumbang 133 teks. Sastra klasik dari periode kelahiran 1700-an berandil enam naskah saja. Beda sedikit, sastra klasik periode 1800-an menyumbang 10 teks.

Sebanyak 881.422 token menunggu diinput. Jumlah itu didapat dari 743 artikel berita daring dan 73 karya sastra terbitan 2017. Badan Bahasa menargetkan dapat menambah hingga tahun ini menjadi 25 juta token agar data tentang bahasa Indonesia kontemporer dapat mengejar keunggulan korpus nasional negara lain.

British National Corpus (BNC), misalnya, terdiri atas 100 juta kata yang disusun berdasarkan korpus tulis dan lisan dengan rentang perekaman 1975-1994. BNC dikembangkan Oxfor University Press, Longman Group UK Ltd, Chambers Harrap, Oxford University, dan Lancaster University. Berdasarkan data Natcorp.ox.ac.uk, 30% materi penyusun BNC berasal dari surat kabar. (OL-14)

Baca Juga

BMKG

Gempa Magnitudo 6,0 Guncang Jawa Bagian Selatan, Tidak Potensi Tsunami

👤Naufal Zuhdi 🕔Kamis 08 Juni 2023, 07:14 WIB
Daerah Istimewa Yogyakarta dan wilayah selatan Jawa diguncang gempa tektonik dengan magnitudo 6,0. Guncangan terjadi pada pukul 00.04 WIB,...
Freepik

Mengenal Struktur Sel Hewan, Bagian dan Fungsinya

👤Joan Imanuella Hanna Pangemanan 🕔Kamis 08 Juni 2023, 06:29 WIB
Sel hewan merupakan organel terkecil dalam tubuh dengan membran tipis di sekitarnya dan berisi larutan koloid yang mengandung senyawa...
MI / Heri Susetyo

Wapres Minta Maskapai Penerbangan Haji Hindari Delay

👤Kautsar Widya Prabowo 🕔Rabu 07 Juni 2023, 23:22 WIB
Wapres berharap tidak ada lagi kejadian delay atau penundaan penerbangan dalam pemberangkatan jemaah...

E-Paper Media Indonesia

Baca E-Paper

Berita Terkini

Selengkapnya

BenihBaik.com

Selengkapnya

MG News

Selengkapnya

Berita Populer

Selengkapnya

Berita Weekend

Selengkapnya