Rekaman itu berisi delapan penutur, selama ini disimpan Museum Nasional Ainu Upopoy dan Museum Kebudayaan Ainu Nibutani.
Kumpulan rekaman itu merupakan sebagian dari berbagai arsip yang secara total berisi sekitar 700 jam data vokal, yang dikumpulkan sejak tahun 1970-an.
Sebagian besar rekaman itu berbentuk kaset, seperti cerita rakyat yang didengar Maya semasa kecil.
Pada tahun 2015, Badan Urusan Kebudayaan Jepang mulai mendigitalkan berbagai rekaman itu untuk penelitian dan pendidikan. Inisiatif menggunakan AI muncul tiga tahun setelahnya.
Secara konvensional, teknologi pengenalan suara otomatis dibangun dengan kumpulan data besar untuk memahami tata bahasa tertentu, sebelum memulai transkripsi.
Namun bahasa yang terancam punah seperti Ainu tidak memiliki data tersebut.
Solusinya, para peneliti harus mengandalkan model "end-to-end" – sebuah pendekatan yang memungkinkan sistem mempelajari cara memproses suara menjadi teks tanpa pengetahuan tata bahasa.
Tim yang digawangi Kawahara kini sedang mengembangkan sistem sintesis bahasa Ainu berbasis AI.
Sejauh ini mereka dapat membuat AI tersebut untuk meniru penutur yang telah memberikan lebih dari 10 jam rekaman.
Sistem ini bahkan telah menghasilkan versi audiovisual dari teks dua cerita prosa, berjudul Kisah Beruang, yang ditranskripsi antara 1950-1960, dan Saudari Raijin yang ditranskripsi pada tahun 1958.