Mozilla Ingin Teknologi Voice Recognition Terbuka Bagi Semua Orang Lewat Project Common Voice

Bagus Aji Santoso 21 Juli 2017

Mozilla Ingin Teknologi Voice Recognition Terbuka Bagi Semua Orang Lewat Project Common Voice

Mozilla telah meluncurkan Project Common Voice untuk meng-crowdsource-kan speech recognition. Saat data audio mencapai ukuran yang cukup besar, data ini akan dirilis agar dapat dipakai oleh developer di aplikasi mereka.

Image

Rasionalisasi di belakang Project Common Voice adalah besarnya jumlah data yang dibutuhkan untuk sebuah machine learning. Dalam hal ini melatih sebuah sistem speech to text selama kurang lebih 10.000 jam akan membutuhkan data audio ini. Crowdsourcing akan mengijinkan Mozilla menyiapkan teknologi voice recognition terbuka bagi developer.

Mozilla menjelaskan mengapa proyek ini sangat penting:

Suara itu alamiah, suara itu manusia. Suara merupakan cara paling mudah dan paling alami untuk berkomunikasi. Dengan Common Voice developer dapat membangun banyak hal, dari penerjemah real time sampai asisten yang dikontrol oleh suara. Namun data yang diperlukan untuk membuat produk semacam ini tidak tersedia untuk publik. Common voice akan menyediakan data yang mereka butuhkan untuk berinovasi.

Revolusi AI yang terjadi baru-baru ini adalah berkat tersedianya database besar yang berisi data-data yang diperlukan untuk melatih neural networks. Tanpa adanya database yang terdiri atas contoh suara dan transkripnya yang akurat, melatih sebuah neural network untuk melakukan speech-to-text tidak akan mungkin terjadi. Membuat database semacam itu hingga saat ini hanya mampu dilakukan oleh perusahaan raksasa seperti Google, Amazon, Microsoft, dan Apple. Langkah yang ditempuh oleh Mozilla, sebaliknya, akan bergantung pada kita.

Proyek ini bergantung pada donasi, namun untuk saat ini suara dan kemampuan mendengar kita lebih dibutuhkan. Untuk berkontribusi kita memerlukan sebuah sistem dengan microphone dan speaker. Ada sebuah aplikasi iOS jika pembaca menggunakan iPhone atau iPad. Jika tidak tersedia aplikasi web yang dapat berjalan cukup lancar di Firefox, namun gagal jika dibuka dengan Edge, kadang juga dapat berjalan di Chrome tapi luar biasa lambat di Android.

Kita bisa tahu kalau web Common Voice lancar saat adanya perubahan warna yang terjadi:

Image

Aplikasi ini akan meminta kita mengucapkan tiga kalimat dan kemudian memberikan kesempatan kita untuk mereviu sebelum mengirimkan pesan yang kita rekam.

Image

Cara lain untuk berkontribusi adalah memvalidasi rekaman yang dilakukan orang lain dengan memastikan transkripnya sesuai dengan suara yang didengar. Rekaman yang akan didengar tidak akan selalu dalam kondisi terbaik. Untuk merefleksi kualitas audio yang ada, sebuah variasi dibutuhkan. Variasi ini akan mengajarkan engine speech-to-text kemampuan untuk mendeteksi beragam situasi milsanya suara mesin mobil, suara kipas angin, suara orang lain dibelakang, dan situasi lainnya tanpa kesalahan.

Karena proyek ini tersedia untuk publik, maka semua orang dapat berkontribusi. Jika pembaca bukan seorang developer tapi ingin berkontribusi agar sistem speech-to-text di masa mendatang menjadi lebih baik dari sekarang, pembaca juga dapat berkontribusi. Lagipula, sistem common voice mirip dengan game sehingga berkontribusi didalamnya pasti akan menyenangkan.

Sumber: http://www.i-programmer.info/news/105-artificial-intelligence/10961-mozilla-wants-your-voice.html https://voice.mozilla.org/ https://itunes.apple.com/us/app/project-common-voice-by-mozilla/id1240588326?mt=8