Google Voice menyempurnakan ucapan-ke-teks menggunakan kekuatan komputer “berpikir”.

Mendengarkan pesan suara memerlukan investasi rata-rata sekitar 30 detik. Hasil akhirnya biasanya berupa pesan sepele “ibu, tolong hubungi saya kembali” atau, lebih buruk lagi, dial saku. Memasuki Google Suara – layanan yang menawarkan transkrip teks lengkap dari panggilan tidak terjawab, sehingga menghemat waktu Anda. Artinya, jika tidak terlalu rawan kesalahan. Untungnya, Google telah meningkatkan perangkat lunak pengenalan ucapannya sebesar 49%, berkat jaringan saraf dalam (DNN).

Google Voice menyempurnakan ucapan-ke-teks menggunakan kekuatan komputer “berpikir”.

Dengan menggunakan pesan suara pengguna Voice untuk penelitian, Google telah meningkatkan sistemnya menggunakan jaringan saraf berulang dalam memori jangka pendek (LSTM) yang diberi nama dengan cepat. Peningkatan ini berarti Google Voice tidak lagi mengirimkan transkrip pesan suara yang tidak masuk akal. Sayangnya ini hanya tersedia di AS dan melalui Project Fi.

Mendalam makalah penelitian dari Google dengan jelas menunjukkan alasan mereka mulai menggunakan LSTM – sistem pencarian kata kunci yang lama tidak berhasil.

“[DNN] terbukti secara signifikan mengungguli sistem pengisi kata kunci dasar,” kata makalah tersebut. “[DNN] menarik untuk tugas kami karena dapat diimplementasikan dengan sangat efisien untuk dijalankan secara real-time pada perangkat dan konsumsi daya dapat dengan mudah disesuaikan dengan mengubah jumlah parameter di DNN.”

Namun, solusi DNN masih jauh dari sempurna karena pengenalan menurun “secara signifikan ketika ucapan terganggu oleh kebisingan, atau ketika jarak antara speaker dan mikrofon meningkat.” Ide di balik penggunaan teknologi DNN adalah untuk membantu Google Now memahami dan memilih bagian audio yang berisi a suara. Pada tahap pengujian, Google akan menambahkan suara buatan ke jalur ucapan, memaksa sistemnya untuk mendengarkan dengan lebih cermat apa yang dikatakan. Untuk mengatasi ucapan senyap, DNN mengizinkan sistem Google memilih dan meningkatkan bagian audio yang hampir tidak terdengar.

Ini semua tentu saja merupakan teknologi yang sangat menarik dan luar biasa, tapi saya yakin Anda membaca ini dan bertanya-tanya “apa itu LSTM atau DNN, dan bagaimana caranya? apakah ada yang membuat Google Voice lebih baik?” Nah, jika Anda ingin mengetahui cara kerja semua pemrosesan ucapan Google, perusahaan telah berbaik hati menyediakannya beberapa kertas putih yang sangat padat itu merinci semuanya.

Dalam istilah awam, LSTM adalah salah satu bentuk “pemikiran” untuk jaringan saraf. Ini adalah jenis arsitektur jaringan saraf berulang (RNN) yang sempurna untuk pembelajaran dan pengklasifikasian. Seperti yang lain RNN, ia mempelajari dunia dengan mengumpulkan data dan secara bertahap membangun gambaran yang lebih baik tentang lingkungannya. Hal inilah yang diinginkan Google untuk dilakukan oleh teknologi transkripsi pesan suara – merekam lebih akurat dengan mengenali suara dan pola bicara penelepon. Namun pengenalan ucapan, terutama ucapan-ke-teks, tidaklah sederhana.

Nigel Cannings, CTO Intelligent Voice, mengungkapkan kesulitan dalam membangun teknologi pengenalan suara yang sangat akurat. Alat pengenalan ucapan tradisional bekerja dengan mendengarkan berdasarkan suku kata demi suku kata. Namun manusia melakukan sesuatu dengan cara yang berbeda: kita secara tidak sadar mendengarkan dan memperkirakan kata-kata mana yang akan muncul selanjutnya, dan hampir seketika memahami, sebuah kalimat.

“Pengenalan ucapan hanya bersifat sementara. DNN sangat buruk untuk itu. Ini bagus untuk gambar, tapi buruk untuk ucapan,” kata Cannings. “Bayangkan pidato sebagai kumpulan jutaan gambar secara berurutan dan – untuk memahami gambar berikutnya – Anda perlu memahami 30 gambar sebelumnya, dan 50 gambar berikutnya.”

Menariknya, RNN dianggap sebagai “akhir perdebatan” dalam hal pengenalan suara, jika RNN dapat dicapai dengan sukses. Impiannya, menurut Cannings, adalah mampu mengubah data menjadi teks dan mendekripsi informasi dengan sangat cepat, semuanya dengan ukuran file yang rendah. Saat ini, “satu-satunya masalah dengan jaringan saraf adalah jumlah frame yang dapat ditampungnya”, klaim Cannings. RNN tidak cukup besar untuk menangani jumlah data yang diperlukan untuk mendekripsi seluruh kalimat dalam satu waktu.

Tidak jelas bagaimana Google menempatkan teknologi LSTM di belakang Google Voice. Mungkin, seperti yang disarankan Cannings, Google Voice mengambil setiap kata dalam satu waktu dan mengubahnya menjadi teks – lagipula, Google Voice tidak perlu langsung menyalin pesan suara secara real-time.