PENGEMBANGAN SPEECH RECOGNITION DENGAN 2 METODE BERBEDA

Speech Recognition Dengan Menggunakan

Artificial Intelligence dan Natural Language Processing

Arif Sumarsono, Sandi Duta Maulana

Jurusan Sistem Informasi, Fakultas Teknologi Informasi, Universitas Gunadarma

e-mail: arifsumarsono.skywards@gmail.com, sandiduta@gmail.com

Abstrak

Speech recognition adalah tekonologi yang mampu mendeteksi dan mengenali suara atau perkataan yang diucapkan seseorang tak peduli darimana suara itu berasal. Speech recognition mampu mengenali suara secara otomatis dan mampu menterjemahkan nya ke dalam teks ataupun tulisan. Metode yang digunakan pada speech recognition dapat berupa metode Natural language processing (NLP) mengacu pada metode kecerdasan buatan untuk berkomunikasi dengan komputer dalam bahasa alami seperti bahasa Inggris. Tujuan utama program NLP adalah untuk memahami masukan dan tindakan awal. Kata-kata masukan tersebut diturunkan dan disesuaikan dengan kata-kata yang diketahui secara internal. Selain itu terdapat juga beberapa metode statistik paling menonjol meliputi Pengenalan pola, Fonetik akustik dan Artificial Intelligence.

1. Pendahuluan

Proses pengenalan suara dilakukan oleh komponen perangkat lunak yang dikenal sebagai mesin pengenal ucapan. Fungsi utama dari mesin pengenal ucapan adalah mengolah kata-kata input dan menerjemahkannya ke dalam teks yang dimengerti oleh sebuah aplikasi. Aplikasi bisa menafsirkan hasil pengakuan sebagai perintah. Dalam kasus ini, aplikasi adalah aplikasi perintah dan kontrol. Jika aplikasi menangani teks yang dikenali sebagai teks, maka aplikasi ini dianggap sebagai aplikasi pendiktean. Pengguna berbicara kepada komputer melalui mikrofon, yang pada gilirannya mengidentifikasi makna kata-kata dan mengirimkannya ke perangkat NLP untuk diproses lebih lanjut. Setelah dikenali, kata-kata itu bisa digunakan dalam berbagai aplikasi seperti display, robotika, perintah ke komputer, dan dikte.

Pada dasarnya, pendekatan ini berurusan dengan konversi kata-kata yang diucapkan menjadi teks. Pengenalan ucapan juga disebut ASR (otomatis speech recognition), STT (speech to text) atau hanya pengenalan suara komputer. Pengenalan ucapan juga dapat dipahami sebagai bidang ilmu komputer, yang berhubungan dengan perancangan dan pengembangan sistem komputer, untuk mengenali kata-kata yang diucapkan.

Metode pengenalan ucapan lainya, yaitu digunakan untuk menguraikan kata adalah Kecerdasan buatan (AI) bisa jadi dipahami sebagai kombinasi dari pengenalan pola pendekatan dan pendekatan fonetis akustik. kecerdasan buatan adalah teknik yang paling berkembang dan efektif, yang mendukung pengenalan suara tanpa cela dan akurat. Ini karena; kecerdasan buatan menggabungkan pendekatan algoritmik tertentu, yang mendorong konversi koheren dan transformasi ucapan ke dalam pola yang mudah dibaca, dan sebaliknya.

Penelitian ini ditunjukan untuk menentukan metode penelitian mana yang terbaik diantara natural language processing (NLP) dan artificial inteligence (AI). Pada dasarnya pembuatan speech recognition menggunakan atau menggabungkan 2 metode ditujukan untuk mengoptimalkan proses pengenalan suara yang mampu menterjemahkan kata-kata dengan baik dan cepat terlebih jika aplikasi speech recognition yang dibuat dapat berjalan dengan baik dan optimal.

2. Speech Recognition

2.1 Pengenalan Speech Recognition

Pengguna berbicara ke komputer melalui mikrofon, yang pada gilirannya, mengidentifikasi themdaing kata-kata dan mengirimkannya ke perangkat NLP untuk diproses lebih lanjut. Setelah dikenali, kata-kata tersebut dapat digunakan dalam berbagai aplikasi seperti display, robotika, perintah ke komputer, dan pendiktean. Kata recognizer adalah sistem pengenalan ucapan yang mengidentifikasi kata-kata individual. Sistem perintis awal hanya bisa mengenali huruf dan angka individual. Saat ini, mayoritas sistem pengenalan kata adalah pengenal kata dan memiliki lebih dari 95% pengakuan. Sistem seperti itu mampu mengenali kosa kata kecil dari kata-kata tunggal atau ungkapan-ungkapan sederhana. Seseorang harus mengucapkan informasi masukan dengan kata-kata lisan yang jelas, dengan jeda di antara kata-kata, untuk memasukkan data di komputer. Pengenal ucapan terus menerus jauh lebih sulit dibangun daripada pengenal kata. Anda berbicara kalimat lengkap ke komputer. Masukan akan dikenali dan kemudian diproses oleh NLP.

2.2 Proses Speech Recognition

Gambar 3.1 Proses pengenalan suara

Setelah proses pelatihan, kata-kata yang diucapkan pengguna akan menghasilkan teks; Keakuratan ini akan membaik dengan dikte lebih lanjut dan penggunaan prosedur koreksi secara teliti. Dengan sistem yang terlatih, sekitar 95% kata yang diucapkan bisa ditafsirkan dengan benar. Sistem dapat dilatih untuk mengidentifikasi kata-kata dan ungkapan tertentu dan memeriksa dokumen standar pengguna untuk mengembangkan file suara yang akurat bagi individu. Namun, masih banyak faktor lain yang perlu dipertimbangkan untuk mencapai tingkat pengenalan yang tinggi. Tidak ada keraguan bahwa perangkat lunak itu bekerja dan dapat membebaskan banyak peserta didik, namun prosesnya bisa jauh lebih memakan waktu daripada yang dapat dihargai pengguna pertama kali dan hasilnya seringkali bisa menjadi miskin. Ini bisa sangat mendemotivasi, dan banyak pengguna menyerah pada tahap ini. Dukungan kualitas dari seseorang yang mampu menunjukkan kepada pengguna cara paling efektif menggunakan perangkat lunak sangat penting.

2.3 Model Statistik Speech Recognition

A. Model Akustik (AM)

Salah satu model yang paling menonjol dan diadopsi secara luas Pengenalan suara adalah model akustik (AM). Telah didirikan bahwa model akustik menangkap ucapan pengakuan karakteristik unit pengakuan dasar. Menurut unit pengakuan dapat berada pada tingkat fonem, tingkat suku kata, dan pada tingkat kata. Beberapa kekurangan dan kendala menjadi pertimbangan dengan pemilihan masing-masing dari unit ini Referensi telah mengklaim bahwa untuk LVCSR (kosakata besar pengenalan suara terus-menerus) sistem, fonem adalah unit yang paling menguntungkan. Model Markov tersembunyi dan jaringan syaraf tiruan (NN) adalah pendekatan yang diadopsi secara luas, yang sedang digunakan untuk pemodelan akustik pidato sistem pengenalan

B. Model Bahasa (LM)

Model bahasa adalah statistik lain yang paling signifikan model pengenalan suara Salah satu tujuan utama Model bahasa adalah untuk menyampaikan atau mentransmisikan tingkah laku bahasa. Hal ini disebabkan oleh fakta bahwa ia bermaksud untuk meramalkan adanya urutan kata tertentu dalam target pidato. Dari aspek mesin, model pengenalan suara ini membantu meminimalkan ruang pencarian yang handal dan kredibel kombinasi kata-kata Penting untuk memperhatikan bahasa itu model dikembangkan dengan bantuan CMU statistik LM toolkit.

C. Model Leksikon

Telah diklaim oleh model leksikon yang menyediakan pengucapan kata-kata dalam pidato target, yang telah untuk diakui Sesuai dengan persepsi, Model leksikon memainkan peran yang tak terelakkan dan tak terpisahkan pengenalan ucapan otomatis Hal ini disebabkan fakta bahwa operasi model leksikal didasarkan pada dua parameter, yaitu, akses keseluruhan kata, dan dekomposisi keseluruhan pidato ke dalam potongan kecil Proses ini akhirnya menghasilkan sesuai pengakuan pidato Misalnya, jika speech recognition Model dalam bahasa asli, model leksikon harus ada dirumuskan dalam bahasa asli, untuk mendapatkan hasil yang berharga dan bermanfaat. Dalam hal ini, buatan netral Fonem jaringan dapat dianggap sebagai salah satu yang terbesar pendekatan, karena membantu mengembangkan leksikon asli dari leksikon asing; Oleh karena itu, menghasilkan pemetaan telepon Bahasa Inggris ke telepon bahasa asli. Itu penting untuk memperhatikan bahwa keseluruhan proses dilakukan, sementara mengingat informasi kontekstual.

D. Hidden Markov Model (HMM)

Markov adalah alat statistik yang paling populer, yang digunakan untuk pemodelan data telah dianalisis bahwa HMM telah memainkan peran terpuji dalam mengurangi masalah klasifikasi ucapan, yang merupakan salah satu isu utama, dalam pendekatan pengenalan suara. HMM memasukkan berbagai isu, yang digunakan untuk mempengaruhi keakuratan pengenalan suara. Untuk menyelesaikan masalah tersebut, algoritma proyeksi subruang dan tertimbang tersembunyi model Markov diusulkan.

2.4 Tools

A. Pencarian dan optimasi

Banyak masalah dalam AI dapat dipecahkan secara teori dengan mencari secara cerdas melalui banyak solusi yang mungkin Penalaran dapat dikurangi untuk melakukan pencarian. Misalnya, bukti logis dapat dilihat sebagai mencari jalan yang mengarah dari premis ke kesimpulan, di mana setiap langkah adalah penerapan aturan inferensi. Algoritma perencanaan mencari melalui pohon tujuan dan sasaran, mencoba menemukan jalan menuju sasaran sasaran, sebuah proses yang disebut analisis berarti-akhir. Algoritma robot untuk memindahkan anggota badan dan benda tangkapan menggunakan penelusuran lokal di ruang konfigurasi. Banyak algoritma pembelajaran menggunakan algoritma pencarian berdasarkan optimasi.

B. Logika

Beberapa bentuk logika yang berbeda digunakan dalam penelitian AI. Logika proposisional atau sentimental adalah logika pernyataan yang benar atau salah. Logika orde pertama juga memungkinkan penggunaan quantifier dan predikat, dan dapat mengungkapkan fakta tentang objek, sifat mereka, dan hubungannya satu sama lain. Logika fuzzy, adalah versi logika orde pertama yang memungkinkan kebenaran astatement diwakili sebagai nilai antara 0 dan 1, bukan hanya True (1) atau False (0). Sistem fuzzy dapat digunakan untuk penalaran yang tidak pasti dan telah banyak digunakan dalam sistem kontrol produk industri modern dan konsumen.

C. Metode probabilistik untuk penalaran yang tidak pasti

Banyak masalah di AI (dalam penalaran, perencanaan, pembelajaran, persepsi dan robotika) mewajibkan agen untuk beroperasi dengan informasi yang tidak lengkap atau tidak pasti. Dimulai pada akhir tahun 80an dan awal tahun 90an, Judea Pearl dan yang lainnya memperjuangkan penggunaan metode yang diambil dari teori probabilitas dan ekonomi untuk merancang sejumlah alat canggih untuk memecahkan masalah ini.

D. Klasifikasi dan metode pembelajaran statistik

Aplikasi AI yang paling sederhana dapat dibagi menjadi dua jenis: pengklasifikasi ("jika thendiamond mengkilap") dan pengendali ("jika mengkilap lalu mengambil"). Controller bagaimanapun juga mengklasifikasikan kondisi sebelum mengambil tindakan, dan karena itu klasifikasi merupakan bagian utama dari banyak sistem AI. Classifier adalah fungsi yang menggunakan pencocokan pola untuk menentukan kecocokan terdekat. Mereka dapat disetel sesuai contoh, membuatnya sangat menarik untuk digunakan di AI. Ini examplesare dikenal sebagai pengamatan atau pola. Dalam pembelajaran yang diawasi, setiap pola termasuk dalam kelas yang telah ditentukan sebelumnya. Sebuah kelas bisa dilihat sebagai keputusan yang harus dibuat. Semua pengamatan yang disertakan dengan label kelas mereka dikenal sebagai kumpulan data. Bila pengamatan baru diterima, pengamatan tersebut dikelompokkan berdasarkan pengalaman sebelumnya.

E. Jaringan syaraf tiruan

Jaringan syaraf tiruan adalah kelompok node yang saling berhubungan, mirip dengan jaringan neuron yang luas di otak manusia. Studi jaringan syaraf tiruan dimulai pada dekade sebelum penelitian AI dimulai, dalam karya Walter Pitts dan Warren McCullough. Periset penting lainnya adalah Frank Rosenblatt, yang menemukan perceptron dan PaulWerbos yang mengembangkan algoritma propagasi balik.

3. Metode Speech Recognition

3.1 Natural Language Processing

Natural Language Processing memberi mesin kemampuan untuk membaca dan memahami bahasa yang digunakan manusia untuk berbicara. Banyak peneliti berharap bahwa sistem pemrosesan natural language yang cukup kuat akan dapat memperoleh pengetahuan dengan sendirinya, dengan membaca teks yang ada yang tersedia melalui internet. Beberapa aplikasi pemrosesan bahasa alami yang mudah dilakukan mencakup pencarian informasi (atau penambangan teks) dan terjemahan mesin.

3.2 Artifical Inteligence

Teknologi telah dikembangkan oleh para peneliti, yang telah memungkinkan untuk mencapai ketepatan kata-kata yang masuk akal. Tepatnya, muncul pendekatan dan paradigma teknologi memainkan peran terpuji untuk terus meningkatkan integritas pengenalan ucapan. Sebaliknya telah menyatakan fakta bahwa teknologi ini tidak mampu cukup bersaing dengan akurasi pendengar manusia. Oleh karena itu, ini adalah salah satu tugas yang paling menantang bagi peneliti merancang dan mengembangkan tanpa cacat dan sangat efisien teknik pengenalan suara Dalam keadaan seperti itu, Pendekatan kecerdasan buatan bisa dianggap sebagai salah satu kesempatan terbesar, dalam hal mengenali pola pidato, secara akurat Hal ini disebabkan fakta bahwa buatan kecerdasan mengubah pidato menjadi terstruktur dengan baik algoritma, dengan tepat mengikuti semua tahap. Tahapan yang paling penting, yang terlibat dalam pidato Pengakuan melalui kecerdasan buatan mencakup representasi unit pidato, formulasi dan pengembangan dari algoritma pengenalan, serta demonstrasi yang benar masukan (ucapan).

3.3 Pattern Recognition

Pengenalan pola ditemukan paling umum dan teknik pengenalan ucapan yang banyak diadopsi. Metode ini terutama menggabungkan dua langkah penting, termasuk pola perbandingan dan latihan pola. Sejak didirikan studi bahwa karakteristik utama ini Metode yang digunakan adalah terstruktur dengan baik dan terpadu kerangka matematis. Kerangka matematika ini membantu dalam merumuskan representasi pidato yang konsisten pola; maka berakibat pada perolehan yang lebih akurat hasil.

3.4 Acoustic Phonetic

Pendekatan paling primitif Speech Recognition terutama didasarkan pada proses pencarian suara dan kata. Salah satu tujuan utama semacam itu kegiatan adalah untuk memberikan label yang memadai untuk sampel suara, untuk mengenali pola suara. Ini penting untuk memperhatikan bahwa metode tersebut ditemukan sebagai dasar dari pendekatan fonetis akustik. Sesuai dengan konsep akustik Pendekatan fonetik, ada fonem (unit fonetik) dan unit terbatas dalam bahasa lisan. Unit akustik ini Pendekatan fonetik secara luas dikategorikan oleh koleksi sifat akustik yang biasanya terlihat di sinyal ucapan.

4. Aplikasi

Telah diamati dari evaluasi penelitian, yang disajikan bahwa kecerdasan buatan saat ini sedang digunakan di berbagai bidang kehidupan, termasuk penemuan ilmiah, penginderaan jarak jauh, transportasi, penerbangan, hukum, kontrol robot, perdagangan saham, diagnosa medis, dan bahkan mainan. Namun, satu dari aplikasi kecerdasan buatan yang paling menonjol adalah pengenalan suara. Studi tentang pengenalan suara menunjukkan bahwa pendekatannya secara luas digunakan pada mesin penjawab pusat layanan pelanggan dan call center. Dalam akun ini, mengklaim bahwa perangkat lunak pengenalan suara memungkinkan komputer untuk menangani tingkat pertama pengolahan bahasa alami, teks pertambangan, dan dukungan pelanggan, untuk mendorong peningkatan dan penanganan pelanggan yang lebih baik; maka menghasilkan pelanggan kepuasan. Pengenalan ucapan adalah salah satu masalah yang sulit, karena dibutuhkan teknik yang terintegrasi. Pengenalan suara, sering terjadi masalah terjadi karena kurangnya kosa kata yang cukup banyak. Pada saat ini era, pendekatan pengenalan suara telah digunakan di berbagai wilayah yang berbeda, termasuk sistem telepon otomatis, ponsel, dll. Namun, pencapaian pengenalan suara yang bebas dari gangguan, khususnya untuk kemampuan pembicaraan secara terus-menerus, tetap merupakan masalah yang belum terpecahkan dan sulit.

5. Hasil dan pembahasan

Salah satu manfaat utama sistem pengenalan ucapan (Speech recognition) adalah memungkinkan pengguna melakukan pekerjaan lain secara bersamaan. Pengguna dapat berkonsentrasi pada operasi observasi dan manual, dan masih mengendalikan mesin dengan perintah input suara. Dengan mempelajari dan menggabungkan 2 metode pengenalan suara yang berbeda, dapat disajikan sebuah studi retrospektif tentang sistem pengenalan suara dan kecerdasan buatan dan membantu dalam memahami semua model statistik pada speech recognition (pengenalan suara). Juga telah merumuskan metode decoding yang berbeda, yang digunakan untuk tugas decoding yang realistis dan bahasa buatan terbatas.

5.1 Keutungan dan kerugian

a. Artifical intelligence

Metode ini merupakan salah satu metode terbaik pada pengenalan suara dalam hal menguraikan kata, karena kecerdasan buatan dapat melakukan tugasnya dengan baik dan relistis. kecerdasan buatan menggabungkan pendekatan algoritmik tertentu, yang mendorong konversi koheren dan transformasi ucapan ke dalam pola yang mudah dibaca, dan sebaliknya. Kelemahan atau keterbatasan nya adalah Speech Recognition adalah salah satu masalah yang sulit, karena dibutuhkan memiliki teknik yang sangat terintegrasi dan perhatian tinggi. Dalam pengenalan suara, sering terjadi masalah terjadi karena kurangnya kosa kata yang cukup banyak.

b. Natural Language Processing

Kemampuan mesin untuk membaca dan memahami pembicaraan yang dilakukan manusia secara alami dan mampu memperjemahkan kata kedalam teks ataupun membaca teks yang tersedia melalui berbagai media yang dapat dimengerti oleh mesin. Keterbatasan dari metode ini yaitu, sebagian besar sistem pengenalan adalah pembicara independen, perlu untuk melatih sistem untuk mengenali dialek setiap pengguna.Selain itu faktor tata bahasa yang digunakan oleh pembicara dan diterima oleh sistem, tingkat kebisingan, tipe kebisingan, posisi mikrofon, dan kecepatanbicara juga mempengaruhi kualitas penerimaan suara.

5.2 Pengembangan Speech Recognition

Speech Recognition saat ini sangat popular untuk dikembangkan, saat ini banyak peneliti yang mengembangkan berbagai metode dan teknik untuk proses pengenalan suara, menguraikan kata, menterjemahkan kata maupun suara dan melakukan kegiatan percakapan secara terus menerus secara berulang hingga dapat membantu semua pekerjaan manusia. Dari kedua metode diatas dapat dibuat inovasi baru terkait dengan pengembangan atau proses speech recognition menjadi lebih efektif dan akurat yaitu dengan menggabungkan artificial intelligence dan Natural language processing.

Proses menggabungkan kedua metode yang berberda dapat menghasilkan sebuah inovasi baru yaitu menguraikan suatu kata dengan kosakata yang ada dipadukan dengan kemampuan mesin dalam mengenali dan memahami suara maupun kata, kemudian dapat dihasilkan suatu metode baru yang dapat mengoptimalkan Speech Recognition sehingga aplikasi atau dukungan terhadap pengenalan suara dapat berjalan luas dan merevolusi bagaimana cara orang untuk berkomunikasi dan mampu menyediakan teknologi dimana speech recognition dapat dipergunakan secara global meliputi bisnis, ekonomi, kesehatan, pendidikan, dll.

6. Kesimpulan

Dapat disimpulkan dari hasil penelitian ini dari pengembangan 2 metode Speech Recognition dapat diketahui perbedaan serta kelemahan dan keuntungan masing-masing metode tersebut tentunya keduanya memiliki hasil postif yang harus positif yang harus diambil karena speech recognition pada AI mengunggulkan cara untuk menguraikan kata secara baik, tepat dan akurat dengan kosakata yang terbatas tentunya. Sedangkan NLP menghasilkan suatu gambaran bagaimana mesin dapat dilatih secara bertahap untuk memahami dan mengenal jenis kata maupun suara yang mampu diterjemahkan secara langsung untuk dibuat suatu umpan balik secara lisan maupun tulisan sehingga sangat memudahkan dan membantu pekerjaan manusia. Speech recognition mampu menjadi solusi yang tepat pada berbagai bidang kehidupan dimana proses bisnis, diagnosis medis, kontrol robot dan hukum dapat terbantukan dengan adanya speech recognition ini. Teknologi dimasa depan akan merubah cara pandang dan kerja melalui speech recognition dimana nantinya akan merevolusi berbagai bidang kehidupan dan memungkinkan pengguna untuk melakukan tugas lain secara bersamaan ketika mesin dapat dikenadilkan oleh perintah dari inputan atau masukan suara.

DAFTAR PUSTAKA

1. Irfana. Tabassum. T., Artificial Intelligence for Speech Recognition, April 18, 2010.

2. Khaled M. Alhawiti, Advances in Artificial Intelligence Using Speech Recognition, Vol:9, No:6, 2015

Anggota Kelompok : - Arif Sumarsono (1B117019)

- Sandi Duta Maulana (1B117040)

Kelas : 2KA05

Milan Tomic

Hi. I’m Designer of Blog Magic. I’m CEO/Founder of ThemeXpose. I’m Creative Art Director, Web Designer, UI/UX Designer, Interaction Designer, Industrial Designer, Web Developer, Business Enthusiast, StartUp Enthusiast, Speaker, Writer and Photographer. Inspired to make things looks better.