Speech Recognition Dengan Menggunakan
Artificial Intelligence dan Natural
Language Processing
Arif Sumarsono, Sandi Duta
Maulana
Jurusan Sistem Informasi, Fakultas Teknologi
Informasi, Universitas Gunadarma
Abstrak
Speech recognition adalah tekonologi yang mampu mendeteksi dan mengenali
suara atau perkataan yang diucapkan seseorang tak peduli darimana suara itu
berasal. Speech recognition mampu mengenali suara secara otomatis dan mampu
menterjemahkan nya ke dalam teks ataupun tulisan. Metode yang digunakan pada speech recognition dapat berupa
metode Natural language processing (NLP) mengacu pada metode kecerdasan buatan
untuk berkomunikasi dengan komputer dalam bahasa alami seperti bahasa Inggris.
Tujuan utama program NLP adalah untuk memahami masukan dan tindakan awal.
Kata-kata masukan tersebut diturunkan dan disesuaikan dengan kata-kata yang
diketahui secara internal. Selain itu terdapat juga beberapa metode statistik
paling menonjol meliputi Pengenalan pola, Fonetik akustik dan Artificial
Intelligence.
1. Pendahuluan
Proses pengenalan
suara dilakukan oleh komponen perangkat lunak yang dikenal sebagai mesin
pengenal ucapan. Fungsi utama dari mesin pengenal ucapan adalah mengolah
kata-kata input dan menerjemahkannya ke dalam teks yang dimengerti oleh sebuah
aplikasi. Aplikasi bisa menafsirkan hasil pengakuan sebagai perintah. Dalam
kasus ini, aplikasi adalah aplikasi perintah dan kontrol. Jika aplikasi
menangani teks yang dikenali sebagai teks, maka aplikasi ini dianggap sebagai
aplikasi pendiktean. Pengguna berbicara kepada komputer melalui mikrofon, yang
pada gilirannya mengidentifikasi makna kata-kata dan mengirimkannya ke
perangkat NLP untuk diproses lebih lanjut. Setelah dikenali, kata-kata itu bisa
digunakan dalam berbagai aplikasi seperti display, robotika, perintah ke
komputer, dan dikte.
Pada dasarnya, pendekatan ini berurusan dengan konversi kata-kata yang diucapkan menjadi teks. Pengenalan ucapan juga disebut ASR (otomatis speech recognition), STT (speech to text) atau hanya pengenalan suara komputer.
Pengenalan ucapan juga dapat dipahami sebagai bidang ilmu komputer, yang berhubungan dengan perancangan dan pengembangan sistem komputer, untuk mengenali kata-kata yang diucapkan.
Metode pengenalan
ucapan lainya, yaitu digunakan
untuk menguraikan
kata adalah Kecerdasan buatan (AI) bisa jadi dipahami
sebagai kombinasi dari pengenalan pola pendekatan
dan pendekatan fonetis akustik. kecerdasan buatan adalah teknik yang paling
berkembang dan efektif, yang mendukung pengenalan suara tanpa cela dan akurat.
Ini karena; kecerdasan buatan menggabungkan pendekatan algoritmik tertentu,
yang mendorong konversi koheren dan transformasi ucapan ke dalam pola yang
mudah dibaca, dan sebaliknya.
Penelitian ini ditunjukan untuk menentukan metode penelitian mana yang
terbaik diantara natural language processing (NLP) dan artificial inteligence
(AI). Pada dasarnya pembuatan speech recognition menggunakan atau menggabungkan
2 metode ditujukan untuk mengoptimalkan proses pengenalan suara yang mampu
menterjemahkan kata-kata dengan baik dan cepat terlebih jika aplikasi speech
recognition yang dibuat dapat berjalan dengan baik dan optimal.
2. Speech Recognition
2.1 Pengenalan Speech Recognition
Pengguna berbicara ke komputer melalui
mikrofon, yang pada gilirannya, mengidentifikasi themdaing kata-kata dan
mengirimkannya ke perangkat NLP untuk diproses lebih lanjut. Setelah dikenali,
kata-kata tersebut dapat digunakan dalam berbagai aplikasi seperti display,
robotika, perintah ke komputer, dan pendiktean. Kata recognizer adalah sistem
pengenalan ucapan yang mengidentifikasi kata-kata individual. Sistem perintis
awal hanya bisa mengenali huruf dan angka individual. Saat ini, mayoritas
sistem pengenalan kata adalah pengenal kata dan memiliki lebih dari 95%
pengakuan. Sistem seperti itu mampu mengenali kosa kata kecil dari kata-kata
tunggal atau ungkapan-ungkapan sederhana. Seseorang harus mengucapkan informasi
masukan dengan kata-kata lisan yang jelas, dengan jeda di antara kata-kata,
untuk memasukkan data di komputer. Pengenal ucapan terus menerus jauh lebih
sulit dibangun daripada pengenal kata. Anda berbicara kalimat lengkap ke
komputer. Masukan akan dikenali dan kemudian diproses oleh NLP.
2.2 Proses Speech Recognition
Gambar
3.1 Proses pengenalan suara
Setelah proses pelatihan, kata-kata
yang diucapkan pengguna akan menghasilkan teks; Keakuratan ini akan membaik
dengan dikte lebih lanjut dan penggunaan prosedur koreksi secara teliti. Dengan
sistem yang terlatih, sekitar 95% kata yang diucapkan bisa ditafsirkan dengan
benar. Sistem dapat dilatih untuk mengidentifikasi kata-kata dan ungkapan
tertentu dan memeriksa dokumen standar pengguna untuk mengembangkan file suara
yang akurat bagi individu. Namun, masih banyak faktor lain yang perlu
dipertimbangkan untuk mencapai tingkat pengenalan yang tinggi. Tidak ada
keraguan bahwa perangkat lunak itu bekerja dan dapat membebaskan banyak peserta
didik, namun prosesnya bisa jauh lebih memakan waktu daripada yang dapat
dihargai pengguna pertama kali dan hasilnya seringkali bisa menjadi miskin. Ini
bisa sangat mendemotivasi, dan banyak pengguna menyerah pada tahap ini. Dukungan
kualitas dari seseorang yang mampu menunjukkan kepada pengguna cara paling
efektif menggunakan perangkat lunak sangat penting.
2.3 Model
Statistik Speech Recognition
A. Model
Akustik (AM)
Salah satu model yang paling menonjol dan diadopsi secara
luas Pengenalan suara adalah model akustik (AM). Telah didirikan bahwa model
akustik menangkap ucapan pengakuan karakteristik unit pengakuan dasar. Menurut
unit pengakuan dapat berada pada tingkat fonem, tingkat suku kata, dan pada
tingkat kata. Beberapa kekurangan dan kendala menjadi pertimbangan dengan
pemilihan masing-masing dari unit ini Referensi telah mengklaim bahwa untuk
LVCSR (kosakata besar pengenalan suara terus-menerus) sistem, fonem adalah unit
yang paling menguntungkan. Model Markov tersembunyi dan jaringan syaraf tiruan
(NN) adalah pendekatan yang diadopsi secara luas, yang sedang digunakan untuk
pemodelan akustik pidato sistem pengenalan
B. Model
Bahasa (LM)
Model bahasa adalah statistik lain yang paling signifikan
model pengenalan suara Salah satu tujuan utama Model bahasa adalah untuk
menyampaikan atau mentransmisikan tingkah laku bahasa. Hal ini disebabkan oleh
fakta bahwa ia bermaksud untuk meramalkan adanya urutan kata tertentu dalam
target pidato. Dari aspek mesin, model pengenalan suara ini membantu
meminimalkan ruang pencarian yang handal dan kredibel kombinasi kata-kata
Penting untuk memperhatikan bahasa itu model dikembangkan dengan bantuan CMU
statistik LM toolkit.
C. Model
Leksikon
Telah diklaim oleh model leksikon yang menyediakan
pengucapan kata-kata dalam pidato target, yang telah untuk diakui Sesuai dengan
persepsi, Model leksikon memainkan peran yang tak terelakkan dan tak
terpisahkan pengenalan ucapan otomatis Hal ini disebabkan fakta bahwa operasi
model leksikal didasarkan pada dua parameter, yaitu, akses keseluruhan kata,
dan dekomposisi keseluruhan pidato ke dalam potongan kecil Proses ini akhirnya
menghasilkan sesuai pengakuan pidato Misalnya, jika speech recognition Model
dalam bahasa asli, model leksikon harus ada dirumuskan dalam bahasa asli, untuk
mendapatkan hasil yang berharga dan bermanfaat. Dalam hal ini, buatan netral
Fonem jaringan dapat dianggap sebagai salah satu yang terbesar pendekatan,
karena membantu mengembangkan leksikon asli dari leksikon asing; Oleh karena
itu, menghasilkan pemetaan telepon Bahasa Inggris ke telepon bahasa asli. Itu
penting untuk memperhatikan bahwa keseluruhan proses dilakukan, sementara
mengingat informasi kontekstual.
D. Hidden Markov Model (HMM)
Markov adalah alat statistik yang
paling populer, yang digunakan untuk pemodelan data telah dianalisis bahwa HMM
telah memainkan peran terpuji dalam mengurangi masalah klasifikasi ucapan, yang
merupakan salah satu isu utama, dalam pendekatan pengenalan suara. HMM
memasukkan berbagai isu, yang digunakan untuk mempengaruhi keakuratan
pengenalan suara. Untuk menyelesaikan masalah tersebut, algoritma proyeksi
subruang dan tertimbang tersembunyi model Markov diusulkan.
2.4 Tools
A.
Pencarian dan optimasi
Banyak masalah dalam AI dapat
dipecahkan secara teori dengan mencari secara cerdas melalui banyak solusi yang
mungkin Penalaran dapat dikurangi untuk melakukan pencarian. Misalnya, bukti
logis dapat dilihat sebagai mencari jalan yang mengarah dari premis ke kesimpulan,
di mana setiap langkah adalah penerapan aturan inferensi. Algoritma perencanaan
mencari melalui pohon tujuan dan sasaran, mencoba menemukan jalan menuju
sasaran sasaran, sebuah proses yang disebut analisis berarti-akhir. Algoritma
robot untuk memindahkan anggota badan dan benda tangkapan menggunakan
penelusuran lokal di ruang konfigurasi. Banyak algoritma pembelajaran
menggunakan algoritma pencarian berdasarkan optimasi.
B.
Logika
Beberapa bentuk logika yang berbeda
digunakan dalam penelitian AI. Logika proposisional atau sentimental adalah
logika pernyataan yang benar atau salah. Logika orde pertama juga memungkinkan
penggunaan quantifier dan predikat, dan dapat mengungkapkan fakta tentang
objek, sifat mereka, dan hubungannya satu sama lain. Logika fuzzy, adalah versi
logika orde pertama yang memungkinkan kebenaran astatement diwakili sebagai
nilai antara 0 dan 1, bukan hanya True (1) atau False (0). Sistem fuzzy dapat
digunakan untuk penalaran yang tidak pasti dan telah banyak digunakan dalam
sistem kontrol produk industri modern dan konsumen.
C.
Metode probabilistik untuk penalaran
yang tidak pasti
Banyak masalah di AI (dalam penalaran,
perencanaan, pembelajaran, persepsi dan robotika) mewajibkan agen untuk
beroperasi dengan informasi yang tidak lengkap atau tidak pasti. Dimulai pada
akhir tahun 80an dan awal tahun 90an, Judea Pearl dan yang lainnya memperjuangkan
penggunaan metode yang diambil dari teori probabilitas dan ekonomi untuk
merancang sejumlah alat canggih untuk memecahkan masalah ini.
D.
Klasifikasi dan metode pembelajaran
statistik
Aplikasi AI yang paling sederhana
dapat dibagi menjadi dua jenis: pengklasifikasi ("jika thendiamond
mengkilap") dan pengendali ("jika mengkilap lalu mengambil").
Controller bagaimanapun juga mengklasifikasikan kondisi sebelum mengambil
tindakan, dan karena itu klasifikasi merupakan bagian utama dari banyak sistem
AI. Classifier adalah fungsi yang menggunakan pencocokan pola untuk menentukan
kecocokan terdekat. Mereka dapat disetel sesuai contoh, membuatnya sangat
menarik untuk digunakan di AI. Ini examplesare dikenal sebagai pengamatan atau
pola. Dalam pembelajaran yang diawasi, setiap pola termasuk dalam kelas yang
telah ditentukan sebelumnya. Sebuah kelas bisa dilihat sebagai keputusan yang
harus dibuat. Semua pengamatan yang disertakan dengan label kelas mereka
dikenal sebagai kumpulan data. Bila pengamatan baru diterima, pengamatan
tersebut dikelompokkan berdasarkan pengalaman sebelumnya.
E.
Jaringan syaraf tiruan
Jaringan syaraf tiruan adalah kelompok
node yang saling berhubungan, mirip dengan jaringan neuron yang luas di otak
manusia. Studi jaringan syaraf tiruan dimulai pada dekade sebelum penelitian AI
dimulai, dalam karya Walter Pitts dan Warren McCullough. Periset penting
lainnya adalah Frank Rosenblatt, yang menemukan perceptron dan PaulWerbos yang
mengembangkan algoritma propagasi balik.
3. Metode
Speech Recognition
3.1 Natural Language Processing
Natural Language Processing memberi
mesin kemampuan untuk membaca dan memahami bahasa yang digunakan manusia untuk
berbicara. Banyak peneliti berharap bahwa sistem pemrosesan natural language
yang cukup kuat akan dapat memperoleh pengetahuan dengan sendirinya, dengan
membaca teks yang ada yang tersedia melalui internet. Beberapa aplikasi
pemrosesan bahasa alami yang mudah dilakukan mencakup pencarian informasi (atau
penambangan teks) dan terjemahan mesin.
3.2 Artifical Inteligence
Teknologi telah dikembangkan oleh para
peneliti, yang telah memungkinkan untuk mencapai ketepatan kata-kata yang masuk
akal. Tepatnya, muncul pendekatan dan paradigma teknologi memainkan peran
terpuji untuk terus meningkatkan integritas pengenalan ucapan. Sebaliknya telah menyatakan fakta bahwa teknologi ini
tidak mampu cukup bersaing dengan akurasi pendengar manusia. Oleh karena itu,
ini adalah salah satu tugas yang paling menantang bagi peneliti merancang dan
mengembangkan tanpa cacat dan sangat efisien teknik pengenalan suara Dalam
keadaan seperti itu, Pendekatan kecerdasan buatan bisa dianggap sebagai salah
satu kesempatan terbesar, dalam hal mengenali pola pidato, secara akurat Hal
ini disebabkan fakta bahwa buatan kecerdasan mengubah pidato menjadi
terstruktur dengan baik algoritma, dengan tepat mengikuti semua tahap. Tahapan
yang paling penting, yang terlibat dalam pidato Pengakuan melalui kecerdasan
buatan mencakup representasi unit pidato, formulasi dan pengembangan dari
algoritma pengenalan, serta demonstrasi yang benar masukan (ucapan).
3.3 Pattern Recognition
Pengenalan pola ditemukan paling umum
dan teknik pengenalan ucapan yang banyak diadopsi. Metode ini terutama
menggabungkan dua langkah penting, termasuk pola perbandingan dan latihan pola.
Sejak didirikan studi bahwa karakteristik utama ini Metode yang digunakan
adalah terstruktur dengan baik dan terpadu kerangka matematis. Kerangka
matematika ini membantu dalam merumuskan representasi pidato yang konsisten
pola; maka berakibat pada perolehan yang lebih akurat hasil.
3.4
Acoustic
Phonetic
Pendekatan paling primitif Speech
Recognition terutama didasarkan pada proses pencarian suara dan kata. Salah
satu tujuan utama semacam itu kegiatan adalah untuk memberikan label yang
memadai untuk sampel suara, untuk mengenali pola suara. Ini penting untuk
memperhatikan bahwa metode tersebut ditemukan sebagai dasar dari pendekatan
fonetis akustik. Sesuai dengan konsep akustik Pendekatan fonetik, ada fonem
(unit fonetik) dan unit terbatas dalam bahasa lisan. Unit akustik ini Pendekatan
fonetik secara luas dikategorikan oleh koleksi sifat akustik yang biasanya
terlihat di sinyal ucapan.
4. Aplikasi
Telah
diamati dari evaluasi penelitian, yang disajikan bahwa kecerdasan buatan saat
ini sedang digunakan di berbagai bidang kehidupan, termasuk penemuan ilmiah,
penginderaan jarak jauh, transportasi, penerbangan, hukum, kontrol robot,
perdagangan saham, diagnosa medis, dan bahkan mainan. Namun, satu dari aplikasi
kecerdasan buatan yang paling menonjol adalah pengenalan suara. Studi tentang
pengenalan suara menunjukkan bahwa pendekatannya secara luas digunakan pada
mesin penjawab pusat layanan pelanggan dan call center. Dalam akun ini,
mengklaim bahwa perangkat lunak pengenalan suara memungkinkan komputer untuk
menangani tingkat pertama pengolahan bahasa alami, teks pertambangan, dan
dukungan pelanggan, untuk mendorong peningkatan dan penanganan pelanggan yang
lebih baik; maka menghasilkan pelanggan kepuasan. Pengenalan ucapan adalah
salah satu masalah yang sulit, karena dibutuhkan teknik yang terintegrasi. Pengenalan suara, sering
terjadi masalah terjadi karena kurangnya kosa kata yang cukup banyak. Pada saat
ini era, pendekatan pengenalan suara telah digunakan di berbagai wilayah yang
berbeda, termasuk sistem telepon otomatis, ponsel, dll. Namun, pencapaian
pengenalan suara yang bebas dari gangguan, khususnya untuk kemampuan
pembicaraan secara terus-menerus, tetap merupakan masalah yang belum
terpecahkan dan sulit.
5. Hasil
dan pembahasan
Salah satu manfaat
utama sistem pengenalan ucapan (Speech recognition) adalah memungkinkan
pengguna melakukan pekerjaan lain secara bersamaan. Pengguna dapat
berkonsentrasi pada operasi observasi dan manual, dan masih mengendalikan mesin
dengan perintah input suara. Dengan mempelajari dan menggabungkan 2
metode pengenalan suara yang berbeda, dapat disajikan sebuah studi
retrospektif tentang sistem pengenalan suara dan kecerdasan buatan dan membantu
dalam memahami semua model statistik pada speech recognition (pengenalan
suara). Juga telah merumuskan metode decoding yang berbeda, yang digunakan
untuk tugas decoding yang realistis dan bahasa buatan terbatas.
5.1 Keutungan dan kerugian
a. Artifical intelligence
Metode ini merupakan salah satu metode
terbaik pada pengenalan suara dalam hal menguraikan kata, karena kecerdasan
buatan dapat melakukan tugasnya dengan baik dan relistis. kecerdasan buatan menggabungkan pendekatan algoritmik tertentu,
yang mendorong konversi koheren dan transformasi ucapan ke dalam pola yang
mudah dibaca, dan sebaliknya. Kelemahan atau keterbatasan nya adalah Speech Recognition adalah salah satu masalah yang sulit, karena dibutuhkan memiliki teknik yang sangat terintegrasi dan
perhatian tinggi. Dalam pengenalan
suara, sering terjadi masalah terjadi
karena kurangnya kosa kata yang cukup banyak.
b. Natural Language Processing
Kemampuan mesin untuk membaca dan
memahami pembicaraan yang dilakukan manusia secara alami dan mampu
memperjemahkan kata kedalam teks ataupun membaca teks yang tersedia melalui
berbagai media yang dapat dimengerti oleh mesin. Keterbatasan dari metode ini yaitu, sebagian besar sistem pengenalan adalah pembicara
independen, perlu untuk melatih sistem untuk mengenali dialek setiap pengguna.Selain itu faktor tata bahasa yang digunakan oleh pembicara dan diterima oleh
sistem, tingkat kebisingan, tipe kebisingan, posisi mikrofon, dan kecepatanbicara juga mempengaruhi kualitas
penerimaan suara.
5.2 Pengembangan Speech Recognition
Speech Recognition saat ini sangat
popular untuk dikembangkan, saat ini banyak peneliti yang mengembangkan
berbagai metode dan teknik untuk proses pengenalan suara, menguraikan kata,
menterjemahkan kata maupun suara dan melakukan kegiatan percakapan secara terus
menerus secara berulang hingga dapat membantu semua pekerjaan manusia. Dari
kedua metode diatas dapat dibuat inovasi baru terkait dengan pengembangan atau
proses speech recognition menjadi lebih efektif dan akurat yaitu dengan
menggabungkan artificial intelligence dan Natural language processing.
Proses menggabungkan kedua metode yang
berberda dapat menghasilkan sebuah inovasi baru yaitu menguraikan suatu kata
dengan kosakata yang ada dipadukan dengan kemampuan mesin dalam mengenali dan
memahami suara maupun kata, kemudian dapat dihasilkan suatu metode baru yang
dapat mengoptimalkan Speech Recognition sehingga aplikasi atau dukungan
terhadap pengenalan suara dapat berjalan luas dan merevolusi bagaimana cara orang untuk berkomunikasi dan mampu
menyediakan teknologi dimana speech recognition dapat dipergunakan secara
global meliputi bisnis, ekonomi, kesehatan, pendidikan, dll.
6. Kesimpulan
Dapat
disimpulkan dari hasil penelitian ini dari pengembangan 2 metode Speech Recognition
dapat diketahui perbedaan serta kelemahan dan keuntungan masing-masing metode
tersebut tentunya keduanya memiliki hasil postif yang harus positif yang harus
diambil karena speech recognition pada AI mengunggulkan cara untuk menguraikan
kata secara baik, tepat dan akurat dengan kosakata yang terbatas tentunya. Sedangkan
NLP menghasilkan suatu gambaran bagaimana mesin dapat dilatih secara bertahap
untuk memahami dan mengenal jenis kata maupun suara yang mampu diterjemahkan
secara langsung untuk dibuat suatu umpan balik secara lisan maupun tulisan
sehingga sangat memudahkan dan membantu pekerjaan manusia. Speech recognition
mampu menjadi solusi yang tepat pada berbagai bidang kehidupan dimana proses
bisnis, diagnosis medis, kontrol robot dan hukum dapat terbantukan dengan
adanya speech recognition ini. Teknologi dimasa depan akan merubah cara pandang
dan kerja melalui speech recognition dimana nantinya akan merevolusi berbagai
bidang kehidupan dan memungkinkan pengguna untuk melakukan tugas lain secara
bersamaan ketika mesin dapat
dikenadilkan oleh perintah dari inputan atau masukan suara.
DAFTAR PUSTAKA
1. Irfana.
Tabassum. T., Artificial Intelligence for Speech Recognition, April 18, 2010.
2.
Khaled M. Alhawiti, Advances
in Artificial Intelligence Using Speech Recognition, Vol:9, No:6, 2015
Anggota Kelompok :
- Arif
Sumarsono (1B117019)
- Sandi
Duta Maulana (1B117040)
Kelas
: 2KA05
0 komentar:
Post a Comment