• Tiada Hasil Ditemukan

CPT346 – Natural Language Processing (Pemprosesan Bahasa Tabii)

N/A
N/A
Protected

Academic year: 2022

Share "CPT346 – Natural Language Processing (Pemprosesan Bahasa Tabii) "

Copied!
9
0
0

Tekspenuh

(1)

2/- SULIT First Semester Examination

2019/2020 Academic Session December 2019 / January 2020

CPT346 Natural Language Processing (Pemprosesan Bahasa Tabii)

Duration : 2 hours (Masa : 2 jam)

Please ensure that this examination paper contains NINE (9) printed pages before you begin the examination.

[Sila pastikan bahawa kertas peperiksaan ini mengandungi SEMBILAN (9) muka surat yang bercetak sebelum anda memulakan peperiksaan ini.]

Instructions: Answer all FOUR (4) questions.

[Arahan: Jawab kesemua EMPAT (4) soalan.]

You may answer the questions either in English or in Bahasa Malaysia.

[Anda dibenarkan menjawab soalan sama ada dalam bahasa Inggeris atau bahasa Malaysia.]

In the event of any discrepancies, the English version shall be used.

[Sekiranya terdapat sebarang percanggahan pada soalan peperiksaan, versi bahasa Inggeris hendaklah diguna pakai.]

(2)

3/- SULIT 1. (a) A person can change the pitch in his/her speech.

Manusia boleh menukar kelangsingan dalam suaranya.

(i) Explain two (2) functions of pitch in speech.

Terangkan dua (2) fungsi kelangsingan dalam pertuturan.

(16/100) (ii) Explain the steps to calculate the frequency of the pitch, if given a

waveform.

Terangkan cara mengira frekuensi bagi kelangsingan, jika diberi satu bentuk gelombang.

(16/100) (b) Explain three (3) articulation features linguists use to classify vowels in the

cardinal vowel diagram of the International Phonetic Alphabets (IPA).

Terangkan tiga (3) ciri artikulasi yang digunakan ahli bahasa untuk mengklasifikasikan huruf vokal dalam rajah vokal kardinal bagi Aksara Fonetik Anatarabangsa (AFA).

(16/100) (c) Differentiate one (1) acoustic feature of plosive and fricative by referring to a

spectrogram, and give one (1) example of plosive and fricative.

Bezakan satu (1) ciri-ciri akustik plosif dan frikatif dengan merujuk kepada spektrogram, dan berikan satu (1) contoh plosif dan fricatif.

(20/100)

(3)

4/- SULIT (d) Analyze the French verb “sortir” (meaning in English: exit) when the word is

used with different pronoun (je, il, nous, j’) in present, past and future tense.

Analisis akan kata kerja Perancis "sortir" (makna dalam bahasa Melayu: keluar) apabila perkataan tersebut digunakan dengan kata ganti nama yang berbeza (je, il, nous, j’) dalam kala kini, lampau dan depan.

je sors -> je sortir+Present il sort -> il sortir+Present

nous sortons -> nous sortir+Present je sortis -> je sortir+Past

il sortit -> il sortir+Past

nous sortîmes -> nous sortir+Past j'aurai sorti -> je sortir+Future il aura sorti -> il sortir+Future

nous aurons sorti -> nous sortir+Future

Based on your analysis, construct regular expressions in Perl to convert the different forms of the verb “sortir” (e.g. sorts, sort, sortons, sortis…) to

“sortir+Present”, “sortir+Past, or “sortir+Future”. The regular expressions must be general to be used for all verbs with the same forms.

Berdasarkan analisis anda, bina ungkapan nalar dalam Perl untuk mengubah pelbagai kata kerja "sortir" yang berlainan bentuk (contohnya sorts, sort, sortons, sortis…) kepada "sortir+Present", "sortir+Past, atau "sortir+Future".

Ungkapan nalar mesti umum untuk digunakan untuk semua kata kerja dengan bentuk yang sama.

(32/100)

(4)

5/- SULIT 2. You are given a text. You want to use it to create a language model to predict a

sentence given some words.

Anda diberi suatu teks. Anda mahu membina suatu model bahasa untuk meramal satu ayat apabila diberi perkataan.

(a) Tokenize and then normalize the text given above. Write the output produced at each step.

Tokenisasi dan normalisasikan teks yang diberi di atas. Tuliskan output yang dihasilkan pada setiap langkah.

(16/100) (b) Construct a word bigram language model from the output of (2a).

Bina satu model bahasa perkataan bigram daripada output (2a).

(20/100) (c) What is the purpose of interpolation? Show an example to interpolate the

bigram for the words “rough cut” with the weight, λ=0.9.

Apakah tujuan interpolasi? Tunjukkan satu contoh untuk menginterpolasi bigram bagi perkataan “rough cut” dengan pemberat, λ = 0.9.

(20/100) (d) If a sentence consists of 3 tokens, given the first token “a” and the language

model in (b), draw the weighted finite state machine, and predict the most probable sentence(s).

Sekiranya ayat terdiri daripada 3 token, diberi token pertama "a" dan model bahasa dalam (b), lakarkan dan ramalkan ayat dengan kebarangkalain tertinggi.

(24/100)

Old Mother Hunt had a rough cut punt.

Not a punt cut rough, But a rough cut punt.

(5)

6/- SULIT (e) Sketch and then describe the usage of recurrent neural network to build

language model with the text given in question 2.

Lakarkan dan kemudian terangkan penggunaan rangkaian neural berulang untuk membina model bahasa dengan teks yang diberikan dalam soalan 2.

(20/100)

3. (a) When the UK voted to leave the European Union, people were in shock and flooded social media with their opinions on the surprising result. Since it was such a polarizing event, we thought it would be interesting to analyze the conversation on Twitter, so we collected more than 450,000 tweets with the

#Brexit hashtag. The data confirmed that people’s opinion was extremely divided into positive, negative and neutral (F. Pascual, Brexit analysis on Twitter using Machine Learning, 2016)

Ketika UK mengundi untuk meninggalkan Kesatuan Eropah, orang ramai terkejut dan membanjiri media sosial dengan pendapat mereka mengenai hasil yang mengejutkan. Memandangkan ia adalah satu peristiwa polarisasi, kami fikir ia akan menjadi menarik untuk menganalisis perbualan di Twitter, jadi kami mengumpulkan lebih daripada 450,000 tweet dengan hashtag #Brexit. Data mengesahkan bahawa pendapat orang terbahagi kepada positif, negatif dan neutral (F. Pascual, Brexit analysis on Twitter using Machine Learning, 2016)

(i) Select a suitable machine learning technique to analyse Brexit based on the above statement and explain why by giving example.

Pilih teknik pembelajaran mesin yang sesuai untuk menganalisis Brexit berdasarkan kenyataan di atas dan jelaskan sebab dengan memberikan contoh.

(20/100) (ii) Identify and explain all steps to implement 3(a)(i). Justify your answer by

giving example for each step.

Kenal pasti langkah-langkah untuk melaksanakan 3(a)(i). Jelaskan jawapan anda dengan memberikan contoh bagi setiap langkah.

(30/100)

(6)

7/- SULIT (b) Attendance is collected during the company events. They found out that only

58 came to the event and 22 staffs were absent. There were 40 female staffs and 40 male staffs. Based on the information from Human Resource Department, 36 staffs are single, and others are married. 6 of them have discipline problems and had received warning letters, while previously 2 staffs have been suspended from works for few weeks. This data collection is to predict staff tendency to be absent in any company activities based on their historical backgrounds.

Kehadiran dikumpulkan semasa acara syarikat. Mereka mendapati bahawa hanya 58 hadir ke majlis itu dan 22 orang kakitangan tidak hadir. Terdapat 40 kakitangan perempuan dan 40 orang kakitangan lelaki. Berdasarkan maklumat dari Jabatan Sumber Manusia, 36 kakitangan adalah bujang, dan yang lainnya berkahwin. 6 daripada mereka mempunyai masalah disiplin dan telah menerima surat amaran, sementara 2 kakitangan sebelum ini telah digantung dari kerja selama beberapa minggu. Pengumpulan data ini adalah untuk meramalkan kecenderungan pekerja tidak hadir dalam sebarang aktiviti syarikat berdasarkan latar belakang sejarah mereka.

(i) Identify the information gain by calculating Iafter for ‘staff relationship’

attribute where, Ibefore =0.8486 Isingle =0.582 and Imarried =0.9.

Kenal pasti gandaan maklumat dengan mengira Iafter untuk atribut

‘perhubungan kakitangan’ di mana, Ibefore=0.8486, Isingle=0.582 dan Imarried=0.9.

(25/100)

(7)

8/- SULIT (ii) Study the above statement and find the attributes for gaining information

to predict staff tendency to be absence. Based on the information gain, discuss how it will affect the classification.

Kaji pernyataan di atas dan cari atribut-atribut bagi mendapatkan maklumat untuk meramalkan kecenderungan pekerja untuk tidak hadir.

Berdasarkan pencerahan maklumat, bincangkan bagaimana ia akan mempengaruhi klasifikasi.

(25/100)

4. (a) (i) Draw ‘dependency tree’ and ‘parse tree’ for the sentence “the most beautiful princess” and “puteri yang paling cantik” and discuss your answer.

Lukis pohon ketergantungan dan pohon huraian untuk ayat "the most beautiful princess" dan "puteri yang paling cantik" dan bincangkan jawapan anda.

(25/100) (ii) Explain the properties of dependency grammar.

Terangkan sifat-sifat tatabahasa sandaran.

(15/100)

(8)

9/- SULIT (b) Identify the missing steps at iterations (It.) 2, 3, 4, 8, and 11 for shift-reduce

algorithm to parse ‘the cop cleaned the gun’ as shown in Table 1.

Kenal pasti langkah-langkah yang hilang pada lelaran (It.) 2, 3, 4, 8, dan 11 bagi algoritma shift-reduce untuk menghuraikan ‘the cop cleaned the gun’

seperti yang ditunjukkan dalam Jadual 1.

Table 1/Jadual 1

It. Stack S/R Word list

0 [the, cop, cleaned, the, gun]

1 [the] Shift [cop, cleaned, the, gun]

2 [det] ______ [cop, cleaned, the, gun]

3 [det, cop] ______ [cleaned, the, gun]

4 [det, noun] ______ [cleaned, the, gun]

5 [np] Reduce [cleaned, the, gun]

6 [np, cleaned] Shift [the, gun]

7 [np, v] Reduce [the, gun]

8 [np, v, the] ______ [gun]

9 [np, v, det] Reduce [gun]

10 [np, v, det, gun] Shift []

11 [np, v, det, n] ______ []

12 [np, v, np] Reduce []

13 [np, vp] Reduce []

14 [s] Reduce []

(20/100) (c) Use ‘tagging the beginning and end of a group’ and ‘tagging words’ techniques

to form noun group tagging based on the following sentence:

“The boy and girl were holding hands as they crossed the bridge to on the way to town”

Gunakan teknik ‘menandakan permulaan dan akhir perkataan bagi sebuah kumpulan’ dan ‘kata-kata penandaan’ untuk membentuk penanda kumpulan kata benda berdasarkan ayat berikut:

"Budak lelaki dan perempuan memegang tangan sambil melintasi jambatan itu dalam perjalanan ke bandar"

(20/100)

(9)

SULIT (d) Identify the challenges when using WordNet in text document clustering?

Explain you answer.

Kenal pasti cabaran-cabaran apabila menggunakan WordNet dalam pengelompokan dokumen teks? Jelaskan jawapan anda.

(20/100)

- oooOooo -

Rujukan

DOKUMEN BERKAITAN

Kekeliruan juga berlaku apabila terdapat dua kata kerja yang sama ejaannya tetapi mempunyai makna yang berbeza. Contohnya kata kerja kiru, bermaksud ‘potong’dan

Dengan melakukan analisis bentuk kata, kajian ini dapat meneliti perubahan makna nahu yang berlaku terhadap kata pinjaman yang mengalami proses pembentukan kata dalam

Selain itu, terdapat juga golongan kata dalam BOAD mempunyai persamaan dengan bahasa Melayu seperti Kata Namaan, Kata Kerja dan Kata Adverba.. Oleh yang demikian,

(2017) mengkaji unsur disfemisme yang terdapat dalam teks terjemahan makna al-Quran dari sudut pandangan sosiolinguistik Melayu dengan memfokuskan terjemahan kata ganti nama diri

Proses menukarkan teks kepada penuturan dilakukan oleh sistem yang akan memisahkan suku kata tersebut bagi setiap perkataan berdasarkan peraturan-peraturan Bahasa Melayu..

Daripada analisis 1000 ayat berita hiburan yang mengandungi percampuran kata bahasa Inggeris, didapati kata nama, kata adjektif dan kata kerja bahasa Inggeris banyak dicampurkan

Andaikan anda mempunyai suatu senarai perbendaharaan kata, terangkan bagaimana anda menggunakan senarai perbendaharaan kata tersebut dan algoritma jarak edit minimum

(e) Gunakan kebarangkalian transisi dan kebolehjadian pemerhatian yang diberikan di bawah untuk mencari golongan kata yang paling berkemungkinan bagi setiap perkataan, jika