dc.contributor | ทวีศักดิ์ บุทอง | th |
dc.contributor.advisor | อุดม ทุมโฆสิต | th |
dc.contributor.author | ทวีศักดิ์ บุทอง | th |
dc.date.accessioned | 2022-03-25T04:31:40Z | |
dc.date.available | 2022-03-25T04:31:40Z | |
dc.identifier.uri | https://repository.nida.ac.th/handle/662723737/5685 | th |
dc.description.abstract | Natural language processing (NLP) aims to analyze a large amount of natural language data. The NLP computes textual data via a set of data processing elements which is sequentially connected to a path data pipeline. Several data pipelines exist for a given set of textual data with various degrees of model accuracy. Instead of trying all the possible paths, such as random search or grid search to find an optimal path, we utilized the Bayesian optimization to search along with the space of hyper-parameters learning. In this study, we proposed a data pipeline selection for NLP using Sequential Model-based Optimization (SMBO). We implemented the SMBO for the NLP data pipeline using Hyperparameter Optimization (Hyperopt) library with Tree of Parzen Estimators (TPE) model and Adaptive Tree of Parzen Estimators (A-TPE) model for a surface model with expected improvement (EI) acquired function. | th |
dc.description.abstract | การประมวลผลภาษาธรรมชาติ หรือ Natural language processing (NLP) มีวัตถุประสงค์เพื่อวิเคราะห์ข้อมูลภาษามนุษย์ ให้คอมพิวเตอร์สามารถเข้าใจความหมาย หรือบริบทของข้อความ ซึ่งมีขนาดใหญ่และมีความซับซ้อนสูง ทั้งด้านรูปแบบหรือความหมายของคำไม่เหมือนกันในแต่ละภาษา รวมถึงไวยากรณ์ที่แตกต่างกันในแต่ละภาษาอีกด้วย ดังนั้นขั้นตอนในการประมวลผลภาษาธรรมชาติ จึงมีขั้นตอนและกระบวนการที่หลากหลาย และแตกต่างกันในแต่ละชุดข้อมูล โดยลำดับของขั้นตอนและกระบวนการ (Data pipeline) ของการประมวลผลภาษาธรรมชาติ นอกจากจะส่งผลกับความแม่นยำของแบบจำลองข้อมูลแล้ว การปรับแต่งตัวแปรในแต่ละขั้นตอนหรือกระบวนการ และแบบจำลองข้อมูล ก็เป็นสิ่งจำเป็นที่จะทำให้ความแม่นยำของแบบจำลองข้อมูลเพิ่มสูงขึ้น แต่เนื่องด้วยขั้นตอนและกระบวนการมีจำนวนมาก ทำให้ตัวแปรที่จำเป็นจะต้องปรับแต่งมีมากเช่นเดียวกัน ดังนั้นการที่จะทดสอบการปรับตัวแปรโดยทดสอบทุกความเป็นไปได้ของตัวแปร (Grid Search) จึงเป็นไปได้ยาก เหตุผลเพราะว่าจำนวนความเป็นไปได้ของตัวแปรของทุกขั้นตอนและกระบวนการมีจำนวนมาก และการทดสอบแบบจำลองข้อมูลยังต้องใช้หน่วยประมวลผลของเครื่องคอมพิวเตอร์ และ เวลาจำนวนมากอีกด้วย ดังนั้น การศึกษาเรื่องการปรับแต่งตัวแปรจำนวนมาก พร้อมกันทั้งลำดับของขั้นตอนและกระบวนการจึงเป็นเรื่องที่น่าสนใจ โดยการศึกษานี้ เสนอการเลือกตัวแปรสำหรับ ทั้งลำดับของขั้นตอนและกระบวนการ ของข้อมูลประเภทข้อความ เพื่อนำไปใช้ในแบบจำลองข้อมูลเพื่อประมวลผลภาษาธรรมชาติ โดยใช้วิธีการเพิ่มประสิทธิภาพของตัวแปรทั้งลำดับของขั้นตอนและกระบวนการโดยใช้แบบจำลองข้อมูล หรือ Sequential Model-based Optimization (SMBO) โดยใช้ชุดคำสั่ง Hyperparameter Optimization (Hyperopt) โดยใช้กระบวนการ Tree of Parzen Estimators (TPE) และ Adaptive Tree of Parzen Estimators (A-TPE) | th |
dc.description.provenance | Made available in DSpace on 2022-03-25T04:31:40Z (GMT). No. of bitstreams: 2
5810111023.pdf: 3461456 bytes, checksum: f91fe716769434114e12b8070bf7b343 (MD5)
license.txt: 202 bytes, checksum: b73cf3ce748735a79944aa8bb026b893 (MD5)
Previous issue date: 7 | th |
dc.format.mimetype | application/pdf | th |
dc.language.iso | tha | th |
dc.publisher | สถาบันบัณฑิตพัฒนบริหารศาสตร์ | th |
dc.rights | ผลงานนี้เผยแพร่ภายใต้ สัญญาอนุญาตครีเอทีฟคอมมอนส์แบบ แสดงที่มา-ไม่ใช้เพื่อการค้า-ไม่ดัดแปลง 4.0 (CC BY-NC-ND 4.0) | th |
dc.subject | กำกับดูแล | th |
dc.subject | ความเป็นอิสระท้องถิ่น | th |
dc.subject | หลักการปกครองตนเอง | th |
dc.subject.classification | Social Sciences | th |
dc.type | Text | th |
mods.physicalLocation | สถาบันบัณฑิตพัฒนบริหารศาสตร์. สำนักบรรณสารการพัฒนา | th |
thesis.degree.grantor | สถาบันบัณฑิตพัฒนบริหารศาสตร์ | th |