การเพิ่มประสิทธิภาพของการประมวลผลภาษาธรรมชาติโดยการใช้แบบจำลองข้อมูลในการเลือกตัวแปรทั้งลำดับของขั้นตอนและกระบวนการ
Files
Publisher
Issued Date
Available Date
Copyright Date
Resource Type
Series
Edition
Language
tha
File Type
application/pdf
No. of Pages/File Size
57 แผ่น
ISBN
ISSN
eISSN
DOI
Other identifier(s)
b213152
Identifier(s)
Access Rights
Access Status
Rights
ผลงานนี้เผยแพร่ภายใต้ สัญญาอนุญาตครีเอทีฟคอมมอนส์แบบ แสดงที่มา-ไม่ใช้เพื่อการค้า-ไม่ดัดแปลง 4.0 (CC BY-NC-ND 4.0)
Rights Holder(s)
Physical Location
สถาบันบัณฑิตพัฒนบริหารศาสตร์. สำนักบรรณสารการพัฒนา
Bibliographic Citation
Citation
ปิยะดนัย อานทอง การเพิ่มประสิทธิภาพของการประมวลผลภาษาธรรมชาติโดยการใช้แบบจำลองข้อมูลในการเลือกตัวแปรทั้งลำดับของขั้นตอนและกระบวนการ. Retrieved from: https://repository.nida.ac.th/handle/662723737/5851.
Title
การเพิ่มประสิทธิภาพของการประมวลผลภาษาธรรมชาติโดยการใช้แบบจำลองข้อมูลในการเลือกตัวแปรทั้งลำดับของขั้นตอนและกระบวนการ
Alternative Title(s)
Sequential model-based optimization for natural language processing data pipeline selection and optimization
Author(s)
Editor(s)
Advisor(s)
Advisor's email
Contributor(s)
Contributor(s)
Abstract
การประมวลผลภาษาธรรมชาติหรือ Natural language processing (NLP) มีวัตถุประสงค์
เพื่อวิเคราะห์ข้อมูลภาษามนุษย์ให้คอมพิวเตอร์สามารถเข้าใจความหมาย หรือบริบทของข้อความ ซึ่ง
มีขนาดใหญ่และมีความซับซ้อนสูง ทั้งด้านรูปแบบหรือความหมายของคำไม่เหมือนกันในแต่ละภาษา
รวมถึงไวยากรณ์ที่แตกต่างกันในแต่ละภาษาอีกด้วย ดังนั้นขั้นตอนในการประมวลผลภาษาธรรมชาติ
จึงมีขั้นตอนและกระบวนการที่หลากหลาย และแตกต่างกันในแต่ละชุดข้อมูล โดยลำดับของขั้นตอน
และกระบวนการ (Data pipeline) ของการประมวลผลภาษาธรรมชาตินอกจากจะส่งผลกับความ
แม่นยำของแบบจำลองข้อมูลแล้ว การปรับแต่งตัวแปรในแต่ละขั้นตอนหรือกระบวนการ และ
แบบจำลองข้อมูล ก็เป็นสิ่งจำเป็นที่จะทำให้ความแม่นยำของแบบจำลองข้อมูลเพิ่มสูงขึ้น แต่เนื่อง
ด้วยขั้นตอนและกระบวนการมีจำนวนมาก ทำให้ตัวแปรที่จำเป็นจะต้องปรับแต่งมีมากเช่นเดียวกัน
ดังนั้นการที่จะทดสอบการปรับตัวแปรโดยทดสอบทุกความเป็นไปได้ของตัวแปร (Grid Search) จึง
เป็นไปได้ยาก เหตุผลเพราะว่าจำนวนความเป็นไปได้ของตัวแปรของทุกขั้นตอนและกระบวนการมี
จำนวนมาก และการทดสอบแบบจำลองข้อมูลยังต้องใช้หน่วยประมวลผลของเครื่องคอมพิวเตอร์
และ เวลาจำนวนมากอีกด้วย ดังนั้น การศึกษาเรื่องการปรับแต่งตัวแปรจำนวนมาก พร้อมกันทั้ง
ลำดับของขั้นตอนและกระบวนการจึงเป็นเรื่องที่น่าสนใจ โดยการศึกษานี้เสนอการเลือกตัวแปร
สำหรับ ทั้งลำดับของขั้นตอนและกระบวนการ ของข้อมูลประเภทข้อความ เพื่อนำไปใช้ในแบบจำลอง
ข้อมูลเพื่อประมวลผลภาษาธรรมชาติโดยใช้วิธีการเพิ่มประสิทธิภาพของตัวแปรทั้งลำดับของขั้นตอน
และกระบวนการโดยใช้แบบจำลองข้อมูล หรือ Sequential Model-based Optimization (SMBO)
โดยใช้ชุดคำสั่ง Hyperparameter Optimization (Hyperopt) โดยใช้กระบวนการ Tree of Parzen
Estimators (TPE) และ Adaptive Tree of Parzen Estimators (A-TPE)
Natural language processing (NLP) aims to analyze a large amount of natural language data. The NLP computes textual data via a set of data processing elements which is sequentially connected to a path data pipeline. Several data pipelines exist for a given set of textual data with various degrees of model accuracy. Instead of trying all the possible paths, such as random search or grid search to find an optimal path, we utilized the Bayesian optimization to search along with the space of hyperparameters learning. In this study, we proposed a data pipeline selection for NLP using Sequential Model-based Optimization (SMBO). We implemented the SMBO for the NLP data pipeline using Hyperparameter Optimization (Hyperopt) library with Tree of Parzen Estimators (TPE) model and Adaptive Tree of Parzen Estimators (A-TPE) model for a surface model with expected improvement (EI) acquired function.
Natural language processing (NLP) aims to analyze a large amount of natural language data. The NLP computes textual data via a set of data processing elements which is sequentially connected to a path data pipeline. Several data pipelines exist for a given set of textual data with various degrees of model accuracy. Instead of trying all the possible paths, such as random search or grid search to find an optimal path, we utilized the Bayesian optimization to search along with the space of hyperparameters learning. In this study, we proposed a data pipeline selection for NLP using Sequential Model-based Optimization (SMBO). We implemented the SMBO for the NLP data pipeline using Hyperparameter Optimization (Hyperopt) library with Tree of Parzen Estimators (TPE) model and Adaptive Tree of Parzen Estimators (A-TPE) model for a surface model with expected improvement (EI) acquired function.