• English
    • ไทย
  • English 
    • English
    • ไทย
  • Login
View Item 
  •   Wisdom Repository Home
  • หน่วยงาน
  • สำนักบริการการศึกษาและบรรณสาร
  • In Processing
  • Dissertations, Theses, Term Papers
  • View Item
  •   Wisdom Repository Home
  • หน่วยงาน
  • สำนักบริการการศึกษาและบรรณสาร
  • In Processing
  • Dissertations, Theses, Term Papers
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

All of Wisdom RepositoryCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsBy Submit DateResource TypesThis CollectionBy Issue DateAuthorsTitlesSubjectsBy Submit DateResource Types

My Account

Login

SEQUENTIAL MODEL-BASED OPTIMIZATION FOR NATURAL LANGUAGE PROCESSING DATA PIPELINE SELECTION AND OPTIMIZATION

การเพิ่มประสิทธิภาพของการประมวลผลภาษาธรรมชาติโดยการใช้แบบจำลองข้อมูลในการเลือกตัวแปรทั้งลำดับของขั้นตอนและกระบวนการ

by Piyadanai Arntong; ปิยะดนัย อานทอง; Worapol Pongpech; วรพล พงษ์เพ็ชร

Title:

SEQUENTIAL MODEL-BASED OPTIMIZATION FOR NATURAL LANGUAGE PROCESSING DATA PIPELINE SELECTION AND OPTIMIZATION
การเพิ่มประสิทธิภาพของการประมวลผลภาษาธรรมชาติโดยการใช้แบบจำลองข้อมูลในการเลือกตัวแปรทั้งลำดับของขั้นตอนและกระบวนการ

Advisor:

Worapol Pongpech
วรพล พงษ์เพ็ชร

Issued date:

7/1/2022

Publisher:

National Institute of Development Administration

Abstract:

Natural language processing (NLP) aims to analyze a large amount of natural language data. The NLP computes textual data via a set of data processing elements which is sequentially connected to a path data pipeline. Several data pipelines exist for a given set of textual data with various degrees of model accuracy. Instead of trying all the possible paths, such as random search or grid search to find an optimal path, we utilized the Bayesian optimization to search along with the space of hyper-parameters learning. In this study, we proposed a data pipeline selection for NLP using Sequential Model-based Optimization (SMBO). We implemented the SMBO for the NLP data pipeline using Hyperparameter Optimization (Hyperopt) library with Tree of Parzen Estimators (TPE) model and Adaptive Tree of Parzen Estimators (A-TPE) model for a surface model with expected improvement (EI) acquired function.
การประมวลผลภาษาธรรมชาติ หรือ Natural language processing (NLP) มีวัตถุประสงค์เพื่อวิเคราะห์ข้อมูลภาษามนุษย์ ให้คอมพิวเตอร์สามารถเข้าใจความหมาย หรือบริบทของข้อความ ซึ่งมีขนาดใหญ่และมีความซับซ้อนสูง ทั้งด้านรูปแบบหรือความหมายของคำไม่เหมือนกันในแต่ละภาษา รวมถึงไวยากรณ์ที่แตกต่างกันในแต่ละภาษาอีกด้วย ดังนั้นขั้นตอนในการประมวลผลภาษาธรรมชาติ จึงมีขั้นตอนและกระบวนการที่หลากหลาย และแตกต่างกันในแต่ละชุดข้อมูล โดยลำดับของขั้นตอนและกระบวนการ (Data pipeline) ของการประมวลผลภาษาธรรมชาติ นอกจากจะส่งผลกับความแม่นยำของแบบจำลองข้อมูลแล้ว การปรับแต่งตัวแปรในแต่ละขั้นตอนหรือกระบวนการ และแบบจำลองข้อมูล ก็เป็นสิ่งจำเป็นที่จะทำให้ความแม่นยำของแบบจำลองข้อมูลเพิ่มสูงขึ้น แต่เนื่องด้วยขั้นตอนและกระบวนการมีจำนวนมาก ทำให้ตัวแปรที่จำเป็นจะต้องปรับแต่งมีมากเช่นเดียวกัน ดังนั้นการที่จะทดสอบการปรับตัวแปรโดยทดสอบทุกความเป็นไปได้ของตัวแปร (Grid Search) จึงเป็นไปได้ยาก เหตุผลเพราะว่าจำนวนความเป็นไปได้ของตัวแปรของทุกขั้นตอนและกระบวนการมีจำนวนมาก และการทดสอบแบบจำลองข้อมูลยังต้องใช้หน่วยประมวลผลของเครื่องคอมพิวเตอร์ และ เวลาจำนวนมากอีกด้วย ดังนั้น การศึกษาเรื่องการปรับแต่งตัวแปรจำนวนมาก พร้อมกันทั้งลำดับของขั้นตอนและกระบวนการจึงเป็นเรื่องที่น่าสนใจ โดยการศึกษานี้ เสนอการเลือกตัวแปรสำหรับ ทั้งลำดับของขั้นตอนและกระบวนการ ของข้อมูลประเภทข้อความ เพื่อนำไปใช้ในแบบจำลองข้อมูลเพื่อประมวลผลภาษาธรรมชาติ โดยใช้วิธีการเพิ่มประสิทธิภาพของตัวแปรทั้งลำดับของขั้นตอนและกระบวนการโดยใช้แบบจำลองข้อมูล หรือ Sequential Model-based Optimization (SMBO) โดยใช้ชุดคำสั่ง Hyperparameter Optimization (Hyperopt) โดยใช้กระบวนการ Tree of Parzen Estimators (TPE) และ Adaptive Tree of Parzen Estimators (A-TPE)

Keyword(s):

การประมวลผลภาษาธรรมชาติ
Sequential Model-based Optimization
Tree of Parzen Estimators
Natural language processing
Sequential Model-based Optimization
Tree of Parzen Estimators

Type:

Text

Language:

tha

URI:

https://repository.nida.ac.th/handle/662723737/5851
Show full item record

Files in this item (CONTENT)

Thumbnail
View
  • 6020422005.pdf ( 1,670.89 KB )

ทรัพยากรสารสนเทศทั้งหมดในคลังปัญญา ใช้เพื่อประโยชน์ทางการเรียนการสอนและการค้นคว้าเท่านั้น และต้องมีการอ้างอิงแหล่งที่มาทุกครั้งที่นำไปใช้ ห้ามดัดแปลงเนื้อหา และทำสำเนาต่อ รวมถึงไม่ให้อนุญาตนำไปใช้ประโยชน์เพื่อการค้า ไม่ว่ากรณีใด ๆ ทั้งสิ้น



This item appears in the following Collection(s)

  • Dissertations, Theses, Term Papers [242]

Except where otherwise noted, content on this site is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International license.

Copyright © National Institute of Development Administration | สถาบันบัณฑิตพัฒนบริหารศาสตร์
Library and Information Center | สำนักบรรณสารการพัฒนา
Email: NIDAWR@nida.ac.th    Chat: Facebook Messenger    Facebook: NIDAWisdomRepository
 

 

Except where otherwise noted, content on this site is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International license.

Copyright © National Institute of Development Administration | สถาบันบัณฑิตพัฒนบริหารศาสตร์
Library and Information Center | สำนักบรรณสารการพัฒนา
Email: NIDAWR@nida.ac.th    Chat: Facebook Messenger    Facebook: NIDAWisdomRepository
 

 

‹›×