สรุป Machine Learning(EP.2)- รู้จักกับข้อมูลชุดเรียนรู้และข้อมูลชุดทดสอบ

กระบวนการ Machine Learning จะแบ่งข้อมูลสำคัญๆออกเป็น 2 ส่วน คือ

ข้อมูลชุดเรียนรู้ (Training Set) ถูกนำไปเรียนรู้ด้วยวิธีการเรียนรู้เครื่องจักรเพื่อสร้างเป็นโมเดล (Model) จะประกอบไปด้วย label / class เพื่อบอกว่าข้อมูลชุดนี้คืออะไร เช่น ชุดข้อมูลตัวเลข 0–9 , ข้อมูลสายพันธ์สุนัข เป็นต้น
ข้อมูลชุดทดสอบ (Test Set)
ใช้ทดสอบโมเดลที่สร้างขึ้น หากโมเดลที่ทดสอบมีประสิทธิภาพดีจึงจะนำไปใช้งานจริง

  • *ในกรณีที่ไม่มีการแบ่งข้อมูลเป็น 2 ส่วนสามารถเขียนโปรแกรมเพื่อแบ่งข้อมูลได้โดยแบ่งข้อมูลเป็น 75% สำหรับเรียนรู้และอีก 25% สำหรับทดสอบ
  • ดาวน์โหลด MNIST DataSet ตัวเต็มได้ที่ https://osf.io/jda6s/

หัวข้อที่เกี่ยวข้อง : สรุป Machine Learning ตอนที่ 1 — Data Set

  1. การเรียนรู้แบบมีผู้สอน (Supervised Machine Learning Algorithms) ข้อมูลที่ใช้ในการฝึกนั้นเรียกว่า ข้อมูลชุดเรียนรู้ (Training Data / Training Set) นำมาแยกประเภทผลลัพธ์ด้วยการติดป้ายกำกับ (Labels/Class) เป็นผลเฉลย จากนั้นนำข้อมูลที่ติดป้ายแล้วไปใช้ในการฝึกของเครื่องที่ทำงานผ่านอัลกอริทึมสำหรับสร้างโมเดลที่ใช้ในการทำนายผลลัพธ์ โดยนำข้อมูลใหม่หรือข้อมูลชุดทดสอบ (Test Set) ไปใช้ทดสอบประสิทธิภาพของโมเดล
ที่มา:จากการสรุปและรวบรวมข้อมูลของ สพร

2.การเรียนรู้แบบไม่มีผู้สอน (Unsupervised Machine Learning Algorithms) เป็นการเรียนรู้ด้วยข้อมูลที่ไม่ถูกจัดประเภท หรือติดป้ายกำกับข้อมูล วิธีนี้เครื่องจะคาดเดาข้อมูลที่ได้รับและทำความเข้าใจถึงโครงสร้างที่ซ่อนอยู่ไม่สามารถหาผลลัพธ์ที่ถูกต้องได้ แต่จะใช้วิธี สำรวจข้อมูลและใช้การประมาณการว่าข้อมูลนั้นคืออะไร

Supervised vs. Unsupervised Learning

เขียนไปเรื่อย ขี้เกียจก็ไม่เขียน

เขียนไปเรื่อย ขี้เกียจก็ไม่เขียน