รวมศัพท์ด้าน Machine Learning ตอนที่ 1

วันนี้แอดมาสรุปเนื้อหาที่ได้ไปเรียนต่อ

ในเรื่องของ ศัพท์พื้นฐานที่เกี่ยวข้องกับ Machine Learning ค่า

เนื้อหานี้มาจาก Live Class เรื่อง Machine Learning

ของเพจ DataRockie ที่แอดได้มีโอกาสไปเรียนมาค่า ✨

ขอแบ่งเป็น 2 กลุ่มใหญ่ ๆ เพื่อให้อ่านง่ายขึ้นนะคะ

⸻

🧠 กลุ่มที่ 1: ข้อมูลที่ใช้ใน Machine Learning

• Dataset

ชุดข้อมูลที่ใช้ในการสร้าง และทดสอบโมเดล

• Data Point

ข้อมูล 1 แถว หรือ 1 ตัวอย่างใน Dataset

• Feature

ข้อมูลที่เปรียบเสมือน ตัวแปรต้น

ใช้เป็น input สำหรับฝึกโมเดล

• Label / Target

ข้อมูลที่เปรียบเสมือน ตัวแปรตาม

ใช้สำหรับวัดความแม่นยำ (Accuracy) ของโมเดล

⸻

💻 กลุ่มที่ 2: การแบ่งข้อมูล

• Train–Test Split

การแบ่งข้อมูลทั้งหมด (Full Data) ออกเป็น 2 ส่วน

• Training Data ใช้สำหรับฝึกโมเดล

• Testing Data ใช้สำหรับทดสอบโมเดล

เมื่อฝึกโมเดลเสร็จแล้ว

เราจะนำโมเดลมาทดสอบกับ Testing Data

เพื่อดูผลลัพธ์เป็น ความแม่นยำของโมเดล

• Overfitting

โมเดลที่ฟิตกับข้อมูลที่ใช้ Train มากเกินไป

จนไม่สามารถใช้งานกับข้อมูลใหม่

หรือข้อมูลที่ไม่เคยเห็นมาก่อนได้ (Unseen Data)

⸻

ขอบคุณ เพจ DataRockie

สำหรับคลาสที่อธิบายเข้าใจง่าย และนำไปต่อยอดได้จริงนะคะ 🤍

#MachineLearning #DataSeenClearly

#NichaVisualNote #AISeenClearly

1/11 แก้ไขเป็น

จากประสบการณ์ที่ได้เรียนรู้และใช้งาน Machine Learning มา การเข้าใจศัพท์พื้นฐานที่ถูกต้องถือเป็นกุญแจสำคัญในการเริ่มต้นศึกษาเทคโนโลยีนี้อย่างมั่นใจ ในการทำงานจริง เราเจอหลายคำที่ใช้บ่อยเช่น Dataset, Data Point, Feature และ Label ซึ่งช่วยให้เราแยกแยะข้อมูลได้ชัดเจน Dataset คือชุดข้อมูลทั้งหมดที่เรานำมาฝึกหรือทดสอบโมเดล ส่วน Data Point คือหนึ่งตัวอย่างข้อมูล ยกตัวอย่างเช่น ถ้ามีข้อมูลลูกค้าเป็น Dataset แต่ละแถวในตารางข้อมูลคือตัวอย่างหรือ Data Point นึง Feature คือสิ่งที่ใช้เป็นตัวแปรต้นหรือ input สำหรับสอนโมเดล เช่น คุณสมบัติของลูกค้า อาทิ อายุ รายได้ เป็นต้น ขณะที่ Label หรือ Target คือค่าที่เราต้องการทำนาย เช่น ลูกค้าจะซื้อสินค้าหรือไม่ ซึ่งใช้วัดประสิทธิภาพโมเดลว่าทำนายถูกต้องแค่ไหน การแบ่งข้อมูลออกเป็น Training Data และ Testing Data คือส่วนสำคัญมาก เพื่อป้องกันไม่ให้โมเดลจำเพียงข้อมูลฝึกแล้วทำงานกับข้อมูลใหม่ไม่ได้ซึ่งเรียกว่า Overfitting การแบ่งปกติจะใช้ Training Data ประมาณ 80% เพื่อสอนโมเดล ส่วน Testing Data อีก 20% ใช้ทดสอบว่าผลลัพธ์ที่โมเดลทำนายกับข้อมูลใหม่เป็นอย่างไร นอกจากนี้ การรู้จัก Overfitting ยังช่วยให้เราปรับแต่งโมเดล ไม่ว่าจะเป็นการเลือกฟีเจอร์ การตั้งค่าพารามิเตอร์ หรือการเพิ่มข้อมูลเพื่อให้โมเดลทั่วไปและใช้งานกับข้อมูลใหม่ได้ดีขึ้น เมื่อเราเข้าใจศัพท์และแนวคิดเหล่านี้แล้ว จะช่วยให้การเรียนรู้ Machine Learning เป็นเรื่องที่ไม่ซับซ้อน และสามารถนำไปประยุกต์ใช้สร้างโมเดลที่ตอบโจทย์ได้จริงในการทำงานและการวิจัยต่อไป การเรียนรู้จากคลาสของเพจ DataRockie ที่อธิบายอย่างชัดเจนเป็นประโยชน์มากสำหรับผู้เริ่มต้น และช่วยให้เราเห็นภาพรวมที่เข้าใจง่ายจริง ๆ