Level 1 · AI คืออะไรscheduleอ่าน 22 นาที

กลไกของ LLM ทำไม model ต่างกัน และวัดความเก่งกันยังไง

starsTL;DR

ทุก model เดาคำต่อไปเหมือนกันหมด แล้วทำไม Claude กับ GPT ถึงให้ความรู้สึกคนละแบบ บทนี้แกะดูว่าอะไรทำให้ model ต่างกันจริง ๆ วิธีอ่าน benchmark โดยไม่โดนหลอก และทำไมภาษาไทยถึงกิน token แพงกว่าอังกฤษหลายเท่า

กลไกของ LLM ทำไม model ต่างกัน และวัดความเก่งกันยังไง

คุณคงเคยได้ยินคนพูดว่า "Claude เขียนงานดีกว่า" "GPT เก่งโค้ดกว่า" "Gemini อ่านเอกสารยาว ๆ ได้เยอะกว่า" แล้วก็มีคนแย้งกลับว่าไม่จริง พอลองเองบางทีก็เห็นต่างจากที่เขาว่าไว้ สุดท้ายก็งงว่าตกลง model ไหนเก่งกว่ากันแน่ และเก่งวัดจากอะไร

ความงงนี้มีเหตุผล เพราะ model ทุกตัวที่อยู่หลัง ChatGPT, Claude, Gemini ทำสิ่งเดียวกันเป๊ะ คือดูข้อความตรงหน้าแล้วเดาคำต่อไป (รายละเอียดกลไกการเดาคำอยู่ในบท AI คืออะไรกันแน่) ถ้าทุกตัวเดาคำต่อไปเหมือนกันหมด แล้วทำไมมันถึงให้ความรู้สึกคนละโลก

เราจะแกะดูว่าอะไรทำให้ model ต่างกันจริง ๆ ไม่ใช่แค่โลโก้คนละสี แล้วดูว่าเวลาคนเอาคะแนน benchmark มาอวด จะอ่านมันยังไงไม่ให้โดนหลอก ปิดท้ายด้วยเรื่องที่กระทบกระเป๋าคนไทยโดยตรง ทำไมพิมพ์ภาษาไทยถึงแพงกว่าพิมพ์อังกฤษหลายเท่า ทั้งที่ความหมายเท่ากัน

ห้าอย่างที่ทำให้ model ตัวหนึ่งไม่เหมือนอีกตัว

ถ้าแกะ model ออกมาดู สิ่งที่ทำให้ Model A ต่างจาก Model B ไม่ได้มีเป็นร้อยอย่าง มันมีอยู่ห้าจุดหลัก ๆ และทุกจุดอธิบายได้ว่ากระทบคำตอบที่คุณได้ยังไง

จุดแรก ข้อมูลที่ใช้สอน model ตัวหนึ่ง "อ่าน" ข้อความมาหลายล้านล้านชิ้นก่อนจะมาคุยกับคุณ ข้อความพวกนั้นคือทุกอย่างที่มันรู้ ถ้าบริษัทหนึ่งป้อนโค้ดจากเว็บโปรแกรมเมอร์เข้าไปเยอะ model ตัวนั้นก็จะเขียนโค้ดเก่ง ถ้าอีกบริษัทป้อนบทความ บทสนทนา งานเขียนเข้าไปเยอะ model ก็จะเขียนภาษาลื่นกว่า ของที่ไม่เคยอ่านก็จะตอบได้แย่ ทุกบริษัทเลือกข้อมูลไม่เหมือนกัน และเก็บสูตรนี้เป็นความลับ นี่คือสาเหตุแรกที่ model สองตัวเก่งคนละเรื่อง

จุดสอง ขนาดของ model ข้างใน model มีตัวเลขที่ปรับได้อยู่จำนวนมหาศาล เรียกว่า parameter คิดง่าย ๆ ว่ามันคือปุ่มปรับจูนนับพันล้านปุ่มที่ค่อย ๆ ถูกตั้งให้ถูกระหว่างที่ model อ่านข้อความ ยิ่งมี parameter เยอะ model ยิ่งจับรูปแบบที่ซับซ้อนได้ละเอียดขึ้น แต่ก็แลกมาด้วยความช้าและค่าใช้จ่ายที่สูงขึ้น

ตรงนี้มีเรื่องที่หลายคนเข้าใจผิด คือคิดว่า "ยิ่งใหญ่ยิ่งเก่ง" เสมอ ความจริงไม่ใช่ ของจริงในตลาดอย่าง GPT-3 มี parameter ราว 175,000 ล้านตัว นั่นคือขนาดที่ frontier model หน้าตาประมาณนี้ เดิมทีงานวิจัยของ Kaplan และทีม ปี 2020 สรุปว่าถ้ามีงบจำกัด ให้ทุ่มไปที่ขนาด model เป็นหลัก คนเลยแห่กันทำ model ตัวใหญ่ขึ้นเรื่อย ๆ

ปี 2022 ทีม DeepMind ทำการทดลองชื่อ Chinchilla แล้วพบว่าข้อสรุปเดิมพลาด model ขนาด 70,000 ล้าน parameter ที่ป้อนข้อมูลพอดี เอาชนะ model ขนาด 280,000 ล้าน parameter ที่ใหญ่กว่าถึงสี่เท่าได้ เพราะตัวใหญ่นั้นถูกป้อนข้อมูลน้อยไป "อิ่ม" ไม่พอ Chinchilla ให้ตัวเลขคร่าว ๆ ว่าทุก parameter หนึ่งตัวควรได้กินข้อความราว 20 ชิ้น สัดส่วนถึงจะพอดี บทเรียนคือขนาดอย่างเดียวไม่พอ ต้องป้อนข้อมูลให้สมดุลกับขนาดด้วย model จึงจะเก่งจริง

ของจริงในตลาดยังไปไกลกว่านั้นอีก Llama 3 ตัวเล็กขนาด 8,000 ล้าน parameter ถูกป้อนข้อความถึงราว 15 ล้านล้านชิ้น เยอะกว่าที่สูตร Chinchilla บอกว่า "พอดี" หลายสิบเท่า ผลคือ model ตัวเล็กตัวนี้เก่งกว่า Llama รุ่นก่อนที่ใหญ่ถึง 70,000 ล้าน parameter นี่คือหลักฐานชัด ๆ ว่าจำนวน parameter อย่างเดียวบอกความเก่งไม่ได้เลย

💡 ใจความสำคัญ: "model ใหญ่กว่า" ไม่ได้แปลว่า "เก่งกว่า" เสมอไป model ที่เล็กกว่าแต่ถูกฝึกด้วยข้อมูลที่ดีและมากพอ เอาชนะ model ยักษ์ที่ฝึกมาไม่พอได้ จำนวน parameter จึงเป็นแค่ครึ่งเดียวของเรื่อง

จุดสาม แบบแปลนข้างใน หรือ architecture model เดาคำต่อไปเหมือนกัน แต่ "วิธีจัดวางเครื่องจักรข้างใน" ต่างกันได้ จุดที่ชัดที่สุดในช่วงนี้คือเทคนิคที่ชื่อ Mixture of Experts หรือเรียกย่อ ๆ ว่า MoE

อธิบายแบบเห็นภาพ model แบบเดิมเหมือนโรงพยาบาลที่ทุกครั้งที่คนไข้เดินเข้ามา หมอทุกสาขาต้องออกมาตรวจพร้อมกันหมด ไม่ว่าจะเป็นแค่ไข้หวัดหรือกระดูกหัก เปลืองและช้า ส่วน model แบบ MoE เหมือนโรงพยาบาลที่มีระบบคัดกรอง คนไข้เข้ามา ระบบดูอาการแล้วเรียกเฉพาะหมอที่เกี่ยวข้องออกมา หมอคนอื่นยังอยู่ครบ แต่ไม่ต้องออกมาทุกครั้ง

ผลคือ model ตัวหนึ่งมี "ความรู้" เก็บไว้มหาศาลเหมือนมีหมอครบทุกสาขา แต่ตอบเร็วเพราะแต่ละคำถามใช้แค่บางส่วน นี่คือเหตุผลที่ model ยุคใหม่บางตัวที่ข้างในใหญ่มาก แต่ตอบเร็วพอ ๆ กับตัวเล็กกว่าหลายเท่า เทคนิคแบบนี้แหละที่ทำให้ model สองตัวที่ "ขนาดบนกระดาษ" ใกล้กัน ทำงานจริงต่างกันลิบ

แนวคิดนี้ไม่ใช่ของใหม่ Google เคยทำตัวที่ชื่อ Switch Transformer ปี 2021 พิสูจน์ว่า MoE ขยายขนาดได้จริง ตัวอย่างที่จับต้องได้ชัดคือ Mixtral 8x7B ของ Mistral AI ที่ออกปลายปี 2023 ข้างในมี parameter รวมราว 46,700 ล้านตัว แต่เวลาตอบแต่ละคำมันใช้จริงแค่ราว 12,000 ถึง 13,000 ล้านตัวเท่านั้น (GPT-4 ก็มีข่าวหลุดว่าน่าจะใช้โครงแบบนี้ที่ขนาดใหญ่กว่ามาก แต่ตัวเลขนั้นเป็นแค่การคาดเดา ไม่มีใครยืนยัน) จุดที่ต้องจำคือ "เลขบนกล่อง" หรือ parameter รวม ไม่ใช่จำนวนที่ทำงานจริงต่อหนึ่งคำ

(เปรียบเทียบโรงพยาบาลนี้ใช้ได้แค่จุดเดียว ส่วนที่ต่างคือหมอจริงรู้ตัวว่าตัวเองถนัดอะไร แต่ "ผู้เชี่ยวชาญ" แต่ละตัวใน MoE ไม่มีใครไปสั่งว่าให้ถนัดเรื่องไหน มันแบ่งงานกันเองระหว่างฝึก โดยไม่มีใครออกแบบไว้ล่วงหน้า แต่ละตัวมักจะถนัดรูปแบบบางอย่างที่มันแบ่งกันเอง ซึ่งบางทีคนก็ดูไม่ออกด้วยซ้ำว่าตัวไหนถนัดอะไร ไม่ได้แบ่งกันชัด ๆ แบบตัวนี้ภาษา ตัวนั้นเลข อย่างที่หลายคนเข้าใจ)

จุดสี่ การเก็บงานขั้นสุดท้าย หรือ post-training หลัง model อ่านข้อความจบ มันยังเป็นแค่ "ตัวต่อข้อความ" ที่ยังไม่รู้จักตอบคำถาม บริษัทต้องเอามาฝึกต่ออีกขั้น สอนให้ทำตามคำสั่ง สอนให้ตอบในแบบที่คนพอใจ สอนว่าอะไรห้ามตอบ ขั้นเก็บงานนี้แหละที่สร้าง "บุคลิก" ของแต่ละ model สองบริษัทอาจเริ่มจาก model ที่อ่านข้อความมาคล้ายกัน แต่จูนน้ำเสียงและนิสัยคนละแบบ ออกมาเป็นคนละตัวละครเลย

จุดห้า ขนาดความจำในรอบเดียว หรือ context window คือปริมาณข้อความสูงสุดที่ model อ่านได้ในการเดาหนึ่งครั้ง model บางตัวอ่านได้ไม่กี่หมื่นชิ้น บางตัวอ่านได้เป็นล้านชิ้น ตัวที่อ่านได้เยอะกว่าก็แนบเอกสารยาว ๆ ให้สรุปได้ในทีเดียว ส่วนตัวที่อ่านได้น้อยกว่าต้องหั่นเอกสารเป็นท่อน ๆ (ทำไม context window ถึงสำคัญกับทุกอย่างที่คุณทำ อยู่ในบทเรื่อง context window)

ห้าจุดนี้รวมกันคือคำตอบว่าทำไม model ถึงต่างกัน ไม่ใช่เพราะตัวหนึ่ง "ฉลาดกว่า" อีกตัวลอย ๆ แต่เพราะอ่านข้อมูลคนละชุด ขนาดต่างกัน วางเครื่องจักรข้างในคนละแบบ เก็บงานคนละสูตร และอ่านได้ทีละมากน้อยไม่เท่ากัน

บุคลิกของแต่ละตระกูล

พอเข้าใจว่าอะไรทำให้ต่าง ทีนี้มาดูตัวจริงในตลาด แต่ขอเตือนก่อน ทุกอย่างในหัวข้อนี้เปลี่ยนเร็วมาก เดือนนี้ตัวหนึ่งนำ เดือนหน้าอีกตัวแซง สิ่งที่ควรจำคือ "บุคลิกคร่าว ๆ ของแต่ละค่าย" ไม่ใช่ว่าใครเก่งสุดวันนี้

ที่แต่ละค่ายให้ความรู้สึกต่างกัน ย้อนกลับไปที่ห้าจุดเมื่อกี้ ไม่ได้ต่างเพราะโชคหรือเพราะใครฉลาดกว่า ลองนึกถึงเวลาคุณถามคำถามยาว ๆ ที่มีเงื่อนไขซับซ้อน บางตัวตอบครบทุกข้อที่คุณสั่ง บางตัวลืมข้อท้าย ๆ ความต่างตรงนี้ส่วนใหญ่มาจากขั้นเก็บงาน คือแต่ละค่ายจูนน้ำเสียงและนิสัยคนละสูตร Claude ของ Anthropic ถูกจูนมาให้เกาะคำสั่งยาว ๆ และทำงานหลายขั้นต่อเนื่องได้ คนทำงานเอกสารและสายเขียนโค้ดเลยรู้สึกว่ามัน "ตามน้ำ" ได้ดี ส่วน GPT ของ OpenAI เป็นตัวที่คนรู้จักมากที่สุดจาก ChatGPT จุดที่คุณสัมผัสได้คือความรอบด้าน ถามอะไรก็พอตอบได้ และมีเครื่องมือต่อพ่วงเยอะ เช่นเวลาให้มันสร้างรูป จริง ๆ มันส่งงานต่อให้ model สร้างรูปอีกตัวที่ถูกพ่วงเข้ามา ไม่ใช่ตัว GPT วาดเอง

Gemini ของ Google จุดที่คุณจะรู้สึกต่างทันทีคือเวลาแนบเอกสารยาว ๆ มันรับได้เยอะกว่าในรอบเดียว เพราะ context window ใหญ่ และเชื่อมกับบริการอื่นของ Google ได้ ความต่างพวกนี้ไม่ใช่เรื่องการตลาด มันมาจากจุดที่จับต้องได้จริงทั้งนั้น

นอกจากสามค่ายใหญ่ที่เปิดให้ใช้ผ่านเว็บอย่างเดียว ยังมีอีกกลุ่มที่เรียกว่า open model หรือ model ที่เปิดให้คนทั่วไปโหลดตัว model ไปรันบนเครื่องตัวเองได้ เช่น Llama ของ Meta, Qwen ของ Alibaba, และ DeepSeek จากจีน กลุ่มนี้สำคัญเพราะมันฟรีกว่าและเอาไปดัดแปลงเองได้ บริษัทที่อยากคุมข้อมูลตัวเองหรืออยากประหยัดมักหันมาใช้กลุ่มนี้ DeepSeek เคยเป็นข่าวใหญ่ช่วงปลายปี 2024 ถึงต้นปี 2025 เพราะทำ model ที่เก่งใกล้เคียงค่ายใหญ่ได้ด้วยต้นทุนที่ต่ำกว่ามาก

ลองทำดู ถามคำถามเดียวกันกับสองตัว

เปิด ChatGPT กับ Claude (หรือ Gemini) ขึ้นมาคู่กัน แล้วโยนคำถามเดียวกันเป๊ะ ๆ ให้ทั้งคู่ ลองสักสามแบบ งานเขียนหนึ่งอย่าง เช่น "ช่วยร่างข้อความขอโทษลูกค้าที่ของส่งช้า" งานคิดหนึ่งอย่าง เช่น "ช่วยวางแผนจัดงานเลี้ยงบริษัท 50 คน งบ 30,000 บาท" และงานที่ต้องเป๊ะหนึ่งอย่าง เช่น สรุปข้อความยาว ๆ ที่คุณก๊อปไปวาง

อ่านคำตอบเทียบกัน คุณจะเริ่มรู้สึกถึง "น้ำเสียง" ที่ต่างกัน บางตัวตอบยาวละเอียด บางตัวกระชับ บางตัวเป็นทางการกว่า นี่คือ "บุคลิก" ที่เกิดจากขั้นเก็บงานที่ต่างสูตรกัน และนี่คือวิธีตัดสินที่เชื่อถือได้กว่าคะแนนใด ๆ คือเอางานจริงของคุณไปลองเอง

วัดความเก่งยังไง และทำไมตัวเลขถึงโกหก

วงการ AI วัดด้วยสิ่งที่เรียกว่า benchmark แปลตรงตัวคือ "ข้อสอบมาตรฐาน" คือชุดคำถามหรือโจทย์ที่เอาไปให้ model ทุกตัวทำเหมือนกัน แล้วนับว่าตัวไหนทำถูกกี่ข้อ เอามาเรียงเป็นตารางอันดับ ที่เรียกว่า leaderboard

ปัญหาคือคนส่วนใหญ่รู้จัก benchmark เก่า ๆ ไม่กี่ตัวที่ตอนนี้ใช้ไม่ได้แล้ว ที่ดังที่สุดคือ MMLU ซึ่งเป็นข้อสอบความรู้ทั่วไปแบบเลือกตอบ สมัยก่อนมันแยกได้ว่า model ไหนเก่งกว่า แต่พอ model เก่งขึ้นเรื่อย ๆ ทุกตัวก็ทำคะแนนได้เกือบเต็มหมด จนแยกไม่ออกแล้วว่าใครเก่งกว่าใคร อาการนี้เรียกว่า benchmark "ตัน" หรือ saturate เหมือนข้อสอบที่ง่ายไปจนทุกคนได้เต็ม วัดอะไรไม่ได้อีก

เพราะแบบนี้ ปี 2025 ถึงปัจจุบันจึงมี benchmark รุ่นใหม่ที่ยากขึ้นและเจาะเป็นหมวด ๆ สิ่งที่คุณควรรู้ไม่ใช่ตัวเลขคะแนน (เพราะมันเปลี่ยนทุกเดือน) แต่คือ "มี benchmark แบ่งตามประเภทงาน" และเวลาเห็นใครอ้างคะแนน ให้ถามก่อนว่าวัดหมวดไหน

  • ความรู้และการให้เหตุผลขั้นยาก ตัวที่มาแทน MMLU ที่ตันแล้ว คือ Humanity's Last Exam ซึ่งเป็นคำถามระดับยากมากที่ผู้เชี่ยวชาญแต่ละสาขาช่วยกันออก ตั้งใจให้ model ตอบไม่ได้ง่าย ๆ
  • เขียนโค้ดแบบทำงานเป็นขั้นตอน เช่น SWE-Bench Pro ที่เอาบั๊กจริงในโปรเจกต์ซอฟต์แวร์จริงมาให้ model แก้ และ Terminal-Bench ที่วัดการทำงานผ่านหน้าจอคำสั่ง
  • ใช้คอมพิวเตอร์แทนคน เช่น OSWorld ที่ให้ model กดเมาส์ คลิกเมนู ทำงานบนหน้าจอจริงเหมือนคนนั่งทำ
  • งานความรู้จริงในอาชีพ เช่น GDPval ที่เอางานจริงจาก 44 อาชีพมาให้ทำ เช่น ร่างเอกสารกฎหมาย วางแผนการพยาบาล แล้วให้ผู้เชี่ยวชาญตัดสินว่างานของ model สู้งานคนได้ไหม
  • งานเฉพาะสาย เช่น benchmark ด้านการเงินที่วัดงานนักวิเคราะห์การเงินโดยเฉพาะ

ไม่ต้องจำชื่อพวกนี้ให้ครบ จำแค่ว่า "ความเก่ง" ไม่ใช่ตัวเลขเดียว มันแยกเป็นหมวด model ที่นำหมวดเขียนโค้ดอาจไม่ได้นำหมวดเขียนงานหรืออ่านเอกสาร เวลาใครบอกว่า "model นี้เก่งที่สุด" คำถามแรกที่ควรถามคือ "เก่งหมวดไหน"

benchmark มีรูรั่วอยู่หลายจุดที่ทำให้คะแนนสูงไม่ได้แปลว่าเก่งจริง

รูรั่วที่หนึ่ง ข้อสอบหลุดเข้าไปในข้อมูลที่ใช้สอน เรียกว่า data contamination ลองนึกภาพนักเรียนที่บังเอิญได้อ่านเฉลยข้อสอบมาก่อนสอบ คะแนนเขาจะสูงปรี๊ด แต่ไม่ได้แปลว่าเขาเก่ง model ก็เหมือนกัน ถ้าคำถามใน benchmark กับเฉลยมันลอยอยู่บนเว็บ และ model เผลออ่านมันเข้าไปตอนถูกสอน พอเจอข้อสอบจริงมันก็ "จำคำตอบได้" ไม่ใช่ "คิดได้" คะแนนเลยพองเกินจริง

รูรั่วที่สอง บริษัทจูน model มาเพื่อสอบโดยเฉพาะ เมื่อ benchmark ตัวไหนดัง บริษัทก็มีแรงจูงใจที่จะปั้น model ให้ทำข้อสอบตัวนั้นได้ดีเป็นพิเศษ เพื่อเอาคะแนนไปโชว์ขาย เหมือนโรงเรียนที่สอนแต่ข้อสอบ เด็กทำข้อสอบเก่งแต่พอเจอปัญหาจริงนอกห้องสอบกลับทำไม่ได้

รูรั่วที่สาม ตันไปแล้ว อย่าง MMLU ที่เล่าไปข้างต้น พอทุกตัวได้เกือบเต็ม ตัวเลขก็ไม่บอกอะไร

รูรั่วที่สี่ และสำคัญที่สุด ข้อสอบไม่เหมือนงานจริงของคุณ benchmark วัดในสภาพห้องสอบที่คุมไว้ดี แต่งานจริงของคุณวุ่นวายกว่านั้นมาก คำสั่งกำกวม ข้อมูลไม่ครบ ภาษาก็เป็นภาษาไทย model ที่ทำข้อสอบภาษาอังกฤษได้เต็ม อาจทำงานจริงภาษาไทยของคุณได้งั้น ๆ

💡 ใจความสำคัญ: คะแนน benchmark สูงไม่ได้แปลว่าเก่งกับงานของคุณ มันอาจสูงเพราะ model เคยเห็นเฉลย เพราะถูกจูนมาสอบ หรือเพราะข้อสอบมันง่ายไปแล้ว leaderboard ใช้ดูภาพรวมคร่าว ๆ ได้ แต่อย่าใช้มันตัดสินแทนการลองจริง

model เดียวกันได้คะแนนต่างกัน เพราะ harness

หลักฐานที่หนักแน่นที่สุดว่า "คะแนน" ไม่ได้วัดตัว model ล้วน ๆ มาจาก benchmark ความรู้ขั้นยากอย่าง Humanity's Last Exam ที่เล่าไปเมื่อกี้ ปรากฏว่า model ตัวเดียวกันเป๊ะ ทำข้อสอบชุดเดียวกัน ได้คะแนนต่างกันอย่างมาก ขึ้นกับว่ามัน "ทำเปล่า ๆ" หรือ "มีเครื่องมือช่วย" ตัวที่ได้ค้นเว็บ ได้รันโปรแกรมคำนวณระหว่างทำข้อสอบ ทำคะแนนได้สูงกว่าตัวที่ต้องตอบจากความรู้ในหัวล้วน ๆ หลายเท่า ทั้งที่เป็น model ตัวเดียวกัน

นี่พิสูจน์ว่าสิ่งที่คุณเห็นว่า "เก่ง" ไม่ได้มาจากตัว model อย่างเดียว แต่มาจาก model บวกกับ "เครื่องมือและโปรแกรมที่ห่อรอบตัวมัน" ของพวกนี้รวมกันเรียกว่า harness พูดให้เป็นรูปธรรม harness คือทุกอย่างที่ไม่ใช่ตัว model แต่พ่วงเข้ามาช่วยให้มันทำงานได้จริง เช่น ตัวที่ให้มันค้นเว็บได้ ตัวที่รันโปรแกรมคำนวณให้ ตัวที่เปิดอ่านไฟล์ในเครื่องให้ ตัว model ตัวเดิมเป๊ะ ถ้าพ่วงของพวกนี้เข้าไปก็ทำได้มากขึ้นทันที (รายละเอียดเต็มของ harness อยู่ในบทเรื่อง harness)

เพราะฉะนั้น สองคนใช้ model ยี่ห้อเดียวกัน เวอร์ชันเดียวกัน อาจได้ผลลัพธ์คนละเรื่อง ถ้าคนหนึ่งใช้ผ่านเครื่องมือที่ต่อ harness ดี ๆ ส่วนอีกคนใช้แบบเปล่า ๆ นี่คือเหตุผลที่เราพูดเสมอว่า model ไม่ใช่ product สิ่งที่คุณใช้จริงคือ product ที่เอา model มาห่อด้วย harness อีกที

แล้วคุณจะตัดสินเองยังไงว่า model ไหนดีสำหรับงานของคุณ

ในเมื่อ leaderboard เชื่อไม่ได้เต็มร้อย คำตอบที่ตรงที่สุดคือ คุณต้องเป็นคนตัดสินเอง และมันไม่ยากอย่างที่คิด

วิธีคือสร้าง "ข้อสอบส่วนตัว" ของคุณเอง หยิบงานจริงที่คุณทำบ่อย ๆ มาสักห้าถึงสิบงาน เช่น ถ้าคุณทำงานการตลาด ก็เอางานเขียนแคปชัน สรุปรายงาน ร่างอีเมลหาลูกค้า มาเป็นโจทย์ จากนั้นเอาโจทย์ชุดเดียวกันนี้ไปลองกับ model หลาย ๆ ตัว แล้วดูว่าตัวไหนให้คำตอบที่คุณเอาไปใช้ได้จริงโดยแก้น้อยที่สุด

จุดสำคัญคือ "งานจริงของคุณ" ไม่มีใน benchmark ไหนทั้งนั้น benchmark ไม่รู้จักลูกค้าของคุณ ไม่รู้จักน้ำเสียงแบรนด์ของคุณ ไม่รู้ว่างานคุณต้องเป็นภาษาไทย นี่แหละคือเหตุผลที่ข้อสอบส่วนตัวบอกความจริงสำหรับงานของคุณได้ดีกว่าตารางอันดับใด ๆ

สิ่งที่ควรดูตอนเทียบ ไม่ใช่แค่ "ตัวไหนคำตอบสวยสุด" แต่ดูด้วยว่าตัวไหนเร็วพอ ถูกพอ และคงเส้นคงวาพอ บางทีตัวที่คำตอบดีที่สุดอาจช้าและแพงเกินไปสำหรับงานที่คุณทำซ้ำ ๆ ทุกวัน ตัวที่ "ดีพอและถูกกว่า" อาจคุ้มกว่าในระยะยาว

ลองทำดู สร้างชุดทดสอบของตัวเอง

เปิดไฟล์โน้ตขึ้นมาหนึ่งไฟล์ เขียนงานจริงที่คุณทำบ่อยลงไปห้าข้อ เขียนเป็นคำสั่งให้ชัด เหมือนที่คุณจะสั่ง AI จริง ๆ เก็บไฟล์นี้ไว้

คราวนี้พอมี model ใหม่ออก หรือเพื่อนมาเชียร์ว่าตัวไหนดี คุณไม่ต้องเถียงและไม่ต้องเชื่อตามใคร แค่เปิดไฟล์นี้ เอาห้าข้อนี้ไปยิงใส่ model ตัวนั้น แล้วดูผลด้วยตาตัวเอง คุณจะมีคำตอบที่ตรงกับงานของคุณภายในสิบนาที แทนที่จะนั่งอ่านรีวิวที่ไม่รู้ว่าเขาทดสอบงานแบบเดียวกับคุณหรือเปล่า นี่คือทักษะที่มีค่าที่สุดในยุคที่ model ใหม่ออกแทบทุกเดือน

ทำไมคนไทยจ่ายแพงกว่า ทั้งที่พิมพ์ข้อความเท่ากัน

มาถึงเรื่องที่กระทบคนไทยโดยตรง และเป็นเรื่องที่คนใช้ AI ภาษาไทยทุกคนควรรู้

จำได้ไหมว่า model ไม่ได้อ่านข้อความเป็นตัวอักษร แต่หั่นข้อความออกเป็นชิ้นเล็ก ๆ ก่อน แต่ละชิ้นเรียกว่า token (แนวคิด token อยู่ในบท AI เรียนรู้ยังไง) ค่าใช้จ่ายและความเร็วของ AI คิดตามจำนวน token ไม่ใช่ตามจำนวนตัวอักษรหรือจำนวนคำ

นี่คือจุดที่ภาษาไทยเสียเปรียบ ลองเทียบประโยคความหมายเดียวกัน

  • คำเดียว คำว่า "สวัสดี" ที่ตาเราเห็นเป็นคำเดียว ถูกหั่นออกมาได้ราว 4 token ในขณะที่คำอังกฤษที่ใช้บ่อยหลายคำได้ token เดียวจบ
  • ประโยคภาษาอังกฤษ "I want to learn about artificial intelligence" หั่นออกมาได้ราว 7 token
  • ประโยคภาษาไทย "ฉันอยากเรียนรู้เรื่องปัญญาประดิษฐ์" หั่นได้ราว 15 token ในตัวหั่นคำรุ่นใหม่ และมากถึงราว 36 token ในตัวหั่นคำรุ่นเก่า

ความหมายเท่ากันเป๊ะ แต่ภาษาไทยกิน token มากกว่าหลายเท่าในตัวอย่างนี้ จำนวน token ต่อหนึ่งคำแบบนี้ในวงการเรียกว่า token fertility ภาษาอังกฤษอยู่ราว 1.3 token ต่อคำ ส่วนภาษาไทยพุ่งไปราว 2 ถึง 5 token ต่อคำ แล้วแต่รุ่น ตัวเลขนี้เป็นค่าโดยประมาณ ไม่ใช่กฎตายตัว ขึ้นกับ model และข้อความ บางประโยคอาจสองเท่า บางประโยคอาจห้าเท่า

แปลเป็นภาษาคน ทุกครั้งที่คุณคุยกับ AI เป็นภาษาไทย คุณกำลังจ่ายแพงกว่า ใช้พื้นที่ความจำของ model เปลืองกว่า และอาจได้คำตอบที่คุณภาพตกลงเร็วกว่า คนที่คุยเรื่องเดียวกันเป็นภาษาอังกฤษ (ผลกระทบนี้กระทบกระเป๋าโดยตรง รายละเอียดเรื่องค่าใช้จ่ายอยู่ในบท token optimization)

เหตุผลที่แท้จริงคือวิธีหั่นคำ (tokenizer)

เหตุผลจริงอยู่ที่ตัวหั่นคำ หรือ tokenizer ซึ่งเป็นโปรแกรมเล็ก ๆ ที่ทำหน้าที่หั่นข้อความเป็น token ก่อนส่งให้ model ตัวหั่นคำนี้ไม่ได้หั่นทุกภาษาเก่งเท่ากัน มันถูกฝึกมาจากข้อความบนเว็บ ซึ่งส่วนใหญ่เป็นภาษาอังกฤษ มีงานวิจัยที่นับว่าในแหล่งข้อมูลใหญ่ที่ใช้ฝึก model ภาษาอังกฤษมีอยู่ราว 40 ถึง 50 เปอร์เซ็นต์ ส่วนภาษาไทยมีอยู่ราว 0.5 เปอร์เซ็นต์หรือน้อยกว่านั้น

พอตัวหั่นคำเห็นภาษาอังกฤษบ่อยมาก มันก็เรียนรู้ที่จะหั่นเก่ง คำที่ใช้บ่อยอย่าง the, and, learning ได้เป็นชิ้นเดียวจบ แต่พอเจอภาษาไทยที่เห็นน้อย มันหั่นไม่เก่ง คำไทยหนึ่งคำเลยแตกเป็นหลายชิ้น บางทีแทบจะชิ้นละตัวอักษร

ภาษาไทยยังมีอีกสองอย่างที่ทำให้หั่นยากกว่าอังกฤษ

  1. เขียนติดกัน ไม่มีช่องว่างคั่นคำ "ฉันกินข้าวที่บ้าน" เขียนติดกันเป็นพืด ตัวหั่นคำที่คุ้นกับภาษาอังกฤษซึ่งใช้ช่องว่างเป็นตัวบอกขอบเขตคำ พอเจอภาษาไทยก็งง ไม่รู้ว่าตรงไหนคือจุดจบของคำ
  2. ตัวอักษรไทย "หนัก" กว่าในระบบคอมพิวเตอร์ ตัวอักษรอังกฤษหนึ่งตัวใช้พื้นที่หนึ่งหน่วย แต่ตัวอักษรไทยหนึ่งตัวใช้พื้นที่ถึงสามหน่วย บวกกับสระและวรรณยุกต์ที่นับแยกอีก ตัวหั่นคำเลยมองเห็นภาษาไทยเป็นชิ้นส่วนยิบย่อยกว่าที่ตาเราเห็นมาก

สามอย่างรวมกัน คือเห็นภาษาไทยน้อย เขียนติดกันไม่มีช่องว่าง และตัวอักษรหนักกว่า ทำให้คำไทยถูกหั่นเป็น token จำนวนมาก นี่คือเหตุผลที่แท้จริงว่าทำไมภาษาไทยถึงแพงกว่า ปัญหาไม่ได้อยู่ที่ตัวภาษา แต่อยู่ที่ตัวหั่นคำถูกออกแบบมาให้เก่งภาษาอังกฤษก่อน และ model รุ่นใหม่ ๆ ก็หั่นภาษาไทยได้ดีขึ้นเรื่อย ๆ แม้จะยังไม่เท่าอังกฤษ

แก้ความเข้าใจผิด AI ไม่ได้แปลไทยเป็นอังกฤษลับหลัง

ความเชื่อผิดที่พบบ่อยที่สุดคือ หลายคนคิดว่าตอนคุณพิมพ์ภาษาไทยเข้าไป เบื้องหลังมันแอบแปลข้อความของคุณเป็นภาษาอังกฤษก่อน แล้วคิดคำตอบเป็นภาษาอังกฤษ แล้วค่อยแปลกลับมาเป็นภาษาไทยตอนตอบ และนั่นคือสาเหตุที่มันแพงและช้า

เรื่องนี้ไม่จริง ไม่มีขั้นตอนแปลข้อความแบบนั้นเลย model อ่านภาษาไทยของคุณตรง ๆ ไม่มีการเขียนข้อความของคุณใหม่เป็นภาษาอังกฤษ ไม่มีคำแปลภาษาอังกฤษวิ่งอยู่ในเครื่องระหว่างทาง ค่าใช้จ่ายที่แพงขึ้นมาจากการหั่น token ล้วน ๆ อย่างที่อธิบายไปข้างบน คือข้อความถูกหั่นเป็นชิ้นเยอะก่อนที่ model จะเห็นมันด้วยซ้ำ ไม่เกี่ยวกับการแปล

แต่มีรายละเอียดหนึ่งที่ต้องพูดให้ครบ เพื่อไม่ให้กลายเป็นการปฏิเสธเกินจริง คือมีงานวิจัยที่ส่องดูข้างใน model แล้วพบว่า model ที่ถูกฝึกด้วยภาษาอังกฤษเป็นหลัก เวลาคิดเรื่องที่มีความหมายหนัก ๆ มันมักคิดผ่าน "รูปแบบความคิดภายในที่เอนไปทางภาษาอังกฤษ" ก่อนจะแปลงกลับมาเป็นภาษาที่คุณใช้

ฟังดูเหมือนขัดกับที่เพิ่งพูด แต่จริง ๆ คนละเรื่องกัน สิ่งที่งานวิจัยเจอคือ "ร่องรอยภายใน" ไม่ใช่ "ขั้นตอนแปลข้อความ" ไม่มีประโยคภาษาอังกฤษที่อ่านออกวิ่งอยู่ในเครื่อง มันเป็นแค่รูปแบบการคิดที่ถูกหล่อหลอมมาจากข้อมูลอังกฤษ

เปรียบเหมือนคนที่โตมากับภาษาแม่ภาษาหนึ่ง พอไปคิดเรื่องยาก ๆ ในอีกภาษา ความคิดก็ยังมีกลิ่นของภาษาแม่ติดอยู่ แต่เขาไม่ได้นั่งแปลในหัวเป็นประโยค

และที่สำคัญที่สุด ร่องรอยภายในนี้ไม่ใช่ตัวที่ทำให้คุณจ่ายแพง ตัวที่ทำให้จ่ายแพงคือการหั่น token ซึ่งเกิดก่อน model จะเริ่มคิดเสียอีก

💡 ใจความสำคัญ: ที่ภาษาไทยแพงกว่า เป็นเพราะข้อความถูกหั่นเป็น token เยอะ ไม่ใช่เพราะ AI แอบแปลไทยเป็นอังกฤษแล้วแปลกลับ ส่วนเรื่องที่ข้างใน model มี "รูปแบบความคิดเอนไปทางอังกฤษ" นั้นมีจริง แต่มันคือร่องรอยการฝึก ไม่ใช่ขั้นตอนแปลข้อความ และไม่ใช่ตัวที่ทำให้ค่าใช้จ่ายของคุณสูงขึ้น

ลองทำดู นับ token ภาษาไทยกับอังกฤษด้วยตาตัวเอง

ลองวิธีง่าย ๆ ที่ไม่ต้องเขียนโปรแกรม เปิดแชทใหม่แล้วพิมพ์ประโยคภาษาไทยที่คุณใช้บ่อย ๆ สักประโยค จากนั้นพิมพ์ต่อว่า

ประโยคข้างบนนี้ ถ้าหั่นเป็น token จะได้ประมาณกี่ token
แล้วถ้าแปลประโยคเดียวกันเป็นภาษาอังกฤษ จะได้ประมาณกี่ token
ช่วยเทียบให้ดูหน่อย

ดูตัวเลขที่มันตอบ คุณจะเห็นกับตาว่าฝั่งภาษาไทยกิน token มากกว่าฝั่งอังกฤษหลายเท่า ทั้งที่ความหมายเดียวกัน (ระวังนิดเดียว ตัวเลขที่ AI บอกอาจไม่เป๊ะ เพราะมันเดาเอา ไม่ได้นับจริงเสมอ แต่ภาพรวมที่ว่า "ไทยเยอะกว่ามาก" นั้นถูกต้อง) นี่คือนาทีที่คุณเห็นเหตุผลว่าทำไมงาน AI ภาษาไทยถึงแพงกว่า ด้วยตาตัวเอง

ถึงตรงนี้คุณเข้าใจตัว model ในฐานะเครื่องยนต์เดี่ยว ๆ แล้ว แต่โลก AI ไม่ได้มีแค่ model ภาษา ยังมี AI ที่สร้างรูป สร้างวิดีโอ ฟังเสียง ทำสิ่งที่ตัวเดาคำต่อไปทำไม่ได้ บทต่อไปจะพาไปดูสวนสัตว์ทั้งหมดของ AI ว่ามีกี่ประเภท แต่ละประเภทอยู่ตรงไหน


อ่านต่อ: สวนสัตว์ทั้งหมดของ AI LLM ไม่ใช่ AI ทั้งหมด

แหล่งอ้างอิง

scienceลองเล่นใน AI Lab

คำถามที่พบบ่อย

model ที่ใหญ่กว่าหรือมี parameter เยอะกว่า เก่งกว่าเสมอไหมexpand_more

ไม่เสมอ model ที่เล็กกว่าแต่ถูกฝึกด้วยข้อมูลที่ดีและมากพอ เอาชนะ model ยักษ์ที่ฝึกมาไม่พอได้ เช่นในการทดลอง Chinchilla model ขนาด 70,000 ล้าน parameter ชนะตัวที่ใหญ่กว่าถึงสี่เท่า จำนวน parameter จึงเป็นแค่ครึ่งเดียวของเรื่อง

ทำไม Claude กับ GPT ถึงให้ความรู้สึกต่างกัน ทั้งที่เดาคำต่อไปเหมือนกันexpand_more

เพราะมีห้าจุดที่ทำให้ต่างกัน คือข้อมูลที่ใช้สอน ขนาด model แบบแปลนข้างใน (architecture) การเก็บงานขั้นสุดท้าย (post-training) และขนาดความจำในรอบเดียว (context window) บุคลิกของแต่ละค่ายส่วนใหญ่มาจากขั้น post-training ที่จูนน้ำเสียงและนิสัยคนละสูตร

คะแนน benchmark สูง แปลว่า model เก่งกับงานของเราไหมexpand_more

ไม่จำเป็น คะแนนอาจสูงเพราะข้อสอบหลุดเข้าไปในข้อมูลที่ใช้สอน เพราะบริษัทจูน model มาเพื่อสอบตัวนั้นโดยเฉพาะ หรือเพราะข้อสอบตันไปแล้ว และที่สำคัญที่สุดคือข้อสอบไม่เหมือนงานจริงของคุณที่เป็นภาษาไทยและคำสั่งกำกวมกว่า วิธีที่เชื่อได้กว่าคือเอางานจริงของคุณไปลองเอง

ทำไมคุยกับ AI เป็นภาษาไทยถึงแพงกว่าภาษาอังกฤษ ทั้งที่ความหมายเท่ากันexpand_more

เพราะ AI คิดค่าใช้จ่ายตามจำนวน token คือชิ้นที่ข้อความถูกหั่นออก และภาษาไทยถูกหั่นเป็น token มากกว่าอังกฤษหลายเท่า สาเหตุคือตัวหั่นคำถูกฝึกจากข้อความที่ส่วนใหญ่เป็นภาษาอังกฤษ บวกกับภาษาไทยเขียนติดกันไม่มีช่องว่างและตัวอักษรหนักกว่าในระบบคอมพิวเตอร์ ไม่ใช่เพราะ AI แอบแปลไทยเป็นอังกฤษ