Level 1 · AI คืออะไรscheduleอ่าน 18 นาที

สวนสัตว์ของ AI ทั้งหมด LLM ไม่ใช่ AI ทั้งหมด

starsTL;DR

ทุกวันนี้พูดคำว่า AI คนส่วนใหญ่นึกถึง ChatGPT แต่ตัวที่วาดรูป ตัดต่อวิดีโอ ถอดเสียงเป็นข้อความ และค้นเอกสารให้ตรงความหมาย เป็นคนละเครื่อง คนละกลไก บทนี้วางแผนที่ของสวนสัตว์ AI ทั้งหมด เพื่อให้คุณรู้ว่ากำลังคุยกับสัตว์ตัวไหนอยู่

สวนสัตว์ของ AI - LLM ไม่ใช่ AI ทั้งหมด

เวลาคุณได้ยินคำว่า "AI" วันนี้ ภาพแรกในหัวเกือบทุกคนคือช่องแชทที่พิมพ์คำถามแล้วได้คำตอบเป็นข้อความ ChatGPT, Claude, Gemini พวกนี้กลายเป็นหน้าตาของคำว่า AI ไปแล้ว

แต่ลองนึกถึงสิ่งที่คุณเห็นในชีวิตประจำวันอีกที รูปโฆษณาสวย ๆ ที่ไม่มีช่างภาพถ่ายจริง คลิปวิดีโอที่ตัวละครไม่เคยมีตัวตน ระบบที่ฟังเสียงประชุมแล้วพิมพ์เป็นบันทึกให้ ช่องค้นหาที่พิมพ์ "รองเท้าใส่วิ่งหน้าฝน" แล้วเจอสินค้าที่ไม่มีคำว่าฝนสักคำในชื่อ ทั้งหมดนี้คือ AI เหมือนกัน แต่ไม่ใช่ ChatGPT และไม่ได้ทำงานแบบเดียวกับ ChatGPT เลย

บทนี้จะพาคุณเดินดูสวนสัตว์ AI ทั้งสวน ไม่ใช่แค่กรงเดียวที่คนแวะกันเยอะที่สุด ถ้าคุณคิดว่า AI ทุกตัวคือ "ตัวที่ทายคำต่อไป" เหมือน ChatGPT คุณจะตั้งความคาดหวังผิด เลือกเครื่องมือผิด และงงเวลามันทำสิ่งที่ ChatGPT ทำไม่ได้

ทำไมต้องมีแผนที่ ไม่ใช่จำชื่อ

ก่อนเดินดูทีละกรง ขอวางหลักคิดสั้น ๆ ที่จะใช้ทั้งบท

AI แต่ละตัวต่างกันได้สองแกนใหญ่ ๆ แกนแรกคือ มันทำงานอะไรเป็นหลัก

นึกถึงตอนกล่องอีเมลคัดจดหมายขยะให้คุณ ตอนแอปธนาคารทักว่ารายการนี้น่าสงสัย หรือตอน Shopee กับ Lazada เดาว่าคุณน่าจะอยากได้ของชิ้นไหนต่อ มันไม่ได้สร้างอะไรใหม่ มันแค่ดูของที่มีอยู่ตรงหน้า แล้วตัดสินว่ามันเป็นอะไรหรือเข้าพวกไหน อีเมลนี้สแปมหรือไม่สแปม รายการนี้ปกติหรือผิดปกติ ลูกค้าคนนี้เข้ากับสินค้ากลุ่มไหน งานแบบนี้คือการวาดเส้นแบ่งแล้วบอกว่าของที่เข้ามาตกข้างไหนของเส้น ในวงการเรียกงานกลุ่มนี้ว่า discriminative แปลคร่าว ๆ ว่า "งานจำแนก"

อีกกลุ่มกลับกัน นึกถึงตอนคุณสั่ง ChatGPT ให้ร่างอีเมล หรือสั่งเครื่องมือให้วาดรูป มันคายของชิ้นใหม่ที่ไม่เคยมีมาก่อนออกมา เขียนข้อความ วาดรูป แต่งเพลง งานแบบนี้คือการสร้างของใหม่ ในวงการเรียกว่า generative หรือ "งานสร้าง" ChatGPT อยู่ฝั่งสร้าง

แกนที่สองคือ มันทำงานกับข้อมูลชนิดไหน ลองสังเกตว่าบาง AI รับได้แต่ข้อความ พิมพ์เข้าไปก็ตอบเป็นข้อความกลับมา แต่บางตัวคุณแนบรูปเข้าไปได้ด้วย หรือพูดใส่ไมค์ก็ได้ ข้อมูลแต่ละชนิด ข้อความ รูป เสียง วิดีโอ คือคนละช่องทางกัน ในวงการเรียกช่องทางแต่ละแบบว่า modality ตัวที่รับได้หลายช่องทางในตัวเดียว เช่น ดูรูปได้พร้อมอ่านข้อความได้ เรียกว่า multimodal หรือ "หลายช่องทาง"

เอาสองแกนนี้มาทำเป็นตารางง่าย ๆ จะได้เห็นว่าแต่ละกรงในบทนี้อยู่ตรงไหน

กรงจำแนก หรือ สร้างช่องทางหลัก
LLM (แชท)สร้างข้อความ
ตัวสร้างภาพ (diffusion)สร้างข้อความเข้า รูปออก
ตัวสร้างวิดีโอสร้างข้อความเข้า วิดีโอออก
ตัวถอดเสียง / ตัวอ่านข้อความสร้างเสียงกับข้อความ สลับกัน
embeddings (ค้นตามความหมาย)จำแนกข้อความเข้า ตัวเลขออก
ตัวคัดสแปม / ตัวตรวจรายการน่าสงสัยจำแนกข้อความ หรือ ตัวเลข

ทุกตัวในตารางนี้ทำงานเดียวทั้งหมด ตัวที่เก่งเรื่องหนึ่ง ก็เก่งเรื่องนั้นเรื่องเดียว ไม่มีตัวไหนฉลาดรอบด้านแบบมนุษย์ที่ทำได้ทุกอย่างในตัวเดียวจริง ๆ สิ่งที่ดูเหมือนทำได้หลายอย่าง มักเป็นเครื่องมือหลายตัวที่ถูกเอามาต่อกัน

กรงที่หนึ่ง ตัวแชท (LLM)

ตัวหลังจอ ChatGPT, Claude, Gemini คือสิ่งที่เราเรียกว่า LLM ย่อมาจาก Large Language Model หรือ "โมเดลภาษาขนาดใหญ่" มันทำงานเดียวคือดูข้อความที่อยู่ตรงหน้า แล้วทายว่าคำถัดไปน่าจะเป็นอะไร ทำซ้ำทีละคำจนได้คำตอบยาว ๆ ออกมา ที่มันดูเหมือนเขียนเรียงความได้ เขียนโค้ดได้ สรุปอีเมลได้ เพราะงาน "ทายคำต่อไป" นั้นครอบคลุมข้อความได้แทบทุกแบบ ไม่ใช่เพราะข้างในมีหลายสมองแยกกันทำแต่ละเรื่อง

กลไกเต็ม ๆ ของ LLM ว่าทายคำยังไง ทำไมถึงตอบเหมือนเข้าใจ อยู่ในบท LLM ทำงานยังไงจริง ๆ แล้ว ตรงนี้แค่ขอวางมันเป็นตัวอ้างอิงของสวนสัตว์ เพราะกรงที่เหลือจะอธิบายง่ายขึ้นถ้าเทียบกับตัวนี้

ปี 2026 คุณจะเห็น LLM บางตัวมีโหมด "คิดก่อนตอบ" เช่น o3 ของ OpenAI หรือ DeepSeek-R1 ที่ค่อย ๆ คิดเป็นขั้น ๆ ในใจก่อนคายคำตอบสุดท้าย เรียกกันว่าโมเดลกลุ่มคิดเป็นขั้น พวกนี้ยังเป็น LLM กรงเดียวกัน ทำงานทายคำเหมือนกัน แค่ถูกให้คิดยาวขึ้นก่อนตอบ จึงตอบโจทย์ที่ต้องใช้เหตุผลได้ดีขึ้น แลกกับเวลาและค่าใช้จ่ายที่มากขึ้น

สิ่งที่ LLM ทำไม่ได้เองเลยคือ มันไม่ได้ "เห็น" รูป ไม่ได้ "ได้ยิน" เสียง และไม่ได้ "วาด" อะไรออกมาเป็นภาพ มันรู้จักแต่ข้อความ เพราะฉะนั้นทุกครั้งที่คุณส่งรูปให้ ChatGPT แล้วมันบรรยายรูปได้ หรือคุณสั่งให้มันวาดรูปแล้วได้รูปกลับมา จริง ๆ แล้วเบื้องหลังมีเครื่องมือตัวอื่นมาช่วย ไม่ใช่ LLM ทำเองคนเดียว นี่คือสาเหตุที่เราต้องรู้จักกรงอื่นด้วย

กรงที่สอง ตัวสร้างภาพ (diffusion)

ลองเปิดเครื่องมือสร้างภาพ พิมพ์ว่า "แมวส้มนั่งบนเก้าอี้ไม้ริมหน้าต่าง แสงยามเช้า" แล้วได้ภาพออกมาเป็นภาพถ่ายเหมือนจริง

มันไม่ได้ไป "ก๊อปปี้" ภาพแมวจากเน็ตมาแปะ และไม่ได้เก็บคลังภาพไว้แล้วหยิบมาให้

วิธีที่มันทำจริง ๆ เรียกว่า diffusion แปลตรงตัวว่า "การแพร่กระจาย" หลักการคือฝึกแบบย้อนกลับ ตอนฝึก เขาเอาภาพจริงเป็นล้าน ๆ ภาพ แล้วค่อย ๆ เติม "จุดรบกวน" ลงไปทีละนิด เหมือนภาพทีวีตอนสัญญาณไม่ดีที่มีเม็ดหิมะซ่า ๆ เติมไปเรื่อย ๆ จนภาพแมวกลายเป็นจอซ่าล้วน ๆ ไม่เหลือเค้าเดิม จากนั้นสอนให้โมเดล "ถอด" จุดรบกวนออกทีละขั้น ให้มันเดาว่าก่อนจะซ่าขนาดนี้ ภาพเดิมหน้าตาเป็นยังไง ทำซ้ำกับภาพเป็นล้าน จนมันเก่งเรื่องการแปลงจอซ่าให้กลับเป็นภาพที่สมเหตุสมผล

เวลาใช้งานจริง มันเริ่มจากจอซ่าล้วน ๆ ที่สุ่มขึ้นมาใหม่ ไม่ใช่ภาพไหนเลย แล้วค่อย ๆ ถอดจุดรบกวนออกทีละขั้น แต่ละขั้นภาพชัดขึ้นนิดหนึ่ง จากจอซ่ากลายเป็นเค้าโครงเลือน ๆ กลายเป็นรูปร่างแมว กลายเป็นแมวส้มที่มีขนชัดเจน ทำซ้ำหลายสิบขั้นจนได้ภาพสมบูรณ์ เพราะมันเริ่มจากจุดสุ่มที่ไม่ซ้ำกันทุกครั้ง ภาพที่ออกมาจึงเป็นภาพใหม่เสมอ ไม่ใช่ภาพที่ก๊อปมา

แล้วมันรู้ได้ยังไงว่าต้องถอดออกมาเป็น "แมวส้ม" ไม่ใช่หมาหรือรถยนต์ ตรงนี้แหละที่ข้อความเข้ามาเกี่ยวข้อง คำสั่งที่คุณพิมพ์จะถูกแปลงเป็นชุดตัวเลขที่บอกความหมายก่อน แล้วใช้ชุดตัวเลขนั้นคอยกำกับทุกขั้นของการถอดจุดรบกวน ว่าให้เดินไปทางภาพที่ตรงกับคำว่า "แมวส้มริมหน้าต่างแสงยามเช้า"

ตัวที่ทำให้คำกับภาพคุยกันรู้เรื่องนี้สำคัญ มันถูกฝึกด้วยรูปกับคำบรรยายรูปคู่กันเป็นล้าน ๆ คู่ จนเรียนรู้ที่จะวางคำว่า "แมวส้ม" กับรูปแมวส้มจริง ไว้ในจุดเดียวกันบนแผนที่ความหมาย พอคำกับภาพอยู่บนแผนที่เดียวกันได้ ระบบสร้างภาพก็เลยรู้ว่าคำสั่งของคุณชี้ไปที่ภาพหน้าตาแบบไหน เทคนิคนี้คนในวงการเรียกว่า CLIP และมันเป็นญาติเดียวกับกลไกในกรงค้นหาที่เราจะพูดถึงทีหลัง ที่จับความหมายมาวางเป็นตัวเลขเหมือนกัน

เครื่องมือที่ใช้กลไกนี้คือพวก Stable Diffusion ที่เปิดให้โหลดไปรันเองได้ Midjourney และ DALL-E ของ OpenAI งานวิจัยที่จุดกระแส diffusion สมัยใหม่ออกมาช่วงปี 2020 และกลายเป็นเทคนิคหลักของการสร้างภาพด้วย AI ตั้งแต่นั้น

💡 ใจความสำคัญ: ตัวสร้างภาพไม่ได้ก๊อปภาพมาแปะ มันเริ่มจากจอซ่าที่สุ่มขึ้นมา แล้วค่อย ๆ ถอดความซ่าออกจนกลายเป็นภาพ โดยมีคำสั่งของคุณคอยกำกับทิศทางทุกขั้น นี่คือกลไกคนละโลกกับการทายคำของ LLM

จุดที่ต้องรู้ ตัวสร้างภาพไม่ได้ "เข้าใจ" สิ่งที่มันวาดในแบบที่คนเข้าใจ มันถึงวาดมือคนนิ้วเกินบ่อย ๆ หรือเขียนตัวหนังสือในภาพออกมาเป็นตัวอักษรมั่ว ๆ ที่อ่านไม่ออก เพราะมันเรียนรู้ "หน้าตาของภาพที่น่าจะถูก" จากตัวอย่างจำนวนมาก ไม่ได้เรียนกฎว่ามือมีกี่นิ้วหรือคำนี้สะกดยังไง

ลองทำดู เห็นความต่างของสองกรงด้วยตาตัวเอง

ในแชทตัวเดียว เช่น ChatGPT หรือ Gemini ลองทำสองอย่างนี้ติดกัน

อย่างแรก พิมพ์คำถามที่เป็นข้อความล้วน เช่น "ช่วยร่างแคปชั่นโพสต์ขายกาแฟคั่วเข้มสามแบบ" สังเกตว่าคำตอบไหลออกมาเป็นข้อความทีละบรรทัด นั่นคือ LLM ทำงาน

อย่างที่สอง พิมพ์ว่า "วาดรูปถ้วยกาแฟคั่วเข้มบนโต๊ะไม้ให้หน่อย" คราวนี้สังเกตว่ามันใช้เวลาคิดต่างออกไป และสิ่งที่ออกมาคือรูป ไม่ใช่ข้อความ ในเครื่องมือหลายตัวคุณจะเห็นภาพค่อย ๆ ชัดขึ้นด้วยซ้ำ นั่นคือตัว diffusion ทำงาน แม้คุณจะพิมพ์อยู่ในช่องแชทเดียวกัน เบื้องหลังคือคนละเครื่อง LLM อ่านคำสั่งคุณแล้วส่งต่อให้ตัวสร้างภาพทำงานอีกที

กรงที่สาม ตัวสร้างวิดีโอ

วิดีโอคือญาติสนิทของการสร้างภาพ วิดีโอคือภาพหลายเฟรมเรียงต่อกันอย่างรวดเร็ว แต่การสร้างวิดีโอไม่ใช่แค่วาดภาพหลาย ๆ ใบแยกกันแล้วเอามาต่อ เพราะถ้าทำแบบนั้น แมวในเฟรมแรกกับเฟรมถัดไปจะกลายเป็นคนละตัว สีเปลี่ยน ตำแหน่งกระโดดไปมา ดูแล้วกระตุก ความยากจริง ๆ ของวิดีโอคือทำให้ภาพ "ต่อเนื่อง" ทั้งในแง่หน้าตาของวัตถุและการเคลื่อนไหวที่สมจริง

ตัวสร้างวิดีโอรุ่นใหม่จึงไม่ได้ถอดจุดรบกวนออกจากภาพทีละใบ แต่ถอดจากก้อนข้อมูลที่รวมทั้ง "พื้นที่ในภาพ" และ "เวลาที่ไหลไป" เข้าด้วยกัน มันมองคลิปเป็นชิ้นเล็ก ๆ ที่กระจายอยู่ทั้งในกรอบภาพและตลอดช่วงเวลา แล้วค่อย ๆ ถอดความซ่าออกพร้อมกันทั้งคลิป วิธีนี้ทำให้วัตถุชิ้นเดียวกันคงหน้าตาไว้ได้ตลอดคลิป และการเคลื่อนไหวลื่นต่อเนื่อง

ของพวกนี้ก้าวเร็วมาก ในต้นปี 2025 AI ยังสร้างได้แค่คลิปสั้น ๆ เงียบ ๆ พอมาถึงต้นปี 2026 ตัวหลัก ๆ ในตลาดอย่าง Sora ของ OpenAI, Veo ของ Google, Kling จากจีน และ Seedance ของ ByteDance สร้างคลิปความละเอียดสูงได้ยาวขึ้น และหลายตัวสร้างเสียงประกอบที่เข้าจังหวะกับภาพได้ในรอบเดียว สิ่งที่เมื่อปีก่อนยังทำไม่ได้ ปีนี้กลายเป็นมาตรฐาน

นี่สำคัญกับคุณตรงไหน ถ้าวันหนึ่งคุณต้องทำคลิปสั้นโปรโมตสินค้า หรือวิดีโอประกอบสไลด์นำเสนอ เครื่องมือกลุ่มนี้คือสิ่งที่จะช่วยได้ แต่ให้คาดหวังว่ามันเหมาะกับคลิปสั้น ๆ ไม่กี่วินาที ไม่ใช่หนังทั้งเรื่อง

จุดที่ต้องรู้ วิดีโอ AI ยังแพงและช้ากว่าการสร้างภาพมาก เพราะต้องประมวลผลข้อมูลทั้งกอง คิดราคาเป็นวินาทีของคลิป และยังหลุดบ่อยในรายละเอียดที่ต้องการความสม่ำเสมอ เช่น ตัวอักษรบนป้าย หรือใบหน้าคนที่ต้องเหมือนเดิมทุกช็อต รู้ข้อจำกัดนี้ไว้ก่อนจะได้ไม่คาดหวังว่ามันจะแทนกองถ่ายทั้งกองได้ในวันนี้

กรงที่สี่ ตัวจัดการเสียง

เสียงมีสองทางที่กลับด้านกัน

ทางแรกคือ เสียงเข้า ข้อความออก คือฟังเสียงพูดแล้วพิมพ์ออกมาเป็นตัวหนังสือ งานนี้เรียกว่าการถอดเสียงเป็นข้อความ เครื่องมือที่ดังที่สุดคือ Whisper ของ OpenAI ที่เปิดให้ใช้ฟรีตั้งแต่ปี 2022 มันถูกฝึกด้วยเสียงพูดจากหลายภาษารวมกันหลายแสนชั่วโมง เลยทนกับสำเนียงแปลก ๆ เสียงรบกวน และหลายภาษาได้ดี นี่คือตัวที่อยู่เบื้องหลังเวลาแอปประชุมถอดเสียงเป็นบันทึกให้ หรือเวลาคุณพูดใส่มือถือแล้วมันพิมพ์ตาม

ทางที่สองคือ ข้อความเข้า เสียงออก คืออ่านตัวหนังสือออกมาเป็นเสียงพูด งานนี้เรียกว่าการอ่านข้อความเป็นเสียง เจ้าที่ดังคือ ElevenLabs ที่เปิดตัวปี 2022 ทำเสียงสังเคราะห์ที่ฟังเหมือนคนพูดจริงจนแยกยาก ควบคุมน้ำเสียง อารมณ์ จังหวะหยุดได้ นี่คือตัวที่อยู่เบื้องหลังเสียงบรรยายในคลิป เสียงอ่านหนังสือเสียง หรือตัวละครในเกมที่พูดได้

นอกจากเสียงพูด ยังมีตัวที่สร้างเพลงทั้งเพลงจากคำสั่งสั้น ๆ เช่น Suno ที่พิมพ์บอกแนวเพลงกับเนื้อร้องแล้วได้เพลงพร้อมร้องกลับมา อันนี้อยู่ฝั่งสร้างเหมือนตัววาดรูป แค่เปลี่ยนช่องทางจากภาพมาเป็นเสียงดนตรี

เวลาคุณคุยกับ AI ด้วยเสียงแบบโต้ตอบทันที จริง ๆ คือสามกรงทำงานต่อกันเป็นทอด ๆ ตัวถอดเสียงฟังคำพูดคุณแล้วแปลงเป็นข้อความ ส่งข้อความนั้นให้ LLM คิดคำตอบเป็นข้อความ แล้วส่งคำตอบให้ตัวอ่านข้อความแปลงกลับเป็นเสียงพูดให้คุณได้ยิน เลขาคนเดิมที่รับเรื่องส่งต่อ คราวนี้มีล่ามฟังและล่ามพูดยืนขนาบสองข้าง

💡 ใจความสำคัญ: "AI ฟังเสียงได้" กับ "AI พูดได้" เป็นคนละเครื่องที่ทำงานกลับด้านกัน และเวลาคุณคุยกับ AI ด้วยเสียง มันคือหลายเครื่องต่อกันเป็นทอด ไม่ใช่สมองเดียวที่ทั้งฟังทั้งพูดทั้งคิด

จุดที่ต้องรู้ ตัวถอดเสียงก็หลอนได้เหมือน LLM มีรายงานว่าบางครั้งมันพิมพ์ประโยคที่ไม่มีใครพูดออกมาด้วย โดยเฉพาะตอนเสียงเงียบหรือไม่ชัด เพราะฉะนั้นบันทึกประชุมที่ AI ถอดให้ ยังต้องมีคนกวาดตาตรวจก่อนเชื่อ

กรงที่ห้า ตัวค้นหาตามความหมาย (embeddings)

กรงนี้คนทั่วไปไม่เคยได้ยินชื่อ แต่มันทำงานอยู่เบื้องหลังแทบทุกอย่างที่คุณใช้ ทั้งช่องค้นหาในแอปช้อปปิ้ง ระบบแนะนำคลิป และที่สำคัญคือมันคือกลไกที่ทำให้ AI ตอบจากเอกสารของบริษัทคุณได้

ลองพิมพ์ในช่องค้นหาว่า "รองเท้าใส่วิ่งหน้าฝน" การค้นหาแบบเก่าจะไปไล่หาคำว่า "รองเท้า" "วิ่ง" "ฝน" ตรงตัว ถ้าสินค้าชื่อ "รองเท้ากันลื่นพื้นเปียก" มันอาจหาไม่เจอ เพราะไม่มีคำว่าฝนหรือวิ่งสักคำ ทั้งที่มันคือสิ่งที่คุณต้องการพอดี ปัญหาคือคอมพิวเตอร์จับ "ตัวอักษรที่ตรงกัน" แต่ไม่จับ "ความหมายที่ใกล้กัน"

ตัวที่แก้ปัญหานี้เรียกว่า embeddings แปลคร่าว ๆ ว่าการฝังความหมายเป็นตัวเลข หลักการคือเอาข้อความชิ้นหนึ่งแปลงเป็นชุดตัวเลขยาว ๆ ชุดหนึ่ง โดยฝึกให้ข้อความที่ความหมายใกล้กันได้ชุดตัวเลขที่ใกล้กัน ข้อความที่ความหมายไกลกันได้ชุดตัวเลขที่ห่างกัน พอทุกอย่างเป็นตัวเลขแล้ว การหาของที่ความหมายใกล้กันก็กลายเป็นการหาชุดตัวเลขที่อยู่ใกล้กัน ซึ่งคอมพิวเตอร์ทำได้เร็วมาก

ลองนึกภาพแผนที่ขนาดใหญ่ที่ทุกประโยคในโลกมีพิกัดของตัวเอง ประโยคเรื่องอาหารไปกองอยู่มุมหนึ่ง ประโยคเรื่องกีฬาไปอีกมุม "รองเท้าใส่วิ่งหน้าฝน" กับ "รองเท้ากันลื่นพื้นเปียก" จะอยู่ใกล้กันบนแผนที่นี้ ทั้งที่ไม่มีคำซ้ำกันเลย เพราะความหมายมันใกล้กัน การค้นหาตามความหมายก็คือการดูว่าบนแผนที่นี้ มีอะไรปักหมุดอยู่ใกล้คำค้นของคุณบ้าง

การเปรียบเทียบนี้ใช้ได้จุดเดียวคือเรื่องระยะใกล้ไกล ส่วนที่ต่างคือแผนที่จริงไม่ได้มีแค่สองแกนซ้ายขวาบนล่าง โมเดล embeddings ที่ใช้กันจริงอย่าง text-embedding-3 ของ OpenAI วางทุกประโยคในพื้นที่ที่มีหลักพันแกนพร้อมกัน เช่น 1,536 แกน คนวาดในหัวไม่ได้ แต่คอมพิวเตอร์คำนวณระยะได้สบาย

ทำไมเรื่องนี้ถึงสำคัญกับคนทำงาน เพราะนี่คือกลไกที่ทำให้ AI ตอบคำถามจากเอกสารของบริษัทคุณได้ เวลาบริษัทอยากให้ AI ตอบคำถามพนักงานจากคู่มือ HR หรือ policy ภายใน วิธีที่ใช้กันคือ เอาเอกสารทั้งหมดแปลงเป็น embeddings เก็บไว้ก่อน พอมีคนถามคำถาม ระบบก็แปลงคำถามเป็น embeddings แล้วไปหาว่าส่วนไหนของเอกสารอยู่ใกล้คำถามนี้บนแผนที่ความหมาย ดึงเฉพาะส่วนนั้นมา แล้วค่อยส่งให้ LLM อ่านและตอบ วิธีนี้ทำให้ LLM ตอบจากข้อมูลจริงที่เพิ่งดึงมา แทนที่จะเดาจากความจำที่ฝึกมา เทคนิคนี้มีชื่อในวงการว่า RAG ซึ่งจะลงรายละเอียดในส่วนเครื่องมือต่อ ๆ ไป

สังเกตว่า embeddings เป็นตัวอย่างชัด ๆ ของกรงฝั่งจำแนก ไม่ใช่ฝั่งสร้าง มันไม่ได้เขียนอะไรใหม่ออกมา มันแค่แปลงข้อความเป็นตัวเลขเพื่อให้เทียบความใกล้ไกลได้ แต่มันคือฟันเฟืองที่ทำให้กรง LLM ทำงานกับข้อมูลจริงของคุณได้

ลองทำดู เห็นการค้นหาตามความหมายทำงาน

เปิดแอปช้อปปิ้งที่คุณใช้ประจำ เช่น Shopee หรือ Lazada แล้วลองค้นด้วยคำที่บรรยายสิ่งที่อยากได้ แทนชื่อสินค้าตรง ๆ เช่น "ของขวัญให้แม่วันเกิด" หรือ "อุปกรณ์จัดโต๊ะทำงานให้เป็นระเบียบ" สังเกตว่าผลที่ขึ้นมาหลายอันไม่มีคำที่คุณพิมพ์อยู่ในชื่อสินค้าเลย แต่ตรงกับสิ่งที่คุณหมายถึง นั่นคือการค้นหาตามความหมายที่วิ่งบน embeddings กำลังทำงาน ลองเทียบกับการค้นหาที่ตรงตัวมาก เช่น พิมพ์รหัสสินค้าหรือชื่อรุ่นเป๊ะ ๆ คุณจะเริ่มรู้สึกถึงความต่างระหว่างค้นแบบจับคำตรงตัว กับค้นแบบจับความหมาย

ทำไม ChatGPT ถึงดูเหมือนทำได้ทุกอย่าง

ถ้า LLM รู้จักแต่ข้อความ แล้วทำไมเปิด ChatGPT ตัวเดียวมันถึงดูรูปได้ วาดรูปได้ ฟังเสียงได้ ในแอปเดียว

คำตอบคือ สิ่งที่คุณเปิดใช้ชื่อ ChatGPT หรือ Claude ไม่ใช่ LLM ตัวเดียวโดด ๆ แต่เป็น ผลิตภัณฑ์ ที่เอาหลายกรงในสวนสัตว์มาต่อเข้าด้วยกัน แล้วมีตัวจัดการคอยส่งงานไปให้กรงที่ถูก คุณส่งรูปไป ตัวจัดการส่งให้เครื่องที่ดูภาพออก คุณสั่งวาดรูป มันส่งให้ตัว diffusion คุณพูดใส่ไมค์ มันส่งให้ตัวถอดเสียง ส่วนการคุยโต้ตอบเป็นข้อความ ตัว LLM รับไป คุณเห็นช่องแชทเดียว เลยรู้สึกเหมือนคุยกับสมองก้อนเดียวที่เก่งทุกเรื่อง แต่เบื้องหลังคือทีมงานหลายคนในห้องเดียวกัน

ลองดูตัวอย่างจริงสักเรื่อง สมมติคุณพิมพ์ว่า "อ่านไฟล์ยอดขายที่แนบมา แล้วทำกราฟสรุปให้" สิ่งที่เกิดขึ้นคือหลายกรงทำงานต่อกันเป็นทอด ตัวจัดการเปิดอ่านไฟล์ก่อน ส่งตัวเลขให้ LLM คิดว่าจะสรุปยังไง แล้ว LLM สั่งให้เครื่องมือวาดกราฟทำกราฟออกมา สุดท้ายส่งผลกลับมาให้คุณในช่องแชทเดียว งานชิ้นเดียวนี้ผ่านมือหลายกรง ไม่ใช่ LLM ทำคนเดียว

ตัวจัดการที่คอยรับงานแล้วเดินเรื่องส่งต่อให้กรงที่ถูกแบบนี้ มีคำเรียกเฉพาะในวงการว่า harness และมันคือหัวใจของส่วนถัดไปทั้งส่วน รายละเอียดเต็ม ๆ อยู่ในบท harness ส่วนที่ไม่มีใครพูดถึง ตอนนี้แค่จำภาพไว้ว่า ความทำได้ทุกอย่างที่คุณเห็น มาจากการเอาเครื่องมือเฉพาะทางหลายตัวมาต่อกัน ไม่ใช่จากตัว AI ตัวเดียวที่เก่งรอบด้านจริง ๆ

💡 ใจความสำคัญ: ChatGPT ที่ดูทำได้ทุกอย่าง คือผลิตภัณฑ์ที่เอาหลายกรงมาต่อกัน แล้วมีตัวจัดการส่งงานไปให้กรงที่ถูก ไม่ใช่ AI ก้อนเดียวที่เก่งทุกเรื่อง

มุมที่คนไทยควรรู้

มีจุดหนึ่งที่กระทบคนไทยมากกว่าที่คิด ทุกกรงในสวนสัตว์นี้ที่ทำงานกับข้อความ ทั้ง LLM การสร้างภาพจากคำสั่ง และ embeddings ล้วนต้องแปลงข้อความเป็นชิ้นเล็ก ๆ ที่เครื่องนับได้ก่อน ชิ้นพวกนี้เรียกว่า token และภาษาไทยถูกหั่นเป็น token มากกว่าภาษาอังกฤษอย่างมีนัยสำคัญเมื่อเทียบเนื้อหาความยาวเท่ากัน เหตุผลเชิงกลไกอยู่ในบท LLM ทำงานยังไงจริง ๆ

ผลในทางปฏิบัติคือ งานที่เป็นภาษาไทยมักกินทรัพยากรมากกว่าและถึงเพดานเร็วกว่างานภาษาอังกฤษที่เนื้อหาเท่ากัน ไม่ว่าจะเป็นการคุยยาว ๆ กับ LLM หรือการทำคลังความหมายด้วย embeddings จากเอกสารภาษาไทย รู้ไว้ก่อนจะได้ออกแบบงานให้พอดี เช่น หั่นเอกสารยาว ๆ เป็นชิ้นเล็กลง แทนที่จะยัดทั้งก้อน

เมื่อรู้แล้วว่าสวนสัตว์มีกี่กรง และแต่ละกรงทำอะไรได้ คำถามต่อไปคือ แล้วมันทำอะไรไม่ได้ ขีดจำกัดที่ติดมากับวิธีที่ AI พวกนี้ทำงานคืออะไร เป็นเรื่องที่ต้องเข้าใจก่อนจะไว้ใจมันกับงานจริง


อ่านต่อ: ขีดจำกัดที่ติดตัวมา ไม่ใช่แค่รุ่นนี้ยังไม่เก่ง

แหล่งอ้างอิง

คำถามที่พบบ่อย

AI สร้างภาพอย่าง Midjourney ก๊อปรูปจากเน็ตมาแปะให้เราใช่ไหมexpand_more

ไม่ใช่ มันใช้กลไกชื่อ diffusion คือเริ่มจากจอซ่าที่สุ่มขึ้นมาใหม่ แล้วค่อย ๆ ถอดจุดรบกวนออกทีละขั้นจนกลายเป็นภาพ โดยมีคำสั่งของคุณคอยกำกับทิศทาง เพราะเริ่มจากจุดสุ่มที่ไม่ซ้ำกัน ภาพที่ออกมาจึงเป็นภาพใหม่เสมอ ไม่ใช่ภาพที่ก๊อปมา

ถ้า ChatGPT รู้จักแต่ข้อความ แล้วทำไมมันดูรูปและวาดรูปได้expand_more

เพราะสิ่งที่คุณเปิดใช้ชื่อ ChatGPT ไม่ใช่ LLM ตัวเดียวโดด ๆ แต่เป็นผลิตภัณฑ์ที่เอาเครื่องมือหลายตัวมาต่อกัน แล้วมีตัวจัดการคอยส่งงานไปให้เครื่องที่ถูก ส่งรูปไปก็ส่งให้เครื่องที่ดูภาพออก สั่งวาดรูปก็ส่งให้ตัว diffusion ไม่ใช่ LLM ทำเองคนเดียว

AI ฟังเสียงได้กับ AI พูดได้ เป็นเครื่องเดียวกันไหมexpand_more

ไม่ใช่ เป็นคนละเครื่องที่ทำงานกลับด้านกัน ตัวถอดเสียงเป็นข้อความ (เช่น Whisper) ทำงานเสียงเข้าข้อความออก ส่วนตัวอ่านข้อความเป็นเสียง (เช่น ElevenLabs) ทำงานข้อความเข้าเสียงออก เวลาคุยกับ AI ด้วยเสียง คือสามเครื่องทำงานต่อกันเป็นทอด ไม่ใช่สมองเดียวที่ทั้งฟังทั้งพูดทั้งคิด

ทำไมพิมพ์คำที่ไม่ตรงกับชื่อสินค้าแล้วช่องค้นหายังเจอของที่ต้องการexpand_more

เพราะเบื้องหลังใช้กลไกชื่อ embeddings ที่แปลงข้อความเป็นชุดตัวเลข โดยให้ข้อความที่ความหมายใกล้กันได้ตัวเลขที่อยู่ใกล้กัน รองเท้าใส่วิ่งหน้าฝน กับ รองเท้ากันลื่นพื้นเปียก จึงอยู่ใกล้กันแม้ไม่มีคำซ้ำกันเลย นี่คือการค้นหาตามความหมาย และเป็นกลไกเดียวกับที่ทำให้ AI ตอบจากเอกสารของบริษัทได้