Level 1 · AI คืออะไรscheduleอ่าน 23 นาทีทบทวนล่าสุด 2026-06-07

สิ่งที่ AI ทำไม่ได้จริง ๆ และทำไม

starsTL;DR

หลายเรื่องที่ AI ทำพลาดไม่ใช่เพราะ "เวอร์ชันนี้ยังไม่เก่งพอ" แล้วเดี๋ยวรุ่นหน้าจะหาย แต่มันติดมากับวิธีที่เครื่องเดาคำถูกสร้างขึ้นมาตั้งแต่ราก บทนี้แยกให้เห็นว่าอะไรคือขีดจำกัดที่ฝังในตัวมันเอง อะไรแค่ยังไม่ดีพอ และทำไมการรู้เส้นแบ่งนี้ตั้งแต่ต้นถึงทำให้คุณใช้ AI ได้คุ้มขึ้นและเจ็บตัวน้อยลง

สิ่งที่ AI ทำไม่ได้จริง ๆ และทำไม

คุณคงเคยเห็นพาดหัวข่าวทำนองนี้ "AI รุ่นใหม่ฉลาดขึ้นอีกขั้น" "อีกไม่นาน AI จะทำได้ทุกอย่าง" พอเห็นบ่อย ๆ ก็เริ่มเชื่อโดยไม่รู้ตัวว่าทุกข้อบกพร่องที่เจอตอนนี้เป็นแค่เรื่องชั่วคราว เดี๋ยวเวอร์ชันหน้าก็หาย เหมือนกล้องมือถือที่คมขึ้นทุกปี

แต่ความจริงไม่ได้เป็นแบบนั้นทั้งหมด ข้อจำกัดของ AI มีอยู่สองพันธุ์ที่ต่างกันคนละโลก พันธุ์แรกคือเรื่องที่ "ยังไม่เก่งพอ" วันนี้ทำได้งั้น ๆ ปีหน้าทำได้ดีขึ้น พันธุ์ที่สองคือเรื่องที่ติดมากับ วิธีสร้าง ของมันตั้งแต่ราก ไม่ว่าจะอัปเกรดกี่รุ่น มันก็ยังทำไม่ได้ดีอยู่ดี เพราะปัญหาไม่ได้อยู่ที่ "ยังไม่พอ" แต่อยู่ที่ตัวกลไกเอง

บทนี้จะพาคุณแยกสองพันธุ์นี้ออกจากกัน เมื่อคุณเห็นเส้นแบ่งนี้ชัด คุณจะเลิกคาดหวังผิดกับ AI เลิกหงุดหงิดเวลามันทำเรื่องที่มันทำไม่ได้อยู่แล้ว และเริ่มใช้มันกับงานที่มันเก่งจริง

ย้อนกลับไปที่ "เครื่องเดาคำ" อีกครั้ง

ตลอดส่วนที่ผ่านมาเราเห็นแล้วว่า ใต้สุดของ AI คือเครื่องที่ดูข้อความตรงหน้า แล้วเดาว่าชิ้นข้อความถัดไปน่าจะเป็นอะไร จุดที่ต้องย้ำตรงนี้คือ คำว่า "เก่งขึ้น" ของ AI แต่ละรุ่น แปลว่า เดาแม่นขึ้น เท่านั้น ไม่ได้แปลว่ามันเปลี่ยนวิธีทำงานเป็นอย่างอื่น รุ่นใหม่อ่านข้อความมาเยอะกว่า เดาได้เนียนกว่า แต่ใต้สุดมันยังเป็นเครื่องเดาคำตัวเดิม

ขีดจำกัดที่ติดมากับราก คือเรื่องที่ต่อให้เดาแม่นขึ้นแค่ไหนก็ไม่ช่วย เพราะปัญหาไม่ได้อยู่ที่ความแม่นของการเดา แต่อยู่ที่ตัวการเดาเองที่ไม่ใช่เครื่องมือที่เหมาะกับงานนั้นตั้งแต่แรก

💡 ใจความสำคัญ: AI รุ่นใหม่ = เครื่องเดาคำที่เดาแม่นขึ้น ไม่ใช่เครื่องชนิดใหม่ ดังนั้นงานไหนที่ "การเดาคำ" ไม่ใช่เครื่องมือที่ถูกอยู่แล้ว อัปเกรดกี่รุ่นก็ยังพลาดในเรื่องเดิม

ขีดจำกัดข้อ 1: นับและคำนวณแบบเป๊ะ ๆ ไม่ได้

เริ่มจากเรื่องที่เห็นชัดที่สุด ลองพิมพ์ถาม AI ว่าในคำว่า strawberry มีตัวอักษร r กี่ตัว คุณอาจตกใจว่าหลายครั้งมันตอบผิด ทั้งที่เป็นคำถามที่เด็กประถมก็นับได้ คำตอบที่ถูกคือ 3 ตัว แต่ model หลายตัวเคยตอบ 2 มาแล้วหน้าตาเฉย

สาเหตุตรงกับกลไกที่เราพูดถึงมาตลอด จำเรื่อง token ได้ไหม คือชิ้นข้อความที่ AI มองเห็น บางทีเป็นทั้งคำ บางทีเป็นแค่เศษคำ (รายละเอียดเต็มอยู่ใน บทเรื่องกลไก LLM)

ประเด็นคือ AI ไม่ได้มองเห็นคำว่า strawberry เป็นตัวอักษรเรียงกัน s-t-r-a-w-b-e-r-r-y แบบที่คุณเห็น มันเห็นคำนี้ถูกหั่นเป็นก้อนใหญ่ ๆ ไม่กี่ก้อน เช่น st กับ raw กับ berry (จะหั่นตรงไหนพอดี ขึ้นกับ model แต่ละตัว แต่หลักการเดียวกัน) แต่ละก้อนเป็นเหมือนสัญลักษณ์ก้อนเดียว ข้างในก้อนมีตัวอักษรอะไรบ้าง AI มองไม่ทะลุเข้าไปเห็นทีละตัว

เปรียบเหมือนคุณอ่านป้ายร้าน "ก๋วยเตี๋ยว" แบบรวด ๆ เป็นคำ ๆ ไม่ได้หยุดสะกดทีละตัว พอมีคนถามว่ามีสระกี่ตัว คุณก็ต้องย้อนกลับไปไล่ดูใหม่ AI เจอปัญหาคล้ายกัน มันรับคำมาเป็นก้อน ไม่ใช่ทีละตัว การนับตัวอักษรเลยขัดกับวิธีที่มันมองข้อความตั้งแต่ต้น

จุดที่การเปรียบเทียบนี้พังคือ ก้อนที่ AI หั่นไม่ได้แบ่งตามภาพที่ตาเห็น แต่แบ่งตามชิ้นคำที่มันเคยเจอบ่อย เช่น strawberry ถูกหั่นเป็น st กับ raw กับ berry ไม่ใช่ครึ่งซ้ายครึ่งขวาของรูปคำ คุณกับ AI จึงตอบยากด้วยเหตุคนละอย่าง คุณแค่ยังไม่ได้ไล่ดู แต่ AI มองทะลุเข้าไปในก้อนเพื่อนับทีละตัวไม่ได้เลย

เรื่องเดียวกันนี้ลามไปถึงการคำนวณเลขด้วย ลองให้ตัว model เปล่า ๆ คูณเลขหลายหลักที่ไม่ค่อยมีใครเขียนคำตอบไว้บนเน็ต เช่น 48,793 คูณ 7,604 มันอาจตอบเลขที่ "หน้าตาเหมือนคำตอบ" คือยาวพอ ๆ กัน ลงท้ายดูสมเหตุสมผล แต่ผิดได้ตั้งแต่หลักร้อยหลักพัน

เพราะมันไม่ได้ตั้งเลขคูณทีละหลักแล้วทดเลขแบบที่คุณเรียนมา มันเดาว่าหลังโจทย์นี้ "ตัวเลขแบบไหนน่าจะตามมา" จากที่เคยเห็น ไม่ใช่คำนวณตามกฎ เลขง่าย ๆ ที่เจอบ่อยอย่าง 7 คูณ 8 มันตอบถูกเพราะเคยเห็นมานับไม่ถ้วน แต่พอเป็นเลขเฉพาะที่ไม่เคยเจอชัด ๆ การเดาก็พลาด

เรื่องนี้ลามได้ไกลกว่าตัวเลขโดด ๆ ด้วย ลองนึกถึงโจทย์ที่ต้องคิดหลายขั้นต่อกัน เช่น คิดดอกเบี้ยทบต้นห้าปี แล้วหักภาษี แล้วเทียบกับอีกแผนหนึ่ง ถ้ามันเดาพลาดแค่ขั้นเดียวกลางทาง ทุกขั้นที่เหลือก็ผิดตามกันไปหมด ยิ่งขั้นตอนยาว โอกาสที่ความผิดจะสะสมก็ยิ่งสูง

รุ่นใหม่ที่ฝึกเรื่องการคิดเป็นขั้นเป็นตอนมาดี ช่วยลดอาการนี้ลงได้พอควร แต่ก็ยังเป็นการเดาที่แม่นขึ้น ไม่ใช่การคิดเลขที่การันตีถูก

💡 ใจความสำคัญ: การนับตัวอักษรและการคำนวณเป๊ะ ๆ ต้องทำตาม กฎ ทีละขั้นแบบไม่มีพลาด แต่ AI ทำงานด้วยการ เดารูปแบบ ซึ่งเป็นคนละเครื่องมือกัน เดาแม่นแค่ไหนก็ยังไม่ใช่การทำตามกฎ

นี่คือตัวอย่างที่ดีที่สุดของ "ขีดจำกัดที่ติดมากับราก" ไม่ใช่ว่ารุ่นนี้ยังนับไม่เก่ง รุ่นหน้าจะนับเก่ง แต่เป็นเพราะ "การเดารูปแบบ" กับ "การทำตามกฎอย่างไม่มีพลาด" เป็นงานคนละชนิด

เครื่องมือ AI สมัยใหม่ รู้ทางออก ของปัญหานี้แล้ว มันไม่ได้พยายามคำนวณเองในหัว

แทนที่จะเดาเลข มันเขียนโค้ดเล็ก ๆ ขึ้นมาแล้วสั่งให้เครื่องคิดเลขจริงรันให้ หรือเรียกใช้เครื่องมือคิดเลขที่ต่อไว้ แล้วอ่านผลกลับมา พูดง่าย ๆ คือมันเลิกเดาเลข แล้วไปยืมเครื่องคิดเลขจริงมาใช้แทน

นี่คือความต่างใหญ่ระหว่าง model เปล่า ๆ กับ "เครื่องมือ AI" ที่คุณใช้จริง เครื่องมือที่คุณใช้มีชั้นโปรแกรมห่อรอบ model ไว้ ทำให้มันต่อเครื่องคิดเลข ต่อเว็บ และรับคำสั่งพิเศษได้ ชั้นนี้คือสิ่งที่จะเจาะลึกในส่วนถัดไป ตอนนี้ขอแค่จำไว้ว่า ตัว model เอง คำนวณเป๊ะ ๆ ไม่ได้ และนั่นคือเหตุผลที่มันต้องไปยืมเครื่องมือมาช่วย

ลองทำดู: จับมันนับพลาดกับตา

เปิด AI ที่คุณใช้ แล้วพิมพ์คำถามง่าย ๆ แบบนี้

ในคำภาษาอังกฤษว่า "raspberry" มีตัว r ทั้งหมดกี่ตัว
ตอบมาเป็นตัวเลขอย่างเดียว ห้ามใช้เครื่องมือช่วย

ลองหลายคำ เช่น mississippi, strawberry, programming สังเกตว่าบางคำมันตอบถูก บางคำผิด และที่สำคัญคือมันตอบ มั่นใจเท่ากันทุกครั้ง ไม่ว่าจะถูกหรือผิด

จากนั้นลองถามใหม่โดยอนุญาตให้มันใช้เครื่องมือ เช่น "ช่วยนับตัว r ในคำว่า raspberry โดยเขียนโค้ดนับให้หน่อย" คราวนี้ถ้าเครื่องมือที่คุณใช้รันโค้ดได้ มันจะตอบถูกเป๊ะ เพราะมันเลิกเดา แล้วไปให้เครื่องนับจริงนับให้ คุณเพิ่งเห็นความต่างระหว่าง "model เดาเอง" กับ "model ยืมเครื่องมือ" ด้วยตาตัวเอง

ขีดจำกัดข้อ 2: แยกไม่ออกว่าตัวเองรู้จริงหรือเดามั่ว

ข้อนี้เป็นข้อที่อันตรายที่สุด เพราะมันซ่อนอยู่ใต้คำตอบที่ดูดี

เราเคยเห็นแล้วว่า AI ตอบเรื่องที่ฟังดูสมเหตุสมผลแต่ไม่จริงได้หน้าตาเฉย วงการเรียกอาการนี้ว่า hallucination แปลตรงตัวว่า "ภาพหลอน" คือมันปั้นชื่อคน ตัวเลข วันที่ มาตรากฎหมาย ที่ไม่มีอยู่จริงขึ้นมา ด้วยน้ำเสียงมั่นใจเหมือนรู้จริง (ว่ามันมั่วได้ตั้งแต่แรก เพราะอะไร เป็นเรื่องกลไกที่เล่าไว้แล้วใน บทสิ่งที่ AI คืออะไรจริง ๆ ส่วนวิธีจับและรับมือในงานจริงอยู่ใน บทเรื่องวิจารณญาณและความปลอดภัย)

จุดที่บทนี้สนใจคืออีกชั้นหนึ่งที่ลึกกว่า คือทำไมมันถึง เตือนคุณไม่ได้ ว่า "อันนี้ฉันไม่แน่ใจนะ" ทำไมมันไม่หยุดแล้วบอกว่าไม่รู้

ลองดูสองประโยคนี้

"เมืองหลวงของฝรั่งเศสคือ Paris" ถูก
"เมืองหลวงของออสเตรเลียคือ Sydney" ผิด เพราะเมืองหลวงจริงคือ Canberra

โครงสร้างประโยคเดียวกัน น้ำเสียงมั่นใจเท่ากัน คนที่ไม่รู้คำตอบล่วงหน้าแยกไม่ออกเลยว่าอันไหนจริง และนี่คือหัวใจของปัญหา คือ AI เองก็แยกไม่ออกเหมือนกัน

คำตอบอยู่ที่กลไกการเดาอีกเหมือนเดิม สำหรับเครื่องเดาคำ การตอบเรื่องที่รู้แม่นกับการปั้นเรื่องที่ไม่รู้ เป็นกระบวนการเดียวกันเป๊ะ คือ "เติมชิ้นข้อความที่น่าจะมาต่อ" ไม่มีสวิตช์ในหัวมันที่แยกว่า "ตอนนี้ฉันกำลังดึงของจริง" กับ "ตอนนี้ฉันกำลังเดาสุ่ม" มันไม่รู้ตัวด้วยซ้ำว่ากำลังเดา เพราะทุกอย่างคือการเดาเหมือนกันหมดตั้งแต่ต้น

เปรียบกับเพื่อนที่อ่านหนังสือมาเยอะ เล่าเรื่องเก่งสุด ๆ แต่มีนิสัยแปลกอย่างหนึ่ง เวลาจำเรื่องไหนไม่ได้ มันจะไม่ยอมพูดว่า "เดี๋ยวนะ อันนี้ไม่แน่ใจ" มันจะปะติดปะต่อเรื่องขึ้นมาเองให้จบสวย ด้วยน้ำเสียงมั่นใจเท่าเดิม จุดที่การเปรียบเทียบนี้พังคือ เพื่อนคนจริง รู้ตัว เวลาที่ตัวเองเริ่มเดา แค่เลือกจะไม่บอกคุณ แต่ AI ไม่มีแม้แต่ความรู้ตัวนั้น มันไม่ได้แกล้งปิดบัง เพราะมันไม่รู้เลยว่ามันเดา

ลองนึกถึงนักพยากรณ์อากาศที่ดี ถ้าเขาบอกว่า "ฝนตก 90%" วันที่เขาพูดแบบนี้ก็ควรฝนตกจริงราว 9 ใน 10 วัน ไม่ใช่บอก 90% ทุกวันแล้วฝนตกจริงแค่ครึ่งเดียว ความมั่นใจที่เขาพูดออกมาตรงกับความถูกต้องจริง ความตรงกันแบบนี้คือสิ่งที่ LLM ขาด มันแสดงความมั่นใจเต็มที่ได้ตลอด โดยความมั่นใจนั้นไม่ค่อยสัมพันธ์กับว่าคำตอบถูกจริงหรือเปล่า ความสัมพันธ์ระหว่างความมั่นใจที่แสดงออกกับความถูกต้องจริงนี้ นักวิจัยเรียกว่า calibration และพบซ้ำแล้วซ้ำเล่าว่า LLM มี calibration ต่ำ

มีงานวิจัยจาก OpenAI ในปี 2025 ที่อธิบายเรื่องนี้ได้ชัดเจน ชี้ว่าส่วนหนึ่งเป็นเพราะวิธี วัดผล AI ที่ใช้กันทั่วไปนั้นให้คะแนนการเดาตอบมากกว่าการยอมบอกว่าไม่รู้ เหมือนข้อสอบปรนัยที่เดาแล้วยังมีลุ้นได้แต้ม แต่เว้นว่างได้ศูนย์แน่ ๆ เมื่อถูกวัดด้วยเกณฑ์แบบนี้ตลอดการฝึก model จึงถูกหล่อหลอมให้เป็นนักเดาที่กล้าตอบ ไม่ใช่นักสารภาพว่าไม่รู้ ข่าวดีที่ตามมาจากงานนี้คือ ส่วนนี้ แก้ได้ ด้วยการเปลี่ยนวิธีให้คะแนน คือลงโทษการตอบผิดอย่างมั่นใจให้หนักกว่าการยอมรับว่าไม่แน่ใจ บางรุ่นที่เริ่มปรับเรื่องนี้จึงเริ่มมีแนวโน้มยอมพูดว่า "ไม่แน่ใจ" มากขึ้น แม้จะยังไม่ใช่ทุกรุ่น

เพราะฉะนั้นเส้นแบ่งที่ซื่อสัตย์คือ การที่มันมั่วได้บ้าง ลดลงได้แต่ไม่มีวันเป็นศูนย์สนิท ส่วนการที่มันมั่วแบบมั่นใจไม่เตือนเลย ดีขึ้นได้พอสมควรถ้าฝึกให้ถูกทาง แต่ทั้งสองอย่างนี้ "ดีขึ้น" ไม่เท่ากับ "หายขาด" ความรับผิดชอบในการเช็คของสำคัญจึงยังอยู่ที่คุณเสมอ

💡 ใจความสำคัญ: น้ำเสียงมั่นใจของ AI ไม่ใช่หลักฐานว่าคำตอบถูก มันใช้ภาษามั่นใจเท่ากันทั้งตอนที่รู้จริงและตอนที่เดามั่ว เพราะมันไม่มีมาตรวัดในตัวที่บอกได้ว่าตัวเองมั่นใจแค่ไหนจริง ๆ รุ่นใหม่ยอมบอก "ไม่รู้" ได้มากขึ้น แต่ไม่มีรุ่นไหนกำจัดอาการนี้หมดเกลี้ยง

ผลตามมาในทางปฏิบัติอีกอย่างคือ การสั่งให้มันเช็คตัวเองว่า "แน่ใจไหม" ได้ผลน้อยกว่าที่หวัง เพราะตอนเช็คตัวเอง มันก็ใช้กระบวนการเดารูปแบบเดิมที่ทำให้มันมั่วตั้งแต่แรกนั่นแหละ การถามซ้ำจึงไม่ใช่ตาข่ายกันมั่วที่เชื่อได้

ลองทำดู: ทดสอบว่าน้ำเสียงมั่นใจเชื่อไม่ได้

เปิดแชทใหม่ แล้วถามสามคำถามนี้เรียงกัน แต่ละข้อให้ตั้งใจดู น้ำเสียง ของคำตอบ ไม่ใช่แค่เนื้อหา

คำถามที่มันน่าจะรู้แน่ ๆ เช่น "เมืองหลวงของญี่ปุ่นคืออะไร"
คำถามเรื่องเฉพาะที่ข้อมูลน้อย เช่น ชื่อผู้บริหารของบริษัทขนาดกลางในไทยที่ คุณรู้คำตอบอยู่แล้ว แต่ไม่ใช่บริษัทดังระดับโลก
คำถามที่ขอแหล่งอ้างอิง เช่น "ขอชื่องานวิจัย 3 ชิ้นล่าสุดเรื่อง (หัวข้อที่คุณสนใจ) พร้อมลิงก์"

สังเกตว่าน้ำเสียงมันมั่นใจพอ ๆ กันทั้งสามข้อ ทั้งที่ความน่าเชื่อถือต่างกันลิบ ข้อ 2 มันอาจปั้นชื่อกับปีก่อตั้งที่ไม่จริงออกมา ข้อ 3 ลองกดลิงก์ทุกอันดู แล้วนับว่ากี่อันที่เปิดได้จริงและตรงเรื่อง นี่คือนาทีที่คุณเห็นกับตาว่า "มั่นใจ" กับ "ถูก" เป็นคนละเรื่องกัน

ขีดจำกัดข้อ 3: ความรู้หยุดอยู่ที่อดีต (knowledge cutoff)

ลองถาม AI เรื่องที่เพิ่งเกิดเมื่อวานหรือเมื่ออาทิตย์ก่อน เช่น ผลบอลนัดล่าสุด ข่าวที่เพิ่งออก ราคาทองวันนี้ ถ้ามันไม่ได้ต่อเครื่องมือค้นเว็บไว้ มันมักตอบไม่ได้ หรือตอบมั่วด้วยข้อมูลเก่า บางทีมันบอกตรง ๆ ว่า "ข้อมูลของฉันมีถึงแค่ช่วงเวลาหนึ่งเท่านั้น"

นี่ไม่ใช่ความขี้เกียจหรือบั๊ก แต่เป็นเรื่องที่ติดมากับวิธีสร้างเหมือนกัน

จำได้ว่า AI เรียนรู้จากการอ่านข้อความมหาศาลในช่วงการฝึก พอฝึกเสร็จ สิ่งที่มันเรียนรู้ทั้งหมดถูก "แช่แข็ง" ไว้เป็นไฟล์ก้อนหนึ่งที่ไม่เปลี่ยนอีก ตัว model ที่คุณใช้อยู่ก็คือไฟล์ก้อนนั้น

มันไม่ได้อ่านข้อมูลใหม่เพิ่มทุกวันแบบที่คนอ่านข่าวทุกเช้า ความรู้ของมันเลยหยุดอยู่ที่ช่วงเวลาที่ข้อมูลฝึกถูกเก็บ ในวงการเรียกเส้นเวลานี้ว่า knowledge cutoff คือ "เส้นตัดความรู้" หลังเส้นนี้ไป มันไม่รู้อะไรเลยโดยตัวมันเอง

เหตุผลที่มันไม่อัปเดตตัวเองทุกวันก็ตรงไปตรงมา การฝึก model ใหม่ใช้พลังประมวลผลมหาศาลและเวลาเป็นสัปดาห์เป็นเดือน อีกทั้งยังต้องทดสอบให้เสถียรและปลอดภัยก่อนปล่อยใช้ มันจึงเป็นไปไม่ได้ที่จะให้ model วิ่งตามข่าวสดทุกนาที

มีจุดพลิกที่ผู้ใช้พลาดบ่อยตรงนี้ คือเส้นตัดความรู้ไม่ได้แปลว่า "วันที่ปล่อย model ออกมา" model ที่เพิ่งเปิดตัวเดือนนี้ อาจมีความรู้ถึงแค่เมื่อปีก่อนก็ได้ เพราะกว่าจะเก็บข้อมูล ฝึก แล้วทดสอบเสร็จต้องใช้เวลานาน ช่วงเวลาที่หายไประหว่างเส้นตัดความรู้กับวันนี้ คือช่วงที่ model ไม่รู้อะไรเลย ทั้งที่ฟังดูเหมือนเป็น model ใหม่เอี่ยม

ตรงนี้ก็มีทางออกแบบเดียวกับเรื่องเครื่องคิดเลข เครื่องมือ AI สมัยใหม่แก้ข้อจำกัดนี้ด้วยการ ต่อ model เข้ากับเครื่องมือค้นเว็บ พอคุณถามเรื่องสด ๆ มันไม่ได้ดึงจากความจำที่แช่แข็งไว้ แต่ไปค้นเว็บจริงตอนนั้น อ่านผลกลับมา แล้วค่อยสรุปให้คุณ พูดง่าย ๆ คือมันยืมตาคนอื่นไปดูของใหม่ แทนที่จะพึ่งความจำเก่าของตัวเอง

แต่จุดที่ต้องเข้าใจให้ชัดคือ ความสามารถค้นเว็บนั้นมาจาก เครื่องมือที่ต่อเพิ่ม ไม่ใช่จากตัว model เอง ตัว model เปล่า ๆ ยังหยุดนิ่งอยู่ที่อดีตเสมอ ถ้าเครื่องมือที่คุณใช้ไม่มีการต่อค้นเว็บไว้ หรือคุณปิดมันไว้ คุณก็จะเจอกำแพง knowledge cutoff เต็ม ๆ

💡 ใจความสำคัญ: ตัว model เองคือไฟล์ที่ถูกแช่แข็งไว้ ความรู้หยุดที่อดีตและไม่อัปเดตตัวเอง เวลามันตอบเรื่องสดได้ นั่นไม่ใช่เพราะ model รู้ แต่เพราะมีเครื่องมือค้นเว็บไปดูมาให้

ขีดจำกัดข้อ 4: ไม่มีเจตนา ไม่มีความเข้าใจ ไม่มีความรับผิดชอบ

ลองนึกถึงตอนที่คุณเล่าเรื่องที่กำลังเครียดให้ AI ฟัง มันตอบกลับมาว่า "เข้าใจนะ ช่วงนี้คงหนักจริง ๆ สู้ ๆ" แล้วคุณรู้สึกดีขึ้นจริง ๆ เหมือนมีใครสักคนอยู่อีกฝั่งที่เข้าใจคุณ ความรู้สึกนี้เป็นธรรมชาติมาก และหน้าจอก็ออกแบบมาให้รู้สึกแบบนั้น แต่ข้างใต้ไม่มีใครอยู่ตรงนั้น

ข้อนี้เป็นนามธรรมที่สุดในสี่ข้อ แต่อาจสำคัญที่สุดในแง่วิธีคิด

ย้อนกลับไปที่กลไก สิ่งที่เกิดขึ้นคือเครื่องเดาคำกำลังเดาว่า "ข้อความปลอบใจแบบไหนน่าจะมาต่อจากข้อความเศร้าแบบนี้" จากรูปแบบที่มันอ่านมานับล้านครั้ง มันเลือกคำที่ หน้าตาเหมือนความเห็นใจ ได้เนียนมาก

แต่มันไม่ได้รู้สึกเห็นใจ ไม่ได้เข้าใจความเจ็บปวดของคุณ ไม่มีความตั้งใจดีหรือร้ายต่อคุณเลย เพราะมันไม่มีเจตนาใด ๆ ตั้งแต่แรก ผลลัพธ์ออกมาดูเหมือนความเข้าใจ แต่กลไกข้างในคือการเดาชิ้นข้อความที่เข้าท่าทีละชิ้น

ผลที่ตามมาในทางปฏิบัติมีอยู่จริงและสำคัญ แยกได้สามเรื่อง

เรื่องแรก มันไม่แบกความรับผิดชอบต่อคำตอบของมัน เวลามันแนะนำให้คุณทำอะไรแล้วผิดพลาด คนที่แบกผลคือคุณ ไม่ใช่มัน มันไม่ใช่ที่ปรึกษาที่มีใบอนุญาตและต้องรับผิดถ้าแนะนำผิด ในเรื่องอย่างกฎหมาย การเงิน สุขภาพ คำตอบของมันจึงเป็นแค่จุดตั้งต้นให้ไปตรวจสอบต่อ ไม่ใช่คำตัดสินสุดท้าย ในงานที่ผลกระทบสูง คนที่กดอนุมัติในขั้นสุดท้ายต้องเป็นมนุษย์ที่รับผิดชอบได้เสมอ

เรื่องที่สอง มันไม่มีจุดยืนเป็นของตัวเอง สิ่งที่ดูเหมือน "ความเห็น" ของมัน จริง ๆ คือการสะท้อนรูปแบบในข้อมูลที่อ่านมา การเอนเอียงอย่างเป็นระบบที่ติดมากับข้อมูลฝึกแบบนี้ วงการเรียกว่า bias

จุดแรกที่ต้องแยกให้ชัดคือ bias ไม่ใช่ hallucination hallucination คือข้อเท็จจริง ผิด ส่วน bias คือข้อเท็จจริงอาจถูก แต่ กรอบ ที่ใช้มองเรื่องนั้นเอียงไปทางหนึ่ง เช่นถามว่าอาหารกลางวันเพื่อสุขภาพควรกินอะไร มันอาจตอบ quinoa กับ avocado toast ซึ่งไม่ผิด แต่ไม่ใช่โลกของคนที่กินข้าวกลางวันแถวออฟฟิศในกรุงเทพ

💡 แยกให้ชัด: hallucination = คำตอบ ผิด ส่วน bias = คำตอบอาจถูก แต่ กรอบที่มอง เอียงไปทางหนึ่ง

จุดที่สองคือ bias ไม่ได้โผล่มาจากที่เดียว มันแทรกเข้ามาหลายจุดตลอดสายการสร้าง model

ข้อมูลฝึก ซึ่งช่วงแรก ๆ เป็นภาษาอังกฤษเกินกว่า 90% เรื่องของโลกตะวันตกจึงหนาแน่นกว่าเรื่องอื่นมาก
คนที่มาช่วยสอน model ว่าคำตอบไหนดีกว่ากัน ถ้ากลุ่มคนเหล่านี้ไม่หลากหลาย รสนิยมของเขาก็กลายเป็นรสนิยมของ model ไปด้วย
ตัวกรองข้อมูล ที่คัดเนื้อหาเข้าออก ซึ่งบางทีไปตีตราภาษาถิ่นหรือเนื้อหาที่ไม่ใช่ภาษาอังกฤษว่าคุณภาพต่ำเกินจริง
นโยบายของแต่ละบริษัท ที่ตัดสินว่าอะไรคือคำตอบ "กลาง ๆ" ซึ่งตัวการเลือกนั้นเองก็เป็นการตัดสินคุณค่าแบบหนึ่ง

นี่คือเหตุผลที่การสั่งมันว่า "ขอคำตอบที่เป็นกลาง" ไม่ได้ทำให้ bias หาย เพราะ bias ฝังอยู่ลึกตั้งแต่สี่จุดข้างบนนั้น ไม่ได้อยู่ที่คำสั่งหน้าจอ การขอความเป็นกลางแค่เปลี่ยนหน้าตาของมัน ไม่ได้ลบมัน บางบริษัทยังเลือกจุดยืนให้ model ตั้งแต่ออกแบบ เช่น Grok ของ xAI ที่ตั้งใจให้เอียงไปทางขวา ส่วนบางเจ้าวางกรอบคุณค่าเป็นลายลักษณ์อักษรให้ model ยึด อย่างที่ Anthropic เรียกว่า Constitutional AI ทั้งหมดนี้ตอกย้ำว่า "ความเป็นกลาง" เป็นตัวเลือกที่คนกำหนด ไม่ใช่ค่าตั้งต้นตามธรรมชาติของเครื่อง

เรื่องที่สาม มันอธิบายตัวเองผิดได้ ลองถามว่า "ทำไมคุณถึงตอบแบบนี้" มันจะตอบมาอย่างลื่นไหล แต่นั่นไม่ใช่การเปิดดูกลไกจริงข้างในตัวมัน มันแค่เดาว่า "คำอธิบายแบบไหนน่าจะเป็นเหตุผลที่ฟังเข้าท่า" เพราะมันไม่มีหน้าต่างมองเข้าไปดูการทำงานของตัวเองได้จริง การถาม AI ว่าตัวมันเองทำงานยังไง จึงเชื่อได้แค่บางส่วน และต้องระวังเป็นพิเศษเวลามันพูดถึงความสามารถหรือข้อจำกัดของตัวเอง

ลองทำดู: ลองให้มันสารภาพข้อจำกัดของตัวเอง

เปิดแชทใหม่แล้วพิมพ์คำถามตรง ๆ แบบนี้

ช่วยบอกหน่อยว่ามีงานประเภทไหนบ้างที่ตัวคุณเอง
ในฐานะ model ทำได้ไม่ดีโดยธรรมชาติ ไม่ใช่เพราะเวอร์ชันนี้
ยังไม่เก่งพอ แต่เพราะวิธีที่คุณถูกสร้างขึ้นมา
และอธิบายเหตุผลของแต่ละข้อ

อ่านคำตอบ ส่วนใหญ่มันจะยืนยันสิ่งที่บทนี้พูด คือมันมักพูดถึงการนับ การคำนวณเป๊ะ ๆ การรู้เรื่องสด การมั่ว และการไม่มีประสบการณ์จริงในโลก แต่จำคำเตือนเมื่อกี้ไว้ มันกำลัง เดา คำอธิบายเกี่ยวกับตัวเอง ไม่ได้เปิดดูข้างในจริง เรื่องนี้มันมักตอบถูก เพราะเป็นความรู้พื้นฐานที่อยู่ในข้อมูลฝึกเยอะ แต่อย่าถือว่าทุกคำที่มันพูดถึงตัวเองเป็นความจริงเสมอไป คุณเพิ่งเห็นทั้งความสามารถและขีดจำกัดของมันในคำตอบเดียว

เส้นแบ่ง: อะไรคือ "ติดมากับราก" อะไรแค่ "ยังไม่ดีพอ"

มาถึงตรงนี้ขอวางเส้นแบ่งให้ชัด เพราะถ้าเหมารวมว่า AI ทำอะไรไม่ได้ทั้งหมด ก็พลาดอีกด้าน หลายเรื่องมันทำได้ดีขึ้นจริงทุกรุ่น

เรื่องที่ "ยังไม่ดีพอ" และมีแนวโน้มดีขึ้นเรื่อย ๆ ตามรุ่น เช่น การเขียนที่เป็นธรรมชาติขึ้น การเข้าใจคำสั่งซับซ้อนได้ดีขึ้น การเขียนโค้ดที่ถูกมากขึ้น การให้เหตุผลเป็นขั้นเป็นตอนที่รัดกุมขึ้น ความสามารถดูภาพและฟังเสียง พวกนี้คือการ "เดาแม่นขึ้น" ในงานที่การเดาเป็นเครื่องมือที่เหมาะอยู่แล้ว ยิ่งอัปเกรดยิ่งดี

เรื่องที่ "ติดมากับราก" คือเรื่องที่การเดารูปแบบไม่ใช่เครื่องมือที่ถูกตั้งแต่ต้น

การทำตามกฎอย่างเป๊ะไม่มีพลาด เช่น นับ คำนวณ ตรรกะที่ต้องไม่ผิดแม้แต่ขั้นเดียว ตัว model เดาได้ใกล้เคียง แต่ไม่การันตีถูกเป๊ะ
การรู้เรื่องที่เกิดหลังเส้นตัดความรู้ ตัว model เปล่า ๆ ไม่มีทางรู้ของใหม่ด้วยตัวเอง
การแยกว่าตัวเองรู้จริงหรือเดามั่ว มันไม่มีมาตรวัดความมั่นใจที่เชื่อถือได้ในตัว ลดได้แต่ไม่หมด
การจำเรื่องยาว ๆ ได้ครบทุกจุดเท่ากัน ข้อความที่ส่งเข้าไปได้ในรอบหนึ่งมีเพดานตายตัว และพอยาวมาก ๆ คุณภาพมักตกตรงกลาง คือมันมองข้ามรายละเอียดที่อยู่กลางบทสนทนายาวได้ เรื่องนี้เป็นเพดานเชิงโครงสร้างที่จะลงรายละเอียดในส่วนถัดไป
การมีเจตนา ความเข้าใจจริง ความรับผิดชอบ และประสบการณ์ตรงในโลก มันไม่มี และจะไม่มีตราบใดที่มันยังเป็นเครื่องเดาคำ

ที่น่าสังเกตคือ สามในสี่ข้อแรกของกลุ่ม "ติดมากับราก" มี ทางอ้อม ผ่านเครื่องมือ ตัว model เองคำนวณไม่ได้ แต่ให้มันยืมเครื่องคิดเลขได้ ตัว model เองไม่รู้ของใหม่ แต่ให้มันค้นเว็บได้ ตัว model เองมั่วได้ แต่ให้มันค้นแหล่งจริงมายืนยันก่อนตอบได้

นี่คือเหตุผลว่าทำไมเครื่องมือ AI ที่มีชั้นโปรแกรมห่อรอบ model อยู่ ถึงทำอะไรได้เกินกว่าตัว model เปล่า ๆ มาก และเป็นเรื่องทั้งหมดของส่วนถัดไป

แต่ข้อสุดท้าย คือการมีเจตนา ความเข้าใจ และความรับผิดชอบ ไม่มีเครื่องมือไหนเติมให้ได้ เพราะมันไม่ใช่ความสามารถที่ขาด แต่เป็น ธรรมชาติ ของสิ่งที่มันเป็น คนที่ต้องรับผิดชอบการตัดสินใจ ยังคือคุณเสมอ

💡 ใจความสำคัญ: ขีดจำกัดส่วนใหญ่ของ "ตัว model เปล่า ๆ" มีทางอ้อมผ่านเครื่องมือ คำนวณก็ยืมเครื่องคิดเลข ของใหม่ก็ค้นเว็บ มั่วก็ให้ค้นแหล่งจริงมายืนยัน แต่เจตนา ความเข้าใจจริง และความรับผิดชอบ ไม่มีเครื่องมือไหนเติมให้ได้ ตรงนี้คือเส้นที่อยู่กับเราตลอดไป

ทำไมเรื่องนี้สำคัญเป็นพิเศษกับคนไทย

มีมุมหนึ่งที่คนไทยควรระวังเป็นพิเศษ และมันทับซ้อนกับขีดจำกัดที่พูดมาทั้งหมด

ข้อมูลที่ AI ส่วนใหญ่ใช้ฝึกเป็นภาษาอังกฤษและเนื้อหาจากโลกตะวันตกเป็นหลัก เรื่องไทย ๆ เป็นแค่ส่วนเล็กของกองนั้น แปลว่ารูปแบบเกี่ยวกับเรื่องไทย ทั้งประวัติศาสตร์ กฎหมาย วัฒนธรรม ชื่อสถานที่ บุคคลไทยที่ไม่ได้ดังระดับโลก มันจางกว่าเรื่องฝรั่งมาก ผลที่ตามมาคือสองข้อจำกัดข้างบนหนักขึ้นพร้อมกัน การมั่วเรื่องไทยเกิดง่ายกว่า และการเอนเอียงแบบ bias ก็หนักไปทางมุมมองตะวันตกมากกว่าจะเข้ากับบริบทไทย

สามตัวอย่างที่ทำให้เห็นภาพ

กฎหมาย ถ้าถามเรื่องระบบกฎหมายไทย มันอาจตอบในกรอบกฎหมายแบบอังกฤษ-อเมริกันที่ยึดคำพิพากษาเก่าเป็นหลัก ทั้งที่ไทยใช้ระบบประมวลกฎหมายแบบยุโรปคนละแบบกัน หรืออ้างมาตราใน พ.ร.บ. ที่ฟังดูสมจริงแต่ไม่มีอยู่จริง
การคัดเลือกคน ถ้าให้มันช่วยกรองใบสมัครงาน มันอาจติดอคติที่ฝังในข้อมูลฝรั่งมาด้วย เช่นมองช่วงที่เว้นว่างจากงานเป็นจุดลบ หรือให้น้ำหนักภาษาอังกฤษที่สวยกว่าทักษะจริง
สุขภาพ ถ้าถามเรื่องอาการป่วย มันอาจวินิจฉัยตามโรคที่พบบ่อยในเมืองหนาว มากกว่าโรคที่พบบ่อยในไทยอย่างไข้เลือดออก

ทั้งสามเรื่องนี้คำตอบ "ฟังดูดี" แต่เป็นโลกคนละใบกับของคุณ

ซ้ำร้าย ภาษาไทยยังกิน token มากกว่าภาษาอังกฤษราว 3 เท่าขึ้นไปสำหรับเนื้อหาความหมายเท่ากัน (เหตุผลเชิงกลไกอยู่ใน บทเรื่องกลไก LLM) ซึ่งกระทบทั้งราคาและพื้นที่ในการคุย

ข่าวดีคือ พอคุณรู้เส้นแบ่งของบทนี้ คุณก็รับมือได้ทันที เรื่องไทยที่เป็นข้อเท็จจริงเจาะจง อย่างมาตรากฎหมาย ตัวเลข วันที่ ให้ถือว่าต้องเช็คเสมอ ระบุบริบทไทยลงไปในคำถามตรง ๆ ว่าต้องการคำตอบสำหรับเมืองไทย และถ้าใช้เครื่องมือที่ค้นเว็บได้ ก็สั่งให้มันไปหาแหล่งไทยจริงมายืนยันก่อนตอบ จะปลอดภัยกว่าปล่อยให้มันเดาจากความจำที่จางมาก นอกจากนี้ยังมี model ที่ออกแบบมาเน้นบริบทไทยและเอเชียตะวันออกเฉียงใต้โดยเฉพาะ เช่น Typhoon ของ SCB10X รวมถึง Sailor และ SEA-LION ของฝั่งภูมิภาคนี้ งานที่ต้องการความเข้ากับบริบทไทยสูง ลองเอามาเทียบคำตอบดูได้

ขีดจำกัดเกือบทุกข้อที่เราเพิ่งดู เป็นขีดจำกัดของ ตัว model เปล่า ๆ ไม่ใช่ของเครื่องมือ AI ที่คุณใช้จริง แล้วชั้นที่ห่อรอบ model นั้นคืออะไร ทำไม model ตัวเดียวกัน เมื่อถูกห่อด้วยชั้นที่ต่างกัน ถึงให้พลังที่ต่างกันคนละโลก นั่นคือคำถามที่เปิดส่วนต่อไป

อ่านต่อ: ตัว model เอง คือเครื่องยนต์ ไม่ใช่ทั้งรถ

สิ่งที่ AI ทำไม่ได้จริง ๆ และทำไม

สิ่งที่ AI ทำไม่ได้จริง ๆ และทำไม

ย้อนกลับไปที่ "เครื่องเดาคำ" อีกครั้ง

ขีดจำกัดข้อ 1: นับและคำนวณแบบเป๊ะ ๆ ไม่ได้

ลองทำดู: จับมันนับพลาดกับตา

ขีดจำกัดข้อ 2: แยกไม่ออกว่าตัวเองรู้จริงหรือเดามั่ว

ลองทำดู: ทดสอบว่าน้ำเสียงมั่นใจเชื่อไม่ได้

ขีดจำกัดข้อ 3: ความรู้หยุดอยู่ที่อดีต (knowledge cutoff)

ขีดจำกัดข้อ 4: ไม่มีเจตนา ไม่มีความเข้าใจ ไม่มีความรับผิดชอบ

ลองทำดู: ลองให้มันสารภาพข้อจำกัดของตัวเอง

เส้นแบ่ง: อะไรคือ "ติดมากับราก" อะไรแค่ "ยังไม่ดีพอ"

ทำไมเรื่องนี้สำคัญเป็นพิเศษกับคนไทย

แหล่งอ้างอิง