Level 2 · รู้จัก Productscheduleอ่าน 15 นาที

เทียบ product ยอดนิยมเชิงกลไก

starsTL;DR

Claude Chat, Cowork, Claude Code, Codex, การสร้างรูปด้วย GPT, วิดีโออย่าง Seedance ดูเหมือนของคนละชนิด แต่จริง ๆ ทุกตัวคือสูตรเดียวกัน คือ model หนึ่งตัว บวก harness ที่ห่อรอบ บวกสิ่งที่มันเอื้อมถึงได้ บทนี้ใช้สูตรนี้ถอดทุก product ให้เห็นว่าต่างกันตรงไหนจริง ๆ

เทียบ product ยอดนิยมเชิงกลไก

คุณเปิด ChatGPT ไว้ถามคำถามทั่วไป เปิด Claude Code ให้น้องในทีมใช้แก้โค้ด เห็นเพื่อนแชร์รูปสวย ๆ ที่สั่งให้ AI วาด แล้วก็เห็นคลิปวิดีโอที่ AI สร้างขึ้นทั้งคลิปจนแยกไม่ออกว่าจริงหรือปลอม ทั้งหมดนี้ถูกเรียกรวม ๆ ว่า "AI" เหมือนกันหมด แต่พอใช้จริงมันให้ความรู้สึกเหมือนของคนละชนิดเลย ตัวหนึ่งแค่คุยตอบ อีกตัวลงมือทำงานในเครื่องคุณได้ อีกตัววาดรูป อีกตัวทำหนัง

แต่ของพวกนี้มันต่างกันที่ตรงไหนกันแน่ ต่างที่ตัว AI ข้างใน หรือต่างที่อย่างอื่น พอคุณรู้คำตอบ มันมีสูตรกลางหนึ่งสูตรที่ใช้อธิบายได้ทุกตัว

บทนี้จะให้สูตรนั้นกับคุณ และพอคุณเห็นสูตรแล้ว product ทุกตัวที่ออกมาในอนาคต ตัวที่ยังไม่เกิดด้วยซ้ำ คุณจะถอดมันออกได้เองว่ามันคืออะไร

สูตรกลางที่ร้อยทุกอย่างเข้าด้วยกัน

product AI ทุกตัวประกอบขึ้นจากสามชิ้น

ชิ้นแรกคือ model ตัวเครื่องยนต์ข้างใน (model คือเครื่องยนต์ ไม่ใช่ทั้งรถ)

ชิ้นที่สองคือ harness ชั้นโปรแกรมที่ห่อรอบ model เพื่อทำให้มันใช้งานได้จริง (harness ส่วนที่ไม่มีใครพูดถึง)

ชิ้นที่สามคือสิ่งที่ product ตัวนั้น เอื้อมถึงได้ ไฟล์ในเครื่องคุณ อินเทอร์เน็ต โค้ดในโปรเจกต์ แอปอื่น ๆ บนเครื่อง คือขอบเขตว่ามันลงมือยุ่งกับอะไรได้บ้าง

พูดเป็นสูตรสั้น ๆ คือ model บวก harness บวกสิ่งที่เอื้อมถึง เท่ากับ product ทุก product ที่คุณเคยใช้ คือการจับสามชิ้นนี้มาประกอบกันคนละแบบเท่านั้น ไม่มีอะไรมากกว่านั้น

💡 ใจความสำคัญ: product AI ทุกตัวคือสูตรเดียวกัน คือ model หนึ่งตัว บวก harness ที่ห่อรอบ บวกขอบเขตที่มันเอื้อมถึงได้ เวลา product สองตัว "รู้สึกต่างกันคนละโลก" ส่วนใหญ่ไม่ได้ต่างที่ model แต่ต่างที่ harness กับสิ่งที่มันเอื้อมถึง

เริ่มจากกลุ่มที่ model ข้างในเป็นตัวเดียวกันเลย แต่ผลออกมาคนละเรื่อง

Claude Chat, Cowork, Claude Code: model เดียวกัน harness คนละชั้น

สามตัวนี้เป็นตัวอย่างที่ชัดที่สุดของสูตร เพราะข้างในมันใช้ model ตระกูลเดียวกัน คือ Claude แต่ห่อด้วย harness คนละแบบ และเปิดให้เอื้อมถึงของคนละชุด ผลที่ออกมาเลยเหมือนของคนละชนิด

Claude Chat คือตัวที่คุณคุ้นที่สุด หน้าจอแชท พิมพ์ถาม มันตอบ harness ของมันเป็นแบบสนทนา รับข้อความคุณ ประกอบบทสนทนาส่งเข้า model แล้วพ่นคำตอบกลับมาบนจอ มันมีเครื่องมือให้ใช้บ้าง เช่นค้นเว็บ หรืออ่านไฟล์ที่คุณแนบ แต่ขอบเขตค่อนข้างแคบ มันไม่ได้เดินเข้าไปยุ่งกับไฟล์ในเครื่องคุณเอง ไม่ได้เปิดแอปอื่นให้ คุณคุมทุกก้าวด้วยการพิมพ์สั่งทีละข้อความ เหมาะกับงานถาม-ตอบ ร่างข้อความ ระดมความคิด สรุปเอกสารที่คุณวางให้

Claude Cowork คือตัวเดียวกันในแง่ model แต่ harness เปลี่ยนคาแร็กเตอร์ไปเลย แทนที่จะรอคุณสั่งทีละก้าว คุณบอก "เป้าหมาย" ให้มันทั้งก้อน แล้วมันไปทำเองจนได้งานสำเร็จกลับมา

ตามที่ Anthropic อธิบาย Cowork ทำงานบนเครื่องเดสก์ท็อปของคุณ เอื้อมถึงไฟล์ โฟลเดอร์ และแอปที่คุณใช้อยู่จริง มันเดินข้ามไปมาระหว่างไฟล์หลายอัน รวบข้อมูลจากหลายแหล่ง แล้วทำงานหลายขั้นให้จบโดยคุณไม่ต้องคุมทุกก้าว ตัวอย่างที่ Anthropic ยกคือ ชี้ไปที่โฟลเดอร์กองไฟล์รก ๆ แล้วสั่งให้มันจัดเรียง เปลี่ยนชื่อ ลบตัวซ้ำ หรือเอาเอกสารดิบหลายฉบับมาประกอบเป็นร่างงานที่มีโครงสร้าง

สิ่งที่เพิ่มขึ้นจาก Chat ไม่ใช่ความฉลาดของ model แต่คือ harness ที่ทำงานยาวขึ้น เอื้อมถึงไฟล์และแอปของคุณได้ และทำงานต่อเนื่องเองโดยไม่ต้องป้อนทีละคำ (Cowork เป็นฟีเจอร์บนแอป Claude เดสก์ท็อป เปิดให้ผู้ใช้แพ็กเกจที่จ่ายเงิน)

Claude Code คือตัวเดียวกันอีกที model ตระกูล Claude เหมือนเดิม แต่ harness เป็นแบบ terminal ที่ทำงานยาว ๆ ได้เองโดยไม่ต้องรอคุณสั่งทีละก้าว มันถูกออกแบบมาให้อ่านโค้ดทั้งโปรเจกต์ แก้ไฟล์ และรันคำสั่งในเครื่องได้จริง

พูดง่าย ๆ คือมันเอื้อมถึงไฟล์ในเครื่องและสั่งให้เครื่องทำงานได้ ซึ่งกว้างกว่า Chat มาก จุดที่ทำให้มันรู้ทันโปรเจกต์คุณคือไฟล์ชื่อ CLAUDE.md ที่คุณวางไว้ในโฟลเดอร์ มันถูกอ่านอัตโนมัติทุกครั้งที่เริ่มงาน เป็นที่ใส่กฎ มาตรฐานโค้ด และข้อมูลที่อยากให้ AI รู้ก่อนลงมือ

จุดสำคัญที่ต้องเห็นคือ สามตัวนี้ไม่ได้ต่างกันเพราะ "ตัวหนึ่งฉลาดกว่า" model ข้างในเป็นตระกูลเดียวกัน สิ่งที่ต่างคือ harness ห่อมันคนละแบบ และเปิดให้เอื้อมถึงของคนละชุด Chat เอื้อมถึงแค่บทสนทนากับเครื่องมือแคบ ๆ Cowork เอื้อมถึงไฟล์และแอปบนเดสก์ท็อปคุณ Claude Code เอื้อมถึงไฟล์และคำสั่งในเครื่องแบบลึก นี่คือสูตรเดิมเป๊ะ model เท่ากัน เปลี่ยนแค่สองชิ้นที่เหลือ

💡 ใจความสำคัญ: Claude Chat, Cowork, Claude Code คือ model เดียวกันที่ห่อด้วย harness ต่างกัน และเปิดให้เอื้อมถึงของต่างชุด ยิ่ง harness เอื้อมถึงของในเครื่องคุณได้กว้างเท่าไหร่ มันยิ่งทำงานแทนคุณได้มากเท่านั้น และคุณยิ่งต้องระวังว่ามันแตะอะไรได้บ้าง

ลองทำดู: ทดสอบ harness ของ Chat ด้วยตัวเอง

เปิด ChatGPT หรือ Claude.ai ขึ้นมาตอนนี้ แล้วพิมพ์สั่งว่า "ช่วยเปิดไฟล์ในเครื่องฉันแล้วเปลี่ยนชื่อให้หน่อย" สังเกตว่ามันทำไม่ได้ มันบอกได้แค่ว่าควรทำยังไง แต่ลงมือแตะไฟล์ในเครื่องคุณเองไม่ได้

นั่นคือขอบเขตของ harness แบบแชท มันเอื้อมถึงแค่บทสนทนา ไม่ได้เอื้อมถึงเครื่องคุณ ทีนี้ลองถามมันแทนว่า "ช่วยร่างอีเมลลางานให้หน่อย" คราวนี้มันทำได้ทันที เพราะงานนี้อยู่ในขอบเขตที่มันเอื้อมถึง

ของสองอย่างนี้คือ model ตัวเดียวกัน ที่ทำได้กับทำไม่ได้ต่างกัน เพราะ harness เปิดให้เอื้อมถึงคนละชุด นี่คือวิธีอ่าน product AI ทุกตัว เช็คว่ามันเอื้อมถึงอะไรได้บ้าง แล้วคุณจะรู้ทันทีว่ามันทำอะไรได้และทำอะไรไม่ได้

Codex และ coding agent ตัวอื่น: ไอเดียเดียวกัน คนละ convention

ถ้าคุณเคยได้ยินคนในทีม dev พูดถึง AI ที่ช่วยเขียนโค้ด แล้วสงสัยว่ามันคืออะไร นี่คือคำตอบ Claude Code ไม่ใช่ตัวเดียวในตลาดที่อ่านไฟล์และรันคำสั่งได้ ฝั่ง OpenAI ก็มีของชื่อ Codex ทำสิ่งคล้าย ๆ กันคืออ่านโค้ด แก้ไฟล์ รันงานให้

จับเข้าสูตร Codex ก็คือ model ของ OpenAI ห่อด้วย harness แบบช่วยเขียนโค้ด เอื้อมถึงโค้ดในโปรเจกต์ โครงสร้างเหมือน Claude Code แทบทุกอย่าง ที่ต่างคือรายละเอียดของแต่ละค่าย จุดที่เห็นง่ายที่สุดคือ "ชื่อไฟล์" ที่มันอ่านเพื่อรู้จักโปรเจกต์

Claude Code อ่านไฟล์ชื่อ CLAUDE.md ส่วน Codex อ่านไฟล์ชื่อ AGENTS.md หน้าที่ของสองไฟล์นี้เหมือนกัน คือบอก AI ว่าโปรเจกต์นี้มีกฎอะไร ทำงานยังไง เขียนสไตล์ไหน เปรียบเหมือนคู่มือที่เขียนให้ AI อ่าน ไม่ใช่เขียนให้คนอ่าน AGENTS.md เป็นรูปแบบเปิดที่เครื่องมือหลายตัวก็อ่านไฟล์ชื่อนี้ ไม่ใช่แค่ Codex ตัวเดียว

คุณไม่ต้องไปแตะไฟล์พวกนี้เองถ้าไม่ได้เขียนโค้ด แต่ประเด็นที่อยากให้เห็นคือ พอคุณเห็นสูตรแล้ว คุณจะรู้ทันทีว่า CLAUDE.md กับ AGENTS.md คือของชนิดเดียวกัน เป็นไฟล์ข้อความที่บอก harness ว่าให้รู้อะไรเกี่ยวกับงานก่อนลงมือ ต่างกันแค่ "ค่ายไหนตั้งชื่อว่าอะไร" เหมือนปลั๊กไฟที่แต่ละประเทศหัวต่างกัน แต่ทำงานเรื่องเดียวกัน นี่คือพลังของสูตร ชื่อที่คนในวง dev โยนใส่คุณ ลดรูปเหลือ "ก็แค่ harness อ่านไฟล์คู่มือก่อนเริ่ม"

💡 ใจความสำคัญ: AI ช่วยเขียนโค้ดทุกค่ายคือไอเดียเดียวกัน คือ model ห่อด้วย harness ที่เอื้อมถึงโค้ดของคุณ แล้วอ่านไฟล์คู่มือหนึ่งไฟล์เพื่อรู้จักงานก่อนเริ่ม ต่างกันแค่ชื่อไฟล์ ไม่ใช่ต่างกันที่หลักการ เจอชื่อใหม่จากค่ายไหนก็ถอดด้วยสูตรนี้ได้หมด

รูปภาพจาก GPT: ทำไมมันคนละสายพันธุ์

มาถึงตรงนี้คุณอาจคิดว่าทุกอย่างคือ LLM ตัวเดียวที่ทำได้ทุกอย่าง แต่พอพูดถึงการสร้างรูปภาพ ต้องหยุดแล้วบอกความจริงข้อหนึ่ง การวาดรูปไม่ใช่ LLM นั่งวาดเอง

ตัว LLM ที่คุณคุยด้วยทำงานกับข้อความ มันเดาคำถัดไป มันไม่ได้มีพู่กัน เวลาคุณสั่ง ChatGPT ว่า "วาดรูปแมวใส่หมวก" สิ่งที่เกิดขึ้นแบบเดิมคือ harness รับคำสั่งวาดรูปไปส่งต่อให้ model อีกตัวที่ทำหน้าที่สร้างรูปโดยเฉพาะ แล้วค่อยส่งรูปกลับมาให้คุณ พูดเป็นสูตรคือ มี model วาดรูปแยกอยู่อีกตัว ที่ harness เป็นคนเรียกใช้ ไม่ใช่ตัว LLM ที่คุยกับคุณวาดเอง

model สร้างรูปแบบเดิมส่วนใหญ่ทำงานด้วยวิธีที่เรียกว่า diffusion อธิบายง่าย ๆ คือมันเริ่มจากภาพที่เป็นจุดรบกวนมั่ว ๆ คล้ายหน้าจอทีวีไม่มีสัญญาณ แล้วค่อย ๆ ลบความมั่วออกทีละขั้นจนกลายเป็นรูปที่ชัดขึ้นเรื่อย ๆ ตามคำสั่ง วิธีนี้วาดรูปสวยได้ แต่มันทำงานแยกขาดจากความเข้าใจของ LLM และนี่คือสาเหตุที่รูปยุคก่อนมักเขียนตัวอักษรในรูปผิด ๆ หรือใส่รายละเอียดไม่ตรงกับที่สั่งยาว ๆ เพราะตัววาดรูปไม่ได้ "เข้าใจ" คำสั่งลึกเท่า LLM มันแค่รับคำสั่งสั้น ๆ ไปแปลงเป็นภาพ

ของใหม่เปลี่ยนตรงนี้ พอ OpenAI ออกการสร้างรูปแบบที่ฝังอยู่ใน GPT-4o เอง วิธีทำงานเปลี่ยนไป แทนที่จะลบจุดรบกวนทั้งภาพพร้อมกัน มันสร้างรูปแบบเดียวกับที่สร้างข้อความ คือไล่ทีละชิ้นต่อกันไป โดยใช้ความเข้าใจเรื่องข้อความ รูป และคำสั่งทั้งหมดที่ model มีอยู่แล้ว ในวงการเรียกแนวนี้ว่า native หรือ multimodal generation แปลคร่าว ๆ ว่าการสร้างรูปที่อยู่ในตัว model เดียวกันกับที่เข้าใจภาษา ไม่ใช่การส่งต่อให้เครื่องวาดแยกข้างนอก

นี่คือเหตุผลที่รูปจาก AI ดีขึ้นทันตาในช่วงหลัง พอตัวที่วาดรูปเป็นตัวเดียวกับที่เข้าใจคำสั่งจริง ๆ มันเลยเขียนตัวอักษรในรูปได้ถูกขึ้นมาก ทำตามคำสั่งซับซ้อนได้แม่นขึ้น และแก้รูปต่อเนื่องหลายรอบโดยยังจำของเดิมได้ ข้อแลกเปลี่ยนคือมันช้ากว่าวิธี diffusion แบบเดิม รูปหนึ่งใบอาจใช้เวลาหลายสิบวินาทีถึงเป็นนาที แต่คุณภาพและความตรงคำสั่งที่ได้มาคุ้มกับการรอ

จับเข้าสูตรอีกที ไม่ว่าจะวิธีเก่าหรือใหม่ การสร้างรูปคือเรื่องของ model ที่ทำงานกับภาพ ไม่ใช่ตัวเดียวกับ LLM ที่ทำงานกับข้อความเป๊ะ ๆ (ในกรณีฝังในตัวเดียวกัน มันคือ model ที่ถูกฝึกให้ทำได้ทั้งสองอย่าง) สิ่งที่คงเดิมคือ harness เป็นตัวประสาน รับคำสั่งจากคุณ เลือกว่าจะให้ใครทำ แล้วเอาผลกลับมาให้

💡 ใจความสำคัญ: LLM ไม่ได้วาดรูปเอง การสร้างรูปคือความสามารถที่มาจาก model คนละชนิดที่ทำงานกับภาพ ที่ harness เป็นคนเรียกใช้ ที่รูปดีขึ้นทันตาเพราะตัวที่วาดเริ่มเป็นตัวเดียวกับที่เข้าใจคำสั่ง ไม่ใช่เครื่องวาดแยกที่รับคำสั่งสั้น ๆ ไปแปลงเป็นภาพแบบเดิม

Seedance และวิดีโอ: อีก category ที่ใช้สูตรเดิม

ถ้ารูปภาพคือ model อีกชนิด วิดีโอก็เป็น category ของตัวเองอีกขั้น ตัวที่คนพูดถึงกันมากตัวหนึ่งคือ Seedance ของ ByteDance เจ้าของเดียวกับ TikTok และแอปตัดต่ออย่าง CapCut

Seedance คือ model สร้างวิดีโอ คุณป้อนคำบรรยาย หรือรูป หรือเสียง แล้วมันสร้างคลิปวิดีโอออกมา รุ่นใหม่ของมันสร้างได้ทั้งภาพและเสียงไปพร้อมกัน ตัดสลับมุมกล้องในคลิปเดียวได้ราวกับผ่านการตัดต่อมาแล้ว และทำได้ในความยาวระดับสิบกว่าวินาทีต่อการสร้างหนึ่งครั้ง

ทำไมวิดีโอถึงเป็น category คนละอันกับรูปนิ่ง เพราะวิดีโอไม่ใช่แค่รูปนิ่งหลายใบต่อกัน model สร้างรูปวาดทีละภาพให้สวยก็พอ แต่ model วิดีโอต้องทำให้ทุกเฟรมที่ไหลต่อกันเป็นเรื่องเดียวกัน แมวที่เดินอยู่ต้องเป็นแมวตัวเดิม ขนสีเดิม เดินไปทางเดิม ไม่ใช่อยู่ ๆ เปลี่ยนเป็นหมาในเฟรมถัดไป ความสามารถที่จะรักษาให้ภาพต่อเนื่องลื่นไหลข้ามเวลาแบบนี้ คือสิ่งที่ model วิดีโอถูกฝึกมาให้ทำโดยเฉพาะ และเป็นสิ่งที่ model รูปนิ่งทำไม่ได้

แล้วมันเกี่ยวกับสูตรของเรายังไง เกี่ยวตรงที่ มันคือ "ชิ้นที่หนึ่ง" คือ model ที่ทำงานเฉพาะทางอีกชนิด ในผลิตภัณฑ์จริง model วิดีโอแบบนี้ก็ถูก harness เรียกใช้แบบเดียวกับที่ harness เรียก model วาดรูป คุณสั่งงานผ่านแอปหรือเครื่องมือ harness ส่งคำสั่งไปให้ model วิดีโอทำงาน แล้วเอาคลิปกลับมาให้คุณ โครงเดิมไม่เปลี่ยน เปลี่ยนแค่ว่า model ที่ถูกเรียกเป็นชนิดวิดีโอ

ประเด็นที่อยากให้เห็นคือ "AI" ไม่ใช่ของก้อนเดียว มันมี model หลายชนิด แต่ละชนิดเก่งคนละเรื่อง LLM เก่งเรื่องข้อความ model อีกชนิดเก่งเรื่องรูป อีกชนิดเก่งเรื่องวิดีโอ อีกชนิดเก่งเรื่องเสียง เวลา product ตัวหนึ่งดูเหมือนทำได้หลายอย่าง จริง ๆ คือ harness ของมันรู้จักเรียก model หลายชนิดมาประกอบกันให้คุณ (ภาพรวมว่ามี AI กี่ชนิด แต่ละชนิดทำอะไร อยู่ใน บทเรื่องประเภทของ AI)

💡 ใจความสำคัญ: วิดีโอ รูปภาพ เสียง ข้อความ คือ model คนละชนิดที่เก่งคนละเรื่อง product ที่ดูเหมือนทำได้สารพัด จริง ๆ คือมี harness ที่รู้จักเรียก model แต่ละชนิดมาประกอบกัน ไม่ใช่ AI ตัวเดียวที่เก่งทุกอย่าง

ลองทำดู: ใช้ ChatGPT ตัวเดียวเรียก model หลายชนิด

เปิด ChatGPT ขึ้นมา แล้วพิมพ์สั่งสองอย่างต่อกัน อย่างแรก "ช่วยสรุปข่าวเศรษฐกิจไทยวันนี้ให้หน่อย" อย่างที่สอง "วาดรูปแมวสีส้มใส่แว่นให้หน่อย" สังเกตว่าหน้าจอเดียวกัน แอปเดียวกัน แต่สองคำสั่งนี้ให้ผลคนละแบบ อันแรกเป็นข้อความ อันที่สองเป็นรูป

ที่เกิดขึ้นข้างในคือ harness ตัวเดียวกันรับคำสั่งของคุณ แล้วเลือกว่าจะส่งไปให้ model ชนิดไหนทำ คำสั่งแรกส่งเข้า LLM ที่ทำงานกับข้อความ คำสั่งที่สองส่งต่อให้ model ที่ทำงานกับรูป คุณไม่ได้คุยกับ AI ตัวเดียวที่เก่งทุกอย่าง คุณคุยกับ harness ที่รู้จักเรียก model หลายชนิดมาให้

พอเห็นแบบนี้แล้ว ครั้งหน้าที่เจอข่าว AI ตัวใหม่ คุณถอดมันด้วยสูตรเดิมได้ทันที model ข้างในทำงานกับอะไร harness ให้คุณคุมทีละก้าวหรือไปทำเอง และมันเอื้อมถึงอะไรได้บ้าง

สรุป: สิ่งที่สูตรนี้ปลดล็อกให้คุณ

สิ่งที่บทนี้ปลดล็อกคือ คุณเลิกถาม "AI ตัวไหนดีที่สุด" เพราะคำถามนั้นตอบไม่ได้ถ้าไม่รู้ว่าจะทำงานอะไร แล้วเปลี่ยนมาถามให้ตรงกว่าคือ งานนี้ต้องการ model ชนิดไหน ต้องการ harness ที่ทำเองได้แค่ไหน และต้องให้มันเอื้อมถึงอะไรบ้าง พอถามแบบนี้ คุณเลือก product ได้ตรงงาน ไม่ใช่เลือกตามชื่อที่ดังที่สุด

ถ้าคุณทำงานในองค์กรไทยที่เพิ่งเริ่มใช้ AI สูตรนี้ช่วยตัดสินใจจริงได้เลย งานถาม-ตอบหรือร่างเอกสารทั่วไป harness แบบแชทก็พอ เลือกแพ็กเกจถูกสุดได้ แต่ถ้าจะให้มันเอื้อมถึงไฟล์ลูกค้าหรือข้อมูลภายในบริษัท คุณต้องคิดเรื่องความเป็นส่วนตัวของข้อมูลก่อน เพราะ harness ที่เอื้อมถึงของในเครื่องได้กว้าง ก็แปลว่าข้อมูลของคุณเดินทางออกไปไกลขึ้นเท่านั้น สูตรนี้จึงไม่ใช่แค่เรื่องเลือกของ แต่เป็นเรื่องประเมินว่าจะปล่อยให้ AI แตะอะไรได้บ้างด้วย

ย้อนกลับไปที่ความรู้สึกตอนต้น ที่ ChatGPT รูปจาก AI และคลิปวิดีโอ ดูเหมือนของคนละชนิด พอผ่านบทนี้แล้ว ภาพควรเปลี่ยน มันคือสูตรเดียวที่ถูกประกอบคนละแบบ ไม่มีเวทมนตร์ ไม่มี "AI ตัวเทพ" ที่เก่งทุกอย่างในตัวเดียว มีแต่ชิ้นส่วนสามชิ้นที่ประกอบกันได้ไม่รู้จบ

แต่ยังมีตัวเลือกหนึ่งที่บทนี้ยังไม่ได้แตะ คือถ้าทุก product คือ model ที่ถูกห่อด้วย harness สำเร็จรูปที่บริษัทสร้างให้ จะเป็นยังไงถ้าคุณข้าม harness สำเร็จรูปนั้นไป แล้วต่อตรงเข้า model ดิบเลย นั่นแหละคือสิ่งที่เรียกว่า API และทำไมการใช้ผ่าน API ถึงให้ความรู้สึกคนละเรื่องกับการใช้แอป คือเรื่องของบทต่อไป


อ่านต่อ: ทำไมใช้ผ่าน API ถึงไม่เหมือนใช้แอป

แหล่งอ้างอิง

คำถามที่พบบ่อย

Claude Chat กับ Claude Code ต่างกันตรงไหน ในเมื่อใช้ model เดียวกันexpand_more

ต่างกันที่ harness และสิ่งที่มันเอื้อมถึง ไม่ใช่ที่ความฉลาดของ model Chat เอื้อมถึงแค่บทสนทนากับเครื่องมือแคบ ๆ ส่วน Claude Code เป็นแบบเทอร์มินัลที่อ่านโค้ดทั้งโปรเจกต์ แก้ไฟล์ และรันคำสั่งในเครื่องได้จริง ทำงานยาว ๆ เองโดยไม่ต้องสั่งทีละก้าว

เวลา ChatGPT วาดรูป มันคือ AI ตัวเดียวกับที่คุยกับเราไหมexpand_more

ไม่ใช่ตัวเดียวกันเป๊ะ LLM ที่คุยกับคุณทำงานกับข้อความ มันไม่ได้วาดรูปเอง เวลาคุณสั่งวาดรูป harness จะส่งคำสั่งต่อให้ model อีกชนิดที่ทำหน้าที่สร้างรูปโดยเฉพาะ แล้วเอารูปกลับมาให้คุณ

AI ตัวไหนดีที่สุดexpand_more

คำถามนี้ตอบไม่ได้ถ้าไม่รู้ว่าจะทำงานอะไร เพราะ product ทุกตัวคือสูตรเดียวกัน คือ model บวก harness บวกสิ่งที่มันเอื้อมถึง ควรถามให้ตรงกว่าว่างานนี้ต้องการ model ชนิดไหน harness ทำเองได้แค่ไหน และต้องให้มันเอื้อมถึงอะไรบ้าง แล้วเลือก product ให้ตรงงาน

CLAUDE.md กับ AGENTS.md ต่างกันไหมexpand_more

หน้าที่เหมือนกัน คือเป็นไฟล์คู่มือที่บอก AI ว่าโปรเจกต์นี้มีกฎอะไร เขียนสไตล์ไหน ก่อนลงมือทำงาน ต่างกันแค่ชื่อตามค่าย Claude Code อ่านไฟล์ชื่อ CLAUDE.md ส่วน Codex อ่านไฟล์ชื่อ AGENTS.md