บทนำ — งานที่ยืนยันว่า "Kubernetes ชนะแล้ว"
สัปดาห์ที่ผ่านมา Amsterdam กลายเป็นศูนย์กลางของโลก cloud native เมื่อ KubeCon + CloudNativeCon Europe 2026 จัดขึ้นด้วยจำนวนผู้เข้าร่วมมากที่สุดในประวัติศาสตร์ — กว่า 13,500 คน จาก engineers, architects, CTOs และ DevOps leads ทั่วโลก
แต่สิ่งที่น่าสนใจกว่าตัวเลขผู้เข้าร่วม คือ ธีมหลัก ของงานที่เปลี่ยนไปอย่างชัดเจน
ปีที่แล้ว ทุกคนพูดถึง "AI hype" — ปีนี้ทุกคนพูดถึง "AI infrastructure"
Jonathan Bryce ผู้อำนวยการบริหารของ CNCF เปิดงานด้วยการประกาศว่า cloud native กำลังเข้าสู่ "ยุคก่อตั้งครั้งที่สอง" (second founding era) — ยุคที่ Kubernetes ไม่ใช่แค่เครื่องมือจัดการ container อีกต่อไป แต่กำลังกลายเป็น ระบบปฏิบัติการ ของ AI workload ทั้งหมด
บทความนี้จะพาวิเคราะห์สิ่งที่เกิดขึ้นที่ Amsterdam แล้วมองกลับมาว่า มันหมายความอย่างไรกับองค์กรไทย ที่กำลังวางแผนเรื่อง AI และ cloud native
ตัวเลขที่บอกทุกอย่าง — Cloud Native ในปี 2026
ก่อนเข้าเรื่อง ลองดูตัวเลขที่ CNCF เปิดเผยในงาน:
- 19.9 ล้านคน — จำนวนนักพัฒนา cloud native ทั่วโลก (เพิ่มขึ้น 28% ในหกเดือน)
- 7.3 ล้านคน — นักพัฒนาที่ทำงานด้าน AI บน cloud native โดยเฉพาะ
- 82% — อัตราการใช้ Kubernetes ในองค์กรระดับ enterprise
- 2 ใน 3 — สัดส่วนของ generative AI workload ที่รันบน Kubernetes แล้ว
- $255 พันล้าน — มูลค่าตลาด inference ที่คาดการณ์ภายในปี 2030
- 67% — สัดส่วนของ AI compute ที่จะเป็น inference (ไม่ใช่ training) ภายในสิ้นปี 2026
ตัวเลขเหล่านี้บอกสิ่งเดียวกัน: AI กำลังย้ายจากห้องทดลองมาสู่ production และ Kubernetes คือพื้นฐานที่ทุกคนเลือกใช้
แต่ที่น่าตกใจคือ แม้ 82% จะใช้ Kubernetes แล้ว — มีเพียง 7% เท่านั้น ที่ deploy AI ใน production ทุกวัน นี่คือ "ช่องว่างการปฏิบัติ" (execution gap) ที่งานนี้พยายามปิด
llm-d — เมื่อ Red Hat, IBM และ Google ร่วมมือสร้างมาตรฐาน AI Inference
ประกาศที่สร้างแรงกระเพื่อมมากที่สุดในงานคือการบริจาค llm-d เข้าสู่ CNCF ในฐานะ Sandbox project
llm-d คืออะไร? พูดให้เข้าใจง่าย — มันคือ "พิมพ์เขียว" สำหรับการรัน AI model ขนาดใหญ่บน Kubernetes อย่างมีประสิทธิภาพ เกิดจากความร่วมมือของ IBM Research, Red Hat และ Google Cloud พร้อมการสนับสนุนจาก NVIDIA, CoreWeave, AMD, Cisco, Hugging Face, Intel, Lambda และ Mistral AI
ทำไมถึงสำคัญ?
ปัญหาใหญ่ที่สุดขององค์กรที่จะรัน LLM ใน production ไม่ใช่แค่ "เลือก model อะไร" แต่คือ "จะจัดการ inference อย่างไรให้ประหยัด เร็ว และขยายได้"
การรัน AI model ในความเป็นจริงมีความซับซ้อนสูง — ต้องจัดการหน่วยความจำ GPU, กระจาย request ไปยัง replica ที่เหมาะสม, ปรับขนาดตาม traffic ที่ไม่แน่นอน และรักษา latency ให้ต่ำพร้อม ๆ กัน ทุกวันนี้องค์กรต้องประกอบเครื่องมือหลายชิ้นเข้าด้วยกันเอง — ซึ่งยากและแพง
llm-d แก้ปัญหานี้ด้วยแนวคิดสำคัญหลายข้อ:
- Intelligent routing — ส่ง request ไปยัง replica ที่มี cache state เหมาะสมที่สุด แทนที่จะกระจายแบบสุ่ม
- Disaggregated inference — แยกขั้นตอนการประมวลผล prompt กับการสร้าง token ออกจากกัน ให้ scale ได้อิสระ
- Hierarchical caching — จัดการ cache ข้ามหลายชั้น ตั้งแต่ GPU ไปจนถึง CPU และ storage
- Hardware-aware autoscaling — ปรับขนาดตามสภาพจริงของ hardware ไม่ใช่ตาม metric ทั่วไป
ผลลัพธ์ที่เห็นจริง
ในการทดสอบด้วย model Qwen3-32B — llm-d สามารถรักษา latency ใกล้ศูนย์ ขณะ scale ขึ้นไปถึง ~120,000 tokens ต่อวินาที ข้ามแปด pod — ซึ่งเหนือกว่า Kubernetes service มาตรฐานอย่างมีนัยสำคัญเมื่อรับ load จริง
ทำไมต้องบริจาคให้ CNCF?
Red Hat อธิบายว่า llm-d ถูกสร้างขึ้นเพื่อ "ปิดช่องว่างระหว่างการทดลอง AI กับ production" — และวิธีที่ดีที่สุดที่จะทำเช่นนั้นคือให้มี governance กลาง ที่ไม่มี vendor รายใดเป็นเจ้าของ
IBM Research ย้ำว่าเป้าหมายคือ "vendor-agnostic, Kubernetes-native blueprint สำหรับ high-performance inference ที่องค์กรใด ๆ ก็สามารถนำไปใช้ได้"
นี่ไม่ใช่แค่เรื่องเทคนิค — มันคือ สัญญาณทางธุรกิจ ว่าอุตสาหกรรมกำลังมุ่งสู่มาตรฐานเปิดสำหรับ AI inference
NVIDIA บริจาค GPU Driver ให้ Kubernetes — จุดเปลี่ยนของ GPU Orchestration
อีกประกาศสำคัญที่สะเทือนวงการคือ NVIDIA เข้าร่วม CNCF ในฐานะ Platinum Member พร้อมกับบริจาค GPU Dynamic Resource Allocation (DRA) Driver ให้กับ Kubernetes community
ทำไมเรื่องนี้ใหญ่?
ก่อนหน้านี้ การจัดสรร GPU ใน Kubernetes เป็นเรื่องที่ต้องพึ่ง vendor-specific plugin ทำให้เกิด lock-in และความไม่เข้ากันระหว่าง hardware ต่าง ๆ การบริจาค DRA driver หมายความว่า GPU scheduling จะกลายเป็นส่วนหนึ่งของ Kubernetes มาตรฐาน — ไม่ผูกกับ vendor ใดอีกต่อไป
AWS, Broadcom, Canonical, Google Cloud, Microsoft, Nutanix, Red Hat และ SUSE ทั้งหมดร่วมสนับสนุนความเคลื่อนไหวนี้
นอกจากนี้ NVIDIA ยังประกาศว่า KAI Scheduler (ตัว scheduler ที่ออกแบบมาเพื่อ AI workload โดยเฉพาะ) ได้รับการรับเข้าเป็น CNCF Sandbox project อีกด้วย
ความหมายสำหรับองค์กร: GPU กำลังกลายเป็น "first-class citizen" ใน Kubernetes เหมือนกับที่ CPU และ memory เป็นมาก่อน
SNCF คว้า Top End User Award — เมื่อรถไฟฝรั่งเศสพิสูจน์ว่า Kubernetes ทำงานได้ในทุก scale
รางวัล Top End User Award ของ CNCF ปีนี้ตกเป็นของ SNCF (การรถไฟแห่งชาติฝรั่งเศส) — และเรื่องราวของพวกเขาน่าทึ่งมาก
ตัวเลขที่น่าประทับใจ:
- ย้ายแอปพลิเคชัน กว่า 2,000 ตัว มาสู่ cloud — โดย 70% ใช้ Kubernetes เป็น unified control plane
- บริหาร กว่า 200 cluster บน AWS และ Azure
- สร้าง private cloud ด้วย OpenStack สำหรับ workload ที่ต้องการ data sovereignty
- บรรลุ "public cloud parity" พร้อม full automation บน open source platform
สิ่งที่น่าสนใจคือ SNCF ไม่ใช่บริษัทเทคโนโลยี — พวกเขาเป็น บริษัทรถไฟ ที่มีพนักงานกว่า 200,000 คน และต้องดูแลระบบขนส่งผู้โดยสาร 5 ล้านคนต่อวัน
ถ้าองค์กรระดับนี้สามารถ transform ได้ — คำถามสำหรับองค์กรไทยคือ "ทำไมเราจึงยังไม่ทำ?"