AI & Technology

OSWorld — Benchmark ที่พิสูจน์ว่า AI ยังใช้คอมพิวเตอร์ได้แค่ไหน (และทำไมมันสำคัญกับทุกองค์กร)

OSWorld คือ Benchmark แรกที่ทดสอบ AI Agent บนคอมพิวเตอร์จริง ไม่ใช่แค่ตอบคำถาม — ผลลัพธ์เผยว่า AI ที่ดีที่สุดทำได้ราว 60% ขณะที่มนุษย์ทำได้ 72% และช่องว่างนี้กำลังปิดลงเร็วกว่าที่คิด

13 มี.ค. 20268 นาทีOSWorld

AI BenchmarkOSWorldComputer UseMultimodal AIAI AgentAgentic AI

AI ยังใช้คอมพิวเตอร์ไม่เก่งอย่างที่คิด — แต่กำลังดีขึ้นเร็วมาก

ถ้าคุณเคยดู Demo ของ AI ที่เปิดเบราว์เซอร์ กรอกฟอร์ม ย้ายไฟล์ หรือแก้ไขเอกสารได้ด้วยตัวเอง คุณอาจคิดว่า AI ใกล้จะทำงานบนคอมพิวเตอร์ได้เหมือนมนุษย์แล้ว

แต่จะรู้ได้อย่างไรว่า AI "เก่งจริง" หรือแค่ "ดูเก่ง" ใน Demo ที่จัดฉากมา?

คำตอบอยู่ที่ Benchmark — และ Benchmark ที่น่าเชื่อถือที่สุดสำหรับการทดสอบ AI บนคอมพิวเตอร์จริงคือ OSWorld ซึ่งได้รับการตีพิมพ์ในงาน NeurIPS 2024 และกลายเป็นมาตรฐานที่ทั้งอุตสาหกรรม AI ใช้วัดผลกันอยู่ในปัจจุบัน

OSWorld คืออะไร?

OSWorld (Open-ended tasks in real computer environments) เป็น Benchmark ที่ออกแบบมาเพื่อทดสอบ AI Agent บน คอมพิวเตอร์จริง — ไม่ใช่สภาพแวดล้อมจำลอง ไม่ใช่แค่ตอบคำถาม Choice หรือเขียนโค้ดในกล่องทดสอบ แต่ต้อง ลงมือทำงานจริง บนหน้าจอคอมพิวเตอร์เหมือนที่มนุษย์ทำ

OSWorld Task Demonstration — ตัวอย่างงานที่ AI ต้องทำจริงบนคอมพิวเตอร์

ทำไมถึงต่างจาก Benchmark อื่น?

Benchmark ส่วนใหญ่ทดสอบ AI แบบ "ถาม-ตอบ" — ให้โจทย์แล้วดูว่า AI ตอบถูกหรือไม่ แต่ OSWorld ทดสอบแบบ "ลงมือทำ" — ให้เป้าหมาย แล้ว AI ต้อง:

มองเห็นหน้าจอ (Screenshot หรือ Accessibility Tree)
คิดว่าต้องทำอะไร เพื่อบรรลุเป้าหมาย
ควบคุมเมาส์และคีย์บอร์ด เพื่อดำเนินการ
ตรวจสอบผลลัพธ์ ว่าสำเร็จหรือไม่ แล้วปรับแผนถ้าจำเป็น

ทั้งหมดนี้เกิดขึ้นบนระบบปฏิบัติการจริง — Ubuntu, Windows และ macOS

Benchmark ที่ครอบคลุมแค่ไหน?

OSWorld ประกอบด้วย 369 งาน ที่ครอบคลุม 4 ประเภทหลัก:

OSWorld Statistics — ภาพรวมข้อมูลและการกระจายของงานทดสอบ

Web Application — ค้นหาข้อมูล กรอกฟอร์ม จัดการอีเมล
Desktop Application — แก้ไขเอกสาร สร้าง Spreadsheet ปรับแต่งรูปภาพ
OS File I/O — จัดการไฟล์ ย้ายโฟลเดอร์ เปลี่ยนการตั้งค่าระบบ
Cross-Application Workflow — งานที่ต้องใช้หลายแอปร่วมกัน เช่น ดึงข้อมูลจากเว็บมาใส่ใน Spreadsheet แล้วสร้างกราฟ

OSWorld Task Distribution — สัดส่วนประเภทงานและ Domain ที่ทดสอบ

แต่ละงานมี สคริปต์ตั้งค่าเริ่มต้น (ทำให้ทุกการทดสอบเริ่มจากจุดเดียวกัน) และ สคริปต์ประเมินผลแบบ Execution-based (ไม่ได้แค่ดูว่าคลิกถูกตำแหน่ง แต่ตรวจสอบว่าผลลัพธ์สุดท้ายถูกต้องจริงหรือไม่)

ผลลัพธ์ที่น่าตกใจ — และพัฒนาการที่น่าจับตา

จุดเริ่มต้น (2024): AI ทำได้แค่ 12%

เมื่อ OSWorld เปิดตัวในปี 2024 ผลลัพธ์ทำให้ทั้งวงการตื่นตัว — AI ที่ดีที่สุดทำสำเร็จเพียง 12.24% ของงานทั้งหมด ขณะที่มนุษย์ทำได้ 72.36%

ช่องว่าง 60 จุดนี้บอกให้รู้ว่า แม้ AI จะเก่งเรื่องตอบคำถามและเขียนโค้ด แต่การ "ใช้คอมพิวเตอร์" จริงๆ ยังห่างไกลจากมนุษย์มาก

ปัจจุบัน (2026): ช่องว่างกำลังปิดลง

สองปีผ่านไป ภาพเปลี่ยนไปอย่างมาก บน OSWorld-Verified (เวอร์ชันปรับปรุงที่แก้ไขปัญหาและเพิ่มความน่าเชื่อถือ):

อันดับ	ระบบ	คะแนน
1	CoACT-1	60.76%
2	Agent S2.5 (w/ o3)	56.0%
3	UiPath Screen Agent (Claude Opus 4.5)	53.6%
4	GTA1 (w/ o3)	53.1%
5	Claude Sonnet 4.5	43.9%
6	UI-TARS	40.0%
—	มนุษย์	~72%

จาก 12% เป็น 60% ในเวลาสองปี — พัฒนาขึ้นเกือบ 5 เท่า

สิ่งที่ OSWorld เปิดเผยเกี่ยวกับจุดอ่อนของ AI

OSWorld Environment — โครงสร้างระบบทดสอบบน OS จริง

การวิเคราะห์ผลลัพธ์อย่างละเอียดเผยให้เห็นจุดอ่อนสำคัญหลายประการ:

GUI Grounding ยังเป็นปัญหา

AI ยังมีปัญหาในการ "เข้าใจ" สิ่งที่เห็นบนหน้าจอ — ปุ่มไหนคือปุ่มไหน เมนูอยู่ตรงไหน ต้องคลิกที่จุดไหนบนหน้าจอ โดยเฉพาะเมื่อ UI มีความซับซ้อนสูง

ความรู้เชิงปฏิบัติยังขาด

AI อาจ "รู้" ว่า LibreOffice Calc ทำอะไรได้ แต่ไม่รู้ว่า ต้องกดปุ่มอะไร ตรงไหน ในลำดับใด เพื่อทำสิ่งนั้น ความรู้ทางทฤษฎีกับทักษะปฏิบัติยังห่างกัน

ไม่ทนต่อการเปลี่ยนแปลง UI

OSWorld Disturbance Effect — ผลกระทบเมื่อ UI เปลี่ยนแปลง

เมื่อ Layout ของหน้าจอเปลี่ยนไปเล็กน้อย (เช่น ปุ่มย้ายตำแหน่ง หน้าต่างเปลี่ยนขนาด) ประสิทธิภาพของ AI ลดลงอย่างมีนัยสำคัญ ขณะที่มนุษย์ปรับตัวได้โดยแทบไม่รู้สึก

Resolution มีผล

OSWorld Resolution Effect — ความละเอียดหน้าจอส่งผลต่อประสิทธิภาพ

ยิ่งความละเอียดของ Screenshot สูงขึ้น AI ยิ่งทำงานได้ดีขึ้น ซึ่งบ่งบอกว่า AI ยังต้องพึ่งพา "การมองเห็น" อย่างมาก และการบีบอัดภาพที่ส่งไปให้ AI มีผลกระทบโดยตรง

Agentic Framework เหนือกว่า Foundation Model เปล่าๆ

สิ่งที่น่าสนใจที่สุดจาก Leaderboard ล่าสุดคือ — ระบบที่อยู่อันดับต้นๆ ไม่ใช่ AI Model ตัวเดี่ยว แต่เป็น Framework ที่ประสานหลายส่วนเข้าด้วยกัน

CoACT-1 ที่ได้อันดับ 1 ใช้ Reasoning Model ร่วมกับ Agentic Framework ที่วางแผน ลงมือทำ และตรวจสอบผลลัพธ์เป็นวงจร ส่วน Agent S2.5 ใช้ Experience-augmented Hierarchical Planning — เรียนรู้จากประสบการณ์การทำงานที่ผ่านมาเพื่อวางแผนการทำงานครั้งถัดไป

สิ่งนี้ยืนยันว่า การ "ใช้คอมพิวเตอร์" ไม่ใช่แค่เรื่องของ AI Model ที่ฉลาดขึ้น แต่ต้องการ "ระบบ" ที่ครบวงจร — วางแผน ลงมือทำ เรียนรู้ ปรับตัว

นัยสำคัญสำหรับองค์กร

Automation กำลังจะเปลี่ยนระดับ

เมื่อ AI สามารถ "ใช้คอมพิวเตอร์" ได้ดีขึ้น งานที่เคยต้องใช้คนนั่งหน้าจอจะเริ่มถูกทำโดย AI Agent มากขึ้น ไม่ใช่แค่งานที่มี API ให้เชื่อมต่อ แต่รวมถึงงานที่ต้อง คลิก พิมพ์ ลากวาง บนแอปพลิเคชันที่ไม่ได้ออกแบบมาให้ AI ใช้

UiPath ที่ได้อันดับ 3 คือตัวอย่างที่ชัดเจน — บริษัท RPA ยักษ์ใหญ่ที่เคยพึ่งพา Rule-based Automation กำลังเปลี่ยนผ่านมาใช้ AI เป็นแกนหลัก

เลือก AI ด้วยข้อมูล ไม่ใช่การตลาด

OSWorld ให้เครื่องมือที่องค์กรสามารถใช้ เปรียบเทียบ AI Model อย่างเป็นกลาง แทนที่จะเชื่อ Demo จากผู้ขาย ลองดูคะแนน OSWorld ของ Model ที่กำลังพิจารณา — มันจะบอกคุณได้ชัดเจนกว่าว่า AI ตัวนั้นทำงาน "บนคอมพิวเตอร์จริง" ได้แค่ไหน

ยังมี Headroom อีกมาก

แม้จะพัฒนาขึ้นมาก แต่ช่องว่างระหว่าง 60% กับ 72% ของมนุษย์ยังมีอยู่ และ 72% ของมนุษย์ก็ไม่ใช่ 100% — หลายงานที่ยากแม้แต่คนยังทำไม่สำเร็จ สิ่งนี้บอกว่า AI ยังไม่พร้อมทำงานทดแทนมนุษย์ 100% แต่พร้อมทำงาน "ช่วย" มนุษย์ได้เป็นอย่างดี

มองไปข้างหน้า

อัตราการพัฒนาจาก 12% เป็น 60% ในสองปี บอกให้รู้ว่า AI ที่ใช้คอมพิวเตอร์ได้เทียบเท่ามนุษย์ ไม่ใช่เรื่องของ "ถ้า" แต่เป็นเรื่องของ "เมื่อไหร่"

องค์กรที่เริ่มทำความเข้าใจข้อจำกัดและศักยภาพของ AI Agent ตั้งแต่วันนี้ จะมีข้อได้เปรียบอย่างชัดเจนเมื่อเทคโนโลยีพร้อม — เพราะไม่ใช่แค่เรื่องของ Model แต่เป็นเรื่องของ Workflow, Data, และ Process ที่ต้องเตรียมพร้อมรับ Agent ที่ "ทำงานแทน" ได้จริง

แหล่งข้อมูล

ลิงก์ที่เกี่ยวข้อง

Genesis AI Platform

แพลตฟอร์ม Agentic AI สำหรับองค์กร

AI Readiness Assessment

ประเมินความพร้อม AI ขององค์กรฟรี

ติดต่อปรึกษา AI Strategy

พูดคุยกับผู้เชี่ยวชาญ

กลับไปหน้า Insights

บทความที่เกี่ยวข้อง

AEO + SEO — คู่มือเอาตัวรอดเมื่อ AI กลืนกิน Google Search

Gartner ทำนาย Search Volume จะลด 25% ภายในปี 2026 และ 50% ภายในปี 2028 — Zero-click search พุ่ง 65% เว็บไซต์ที่ไม่ปรับตัวจะหายไปจากสายตาลูกค้า บทความนี้คือคู่มือฉบับสมบูรณ์สำหรับธุรกิจไทย

AEO vs GEO — เจาะลึกสองกลยุทธ์ที่ตัดสินว่า AI จะ "เห็น" หรือ "ข้าม" เว็บไซต์คุณ

Web Mentions สัมพันธ์กับ AI Citations สูงกว่า Backlinks ถึง 3 เท่า, AI referral traffic โต 527% YoY, เว็บที่มี Schema มีโอกาสถูก AI อ้างอิงมากกว่า 2.5 เท่า — คู่มือเชิงลึก AEO vs GEO พร้อมวิธีตรวจสอบและปรับเว็บไซต์

Agentic AI ในองค์กร — จาก 5% สู่ 40% ภายในปี 2026: โอกาสและความเสี่ยงที่ผู้บริหารต้องรู้

ตลาด Agentic AI โตจาก $1B สู่ $9B+ ใน 2 ปี Gartner คาด 40% ของแอปองค์กรจะมี AI Agent ภายในสิ้นปี 2026 แต่กว่า 40% ของโปรเจกต์อาจถูกยกเลิก — บทความนี้วิเคราะห์โอกาส ความเสี่ยง และกลยุทธ์สำหรับองค์กรไทย

"Empowering Innovation,
Transforming Futures."

ติดต่อเราเพื่อทำให้โปรเจกต์ของคุณเป็นจริง