Gemini-SQL2 من Google يضع دقة تحويل اللغة الطبيعية إلى SQL أمام اختبار المؤسسات

بقلمSTechTimes Editor|المصدر: AI Times Korea

ملخص المقال

تقول Google إن Gemini-SQL2 حقق دقة تنفيذ 80.04% على معيار BIRD، لكن الفجوة مع الخبراء البشر تبقي التقنية ضمن سير عمل خاضع للمراجعة لا كطبقة استعلام بيانات مستقلة بالكامل.

Gemini-SQL2 من Google يضع دقة تحويل اللغة الطبيعية إلى SQL أمام اختبار المؤسسات

مصدر الصورة: AI Times Korea

واجهة قواعد بيانات مبنية حول التنفيذ

قدمت Google تقنية Gemini-SQL2 كقدرة text-to-SQL تحول الأسئلة المكتوبة باللغة الطبيعية إلى استعلامات قواعد بيانات قابلة للتنفيذ. تعتمد التقنية على Gemini 3.1 Pro وتستهدف مشكلة مألوفة في المؤسسات: يستطيع مستخدمو الأعمال وصف الإجابة التي يحتاجون إليها، لكن قاعدة البيانات ما زالت تحتاج إلى SQL دقيق يربط الجداول ويتعامل مع التواريخ ويعيد النتيجة الصحيحة.

الفارق المهم هو التنفيذ. لا يجري تقديم Gemini-SQL2 كمساعد يكتب استعلامات تبدو سليمة شكليا فقط. في معيار BIRD يجب أن يعمل الاستعلام المولد على قاعدة البيانات وأن يطابق نتيجة SQL المرجعي. قالت Google إن Gemini-SQL2 حقق دقة تنفيذ 80.04% في فئة Single Trained Model ضمن BIRD، متجاوزا نتيجة Gemini-SQL السابقة البالغة 76.13% التي كُشف عنها في November 2025.

هذا يجعل الإعلان قصة عن منتجات البيانات، لا مجرد ادعاء لأداء نموذج. إذا كانت واجهات اللغة الطبيعية ستدخل أدوات التحليلات أو أنظمة المالية أو منصات المطورين، فالمقياس المفيد هو ما إذا كان الاستعلام يعطي الإجابة الصحيحة عند التعامل مع بيانات غير مرتبة.

BIRD يوضح صعوبة SQL داخل المؤسسات

صُمم BIRD ليدفع أنظمة text-to-SQL إلى التعامل مع تعقيد يشبه بيئات المؤسسات. يضم المعيار 95 قاعدة بيانات و37 مجالا مهنيا و12,751 زوجا من الأسئلة وSQL، بحجم بيانات إجمالي يبلغ 33.4GB. كما يتضمن بيانات غير مكتملة ومتطلبات معرفة خارجية، وهي نقاط فشل شائعة عندما يحاول نموذج تفسير طلب تجاري.

هذه الشروط مهمة لأن مستخدمي المؤسسات نادرا ما يطرحون أسئلة قواعد البيانات بلغة مخطط واضحة. قد يطلب مدير إيرادات حساب الإيراد الشهري المتكرر حسب المنطقة للعملاء الذين غادروا خلال 90 days بعد ترقية. تحويل ذلك إلى SQL قد يتطلب عمليات ربط ودوال نافذة ومنطق تواريخ. وقد يصف مهندس بيانات عملية تحويل بلغة عادية، ثم يراجع BigQuery SQL المولد قبل استخدامه في خط إنتاج بيانات.

تشير نتيجة Gemini-SQL2 إلى تحسن في التعامل مع هذا النوع من سير العمل، لكنها لا تلغي التحقق. مستوى الخبراء البشر المذكور في BIRD يبلغ 92.96%، ما يترك فجوة قدرها 12.9 percentage points. كما أن دقة حول مستوى 80% تعني وجود خطر أخطاء كاف لفرض المراجعة والاختبار وضوابط الصلاحيات حول الاستعلامات المولدة في فرق التحليلات الإنتاجية.

التدريب المتخصص ما زال مهما

تشير مقارنة Google أيضا إلى نمط تقني مهم. بعض نماذج SQL المتخصصة عند مستوى 32-billion-parameter تفوقت على نماذج لغة عامة متقدمة في أعمال قواعد البيانات. ويدعم ذلك درسا أضيق في AI المؤسسي: القدرة اللغوية الواسعة لا تكفي دائما عندما تكون المهمة مقيدة ببنية المخطط وقواعد التنفيذ وتقاليد البيانات الخاصة بكل مجال.

لا توصف Gemini-SQL2 بأنها نموذج مستقل منفصل. إنها قدرة مبنية على Gemini 3.1 Pro، ولذلك يصبح السؤال المنتج هو أين ستضعها Google. الأماكن المرجحة هي واجهات توليد SQL القائمة على Gemini مثل BigQuery Studio وAlloyDB AI وCloud SQL Studio، رغم أن Google لم تكشف بعد عن API منفصل أو model string خاص بـ Gemini-SQL2.

الاختبار التالي هو التحكم في المنتج

أقوى استخدام قريب المدى هو المساعدة الخاضعة للإشراف. يمكن لشركات SaaS التي تقدم ميزات Ask Your Data وفرق التحليلات المؤسسية ومجموعات هندسة البيانات استخدام النظام لتقليل المسافة من السؤال إلى مسودة الاستعلام. أما مشكلة التحكم المتبقية فهي تحديد متى يمكن الوثوق بـ SQL المولد، ومتى يحتاج إلى مراجعة بشرية، ومقدار الوصول الذي ينبغي أن يحصل عليه النموذج إلى بيانات إنتاجية حساسة.

هنا تتحول نتيجة المعيار إلى سؤال نشر. يحسن Gemini-SQL2 حجة واجهات قواعد البيانات باللغة الطبيعية، لكن الأرقام المدعومة من المصدر ما زالت تشير إلى تصميم يبقي الإنسان داخل الحلقة. وإلى أن تضيق فجوة الدقة أكثر، فإن القيمة العملية هي تسريع بناء الاستعلام مع المراجعة، لا أتمتة قواعد البيانات من دون إشراف.

#ai #text to SQL #Gemini SQL2 #BIRD benchmark

مقالات ذات صلة

المزيد

الذكاء الاصطناعي

مختبرات AI الصينية تحول النماذج ذاتية التحسن إلى اختبار لكفاءة الرقائق

تربط فرق AI الصينية ادعاءات recursive self-improvement بأتمتة البحث وتحسين kernels، لكن أقوى الأدلة ما زالت في مهام هندسية ضيقة لا في بحث AI مستقل بالكامل.

الذكاء الاصطناعي

قطاع المال الياباني يضع Claude في اختبار ذكاء اصطناعي مؤسسي متعدد الشركات

تدفع Anthropic وNEC وثماني شركات مالية يابانية Claude إلى برنامج تشاركي يركز على جودة الخدمات المالية وإنتاجية المكاتب والأمن السيبراني وتحديث أنظمة تقنية المعلومات.

الذكاء الاصطناعي

بنية ذكاء Apple تضع Google وNvidia داخل اختبار الخصوصية

تستخدم Apple كلاً من Google وNvidia لدعم أكثر نماذجها السحابية تقدماً، مع محاولة إبقاء Apple Intelligence قائماً على التوجيه الخاص والنماذج المملوكة وسياق الجهاز.

الذكاء الاصطناعي

مجالس الشرق الأوسط تحول حوكمة AI إلى اختبار لمخاطر القوى العاملة

يصنف Board Intelligence's Board Value Index مجالس إدارة الشركات في Middle East في المرتبة الأولى عالميا في استخدام التكنولوجيا لخلق القيمة والأكثر تقدما في قرارات AI، لكن فجوات المهارات ما زالت تؤخر أو تضعف قرارات لنحو 80 per cent من المديرين في المنطقة.