RAG لقواعد المعرفة المؤسسية: الذكاء الاصطناعي الأرضي في بيانات شركتك

قم بتنفيذ تقنية الاسترجاع المعزز لربط الذكاء الاصطناعي بقاعدة معارف مؤسستك، مما يقلل من الهلوسة ويقدم إجابات دقيقة من مصادر.

E
ECOSIRE Research and Development Team
|16 مارس 20269 دقائق قراءة2.0k كلمات|

RAG لقواعد المعرفة المؤسسية: الذكاء الاصطناعي الأرضي في بيانات شركتك

نماذج اللغات الكبيرة تعرف الكثير عن العالم. إنهم لا يعرفون شيئًا عن شركتك. لا يمكنهم إخبار العميل بسياسة الإرجاع الخاصة بك. لا يمكنهم شرح عملية الموافقة على النفقات الداخلية الخاصة بك. لا يمكنهم استكشاف أخطاء المنتج الخاص بك وإصلاحها لأنهم لم يروا وثائقك مطلقًا.

يعمل جيل الاسترجاع المعزز (RAG) على سد هذه الفجوة. بدلاً من الاعتماد على بيانات التدريب الخاصة بالنموذج، تقوم RAG باسترداد المعلومات ذات الصلة من قاعدة معارف مؤسستك وتضمينها في السياق الفوري. النتيجة: إجابات الذكاء الاصطناعي ترتكز على بيانات شركتك الفعلية، مع الاستشهادات بالمصادر، والحد الأدنى من الهلوسة.

في عام 2026، ستكون RAG هي بنية الذكاء الاصطناعي المؤسسية الأكثر انتشارًا --- أكثر شيوعًا من الضبط الدقيق وأكثر فعالية من حيث التكلفة. يغطي هذا الدليل دورة حياة تنفيذ RAG الكاملة: الهندسة المعمارية، وإعداد البيانات، واستراتيجيات الاسترجاع، والتقييم، ونشر الإنتاج.

هذه المقالة جزء من سلسلة تحويل الأعمال باستخدام الذكاء الاصطناعي.

الوجبات الرئيسية

  • تعمل RAG على تقليل معدلات هلوسة الذكاء الاصطناعي من 15-25% إلى أقل من 3% عن طريق ربط الاستجابات ببيانات الشركة التي تم التحقق منها
  • تعتمد جودة نظام RAG الخاص بك بنسبة 80% على استراتيجية إعداد البيانات واسترجاعها، و20% على LLM
  • استراتيجية التقسيم هي القرار الفني الأكثر تأثيرًا --- التقسيم صغير جدًا ويؤدي إلى فقدان السياق، والكبير جدًا يؤدي إلى إضعاف الصلة
  • يتطلب Enterprise RAG عناصر تحكم في الوصول تعكس أذونات المستند الموجودة لديك
  • تكلف تطبيقات RAG الحديثة ما بين 5 آلاف إلى 50 ألف دولار للنشر و500 إلى 2000 دولار شهريًا للتشغيل، اعتمادًا على حجم البيانات

كيف يعمل RAG

خط أنابيب RAG

  1. يطرح المستخدم سؤالاً --- "ما هي سياسة استرداد الأموال لعملاء المؤسسات؟"
  2. معالجة الاستعلام --- يقوم النظام بتحويل السؤال إلى استعلام بحث (غالبًا عبر التضمين)
  3. الاسترجاع --- يقوم النظام بالبحث في قاعدة المعرفة الخاصة بك واسترداد المستندات أو المقاطع الأكثر صلة
  4. تجميع السياق --- يتم دمج المقاطع المستردة مع السؤال الأصلي في رسالة مطالبة
  5. ** توليد LLM ** --- تقوم LLM بإنشاء إجابة باستخدام المعرفة العامة والسياق المسترجع
  6. استشهاد المصدر --- يتضمن الرد إشارات إلى المستندات المصدرية

RAG مقابل الضبط الدقيق مقابل الهندسة السريعة

النهجالأفضل لـالتكلفةسرعة التحديثدقة
خرقةأسئلة وأجوبة واقعية، وثائق، سياساتمتوسط ​​(5 آلاف - 50 ألف دولار)محضر (إعادة فهرسة)عالية (بحسن الاسترجاع)
ضبط دقيقتغييرات السلوك/النمط، مصطلحات المجالمرتفع (10 آلاف - 100 ألف +)أسابيع (إعادة التدريب)متوسطة (يمكن أن تهلوس)
الهندسة السريعةمهام بسيطة، أمثلة قليلةمنخفض (الوقت فقط)فورييختلف (سياق محدود)
RAG + الضبط الدقيقالدقة القصوى في المجالات المتخصصةعالية جدًايختلفالأعلى

بالنسبة لمعظم تطبيقات قاعدة المعرفة الخاصة بالمؤسسات، تقدم RAG وحدها ما يزيد عن 90% من القيمة مقابل جزء صغير من التكلفة.


بناء نظام RAG للمؤسسة

الخطوة 1: جرد مصدر البيانات

قم بتخطيط كل مصدر معرفة في مؤسستك:

نوع المصدرأمثلةالحجم النموذجيالتعقيد
مستندات منظمةإجراءات التشغيل الموحدة والسياسات والكتيبات100-1000 وثيقةمنخفض
وثائق المنتجأدلة المستخدم، مستندات API، ملاحظات الإصدار500-5000 صفحةمتوسطة
دعم قاعدة المعرفةمقالات الأسئلة الشائعة، أدلة استكشاف الأخطاء وإصلاحها200-2000 مقالةمنخفض
التقاء/ويكيالتوثيق الداخلي، مستندات المشروع1,000-10,000 صفحةمتوسطة
أرشيفات البريد الإلكترونياتصالات العملاء، المذكرات الداخلية10,000-100,000 بريد إلكترونيعالية
سجلات CRMملاحظات العملاء، سجلات المكالمات، سجل الصفقات5000-50000 سجلمتوسطة
بيانات تخطيط موارد المؤسساتمواصفات المنتج والتسعير ومستويات المخزونيختلف على نطاق واسعمتوسطة

الخطوة الثانية: إعداد البيانات

تنظيف المستندات. إزالة النموذج المعياري (رؤوس الصفحات، وتذييلاتها، والتنقل)، وإصلاح مشكلات التنسيق، وحل الروابط المعطلة، وتوحيد المصطلحات.

التقطيع. تقسيم المستندات إلى وحدات قابلة للاسترجاع. هذا هو القرار الأكثر أهمية:

استراتيجيةحجم القطعةالأفضل لـالايجابياتسلبيات
حجم ثابت256-512 الرموزوثائق بسيطةسهل التنفيذقد ينقسم منتصف الجملة
على أساس الفقرةمتغيرمستندات جيدة التنظيميحفظ السياقأحجام قطع متفاوتة
الدلاليةمتغيروثائق معقدةأفضل جودة استرجاعأكثر تعقيدا في التنفيذ
الهرميالوالد + الطفلالوثائق الفنيةيلتقط كل من التفاصيل والسياقيتطلب تصميمًا دقيقًا
نافذة منزلقةتداخلنص إعلامي كثيفيقلل من تأثيرات الحدودمساحة تخزين أكبر واسترجاع أبطأ

النهج الموصى به لمعظم قواعد المعرفة المؤسسية: التجزئة الدلالية بحجم مستهدف يتراوح بين 300-500 رمز مميز، مع الحفاظ على حدود الفقرة، مع تداخل 50 رمزًا مميزًا.

الخطوة 3: التضمين والفهرسة

تحويل أجزاء النص إلى تضمينات متجهة للبحث الدلالي:

نموذج التضمينالأبعادالجودةالسرعةالتكلفة
OpenAI text-embedding-3-large3,072ممتازسريع0.13 دولار/1 مليون رمز
OpenAI text-embedding-3-small1,536جيد جداًسريع جدًا0.02 دولار/1 مليون رمز
كوهير تضمين-v31,024جيد جداًسريع0.10 دولار/1 مليون رمز
رحلة منظمة العفو الدولية رحلة كبيرة-21,536ممتازسريع0.12 دولار/1 مليون رمز
BGE-كبير (مفتوح المصدر)1,024جيداستضافة ذاتيةمجاني (حساب التكلفة)

قواعد البيانات المتجهة للتخزين:

قاعدة بياناتأدارقابلية التوسعالأفضل لـ
كوز الصنوبرنعمممتازالشركات الناشئة في السوق المتوسطة
ويفييتكلاهماجيد جداًاحتياجات البحث الهجين
قدرانتكلاهماجيد جداًاستضافة ذاتية، واعية بالتكلفة
pgvector (PostgreSQL)الذاتجيدتستخدم بالفعل PostgreSQL
صفاءالذاتجيدالنماذج الأولية، مجموعات البيانات الصغيرة

بالنسبة للشركات التي تقوم بالفعل بتشغيل PostgreSQL (مثل مستخدمي Odoo)، توفر pgvector نقطة بداية بسيطة دون تقديم قاعدة بيانات جديدة.

الخطوة الرابعة: استراتيجية الاسترجاع

يسترد Basic RAG القطع الأكثر تشابهًا. يستخدم Advanced RAG إستراتيجيات متعددة:

** بحث مختلط. ** اجمع بين البحث الدلالي (المتجه) والبحث عن الكلمة الرئيسية (BM25). المعنى الدلالي يمسك. الكلمات الرئيسية تلتقط المصطلحات الدقيقة. استخدم دمجًا مرجحًا (عادةً 70% دلاليًا و30% كلمة رئيسية).

إعادة التصنيف. بعد الاسترداد الأولي، استخدم نموذج التشفير المتبادل لإعادة ترتيب النتائج من حيث صلتها بالموضوع. يؤدي هذا إلى تحسين الدقة بشكل كبير دون التأثير على سرعة الاسترجاع الأولية.

توسيع الاستعلام. استخدم LLM لإعادة صياغة استعلام المستخدم إلى استعلامات بحث متعددة، ثم قم بدمج النتائج. يلتقط عبارات مختلفة لنفس النية.

تصفية البيانات الوصفية. تصفية النتائج حسب نوع المستند أو القسم أو التاريخ أو مستوى الوصول قبل البحث الدلالي. يقلل من الضوضاء ويحترم ضوابط الوصول.


أنماط بنية RAG للمؤسسات

النموذج 1: مجموعة RAG الخاصة بالقسم

كل قسم لديه قاعدة معارف خاصة به وخط أنابيب RAG:

  • فريق الدعم: وثائق المنتج + الأسئلة الشائعة + سجل التذاكر
  • فريق المبيعات: مواصفات المنتج + التسعير + الذكاء التنافسي + دراسات الحالة
  • الفريق المالي: السياسات + الإجراءات + التوجيه التنظيمي

الإيجابيات: استرجاع مركز، تحكم أسهل في الوصول، فهارس أصغر. السلبيات: ازدواجية المعرفة بين الأقسام، ويجب الحفاظ على أنظمة متعددة.

النموذج 2: RAG المؤسسي الموحد

قاعدة معرفية واحدة تشمل جميع الأقسام مع ضوابط الوصول المستندة إلى الأدوار:

  • فهرس واحد، ومستويات وصول متعددة
  • توجيه الاستعلام بناءً على دور المستخدم وقصد الاستعلام
  • المعرفة عبر الأقسام متاحة عند الإذن

الإيجابيات: إجابات شاملة، بدون عزلة، نظام واحد. السلبيات: تحكم أكثر تعقيدًا في الوصول، وفهرس أكبر، وإمكانية استرجاع غير ذي صلة.

النموذج 3: RAG الموحد

تم الاستعلام عن فهارس متخصصة متعددة بالتوازي، وتم دمج النتائج:

  • يحتفظ كل قسم بفهرس خاص به
  • تحدد طبقة التوجيه الفهارس التي سيتم الاستعلام عنها
  • يتم دمج النتائج وإلغاء تكرارها وإعادة ترتيبها

الإيجابيات: استقلالية القسم، أفضل ما في العالمين. السلبيات: تزامن معقد، وزمن انتقال محتمل.

تنفيذ مؤسسة OpenClaw يدعم جميع الأنماط الثلاثة مع عناصر التحكم في الوصول المضمنة وموصلات مصدر البيانات.


قياس أداء RAG

المقاييس الرئيسية

متريالتعريفالهدف
دقة الاسترجاع% من القطع المستردة ذات الصلة>80%
استرجاع الاستدعاء% من القطع ذات الصلة التي تم استردادها>70%
دقة الإجابة% من الإجابات الصحيحة>95%
معدل الهلوسة% من المطالبات غير مدعومة بالسياق المسترجع<3%
إسناد المصدرنسبة الإجابات ذات الاستشهادات الصحيحة للمصادر>90%
الكمونالوقت من الاستعلام إلى الاستجابة<3 ثواني
رضا المستخدمتقييم المستخدم لجودة الإجابة>4.0/5.0

إطار التقييم

قم ببناء مجموعة بيانات تقييم مكونة من 200-500 زوج من الأسئلة والأجوبة تغطي ما يلي:

  • الأسئلة الشائعة (60%): إجابات متكررة وموثقة جيدًا
  • حالات الحافة (20%): أسئلة غير عادية، ومعلومات عبر مستندات متعددة
  • الحالات السلبية (10%): أسئلة يجب على النظام رفض الإجابة عليها
  • القفزات المتعددة (10%): أسئلة تتطلب معلومات من أكثر من مستندين

قم بإجراء هذا التقييم أسبوعيًا للتعرف على تراجعات الجودة.


مطبات RAG الشائعة

المأزق 1: التجزئة الضعيفة. تؤدي الأجزاء التي تقسم الفقرات في منتصف الجملة، أو تجمع بين أقسام غير مرتبطة، إلى استرجاع غير ذي صلة. استثمر الوقت في استراتيجية التقطيع.

المأزق 2: البيانات القديمة. إذا لم يتم تحديث قاعدة معارفك عند تغيير السياسات أو المنتجات، فسوف تقدم RAG المعلومات القديمة بثقة. تنفيذ خطوط أنابيب إعادة الفهرسة الآلية.

المأزق 3: تجاهل ضوابط الوصول. يجب ألا يحصل المتدرب على إجابات من المستندات المالية على مستوى مجلس الإدارة لمجرد أن التشابه الدلالي كبير. اعكس أذونات المستند الخاصة بك في نظام RAG الخاص بك.

المأزق 4: الإفراط في الاسترجاع. يؤدي حشو أجزاء كثيرة جدًا في الموجه إلى إرباك شهادة LLM وتخفيف المعلومات ذات الصلة. قم باسترجاع 3-5 أجزاء ذات صلة كبيرة، وليس 20 قطعة ذات صلة إلى حد ما.

المأزق 5: لا يوجد تقييم. بدون تقييم منهجي، لا يمكنك معرفة ما إذا كان نظام RAG الخاص بك يتحسن أم يتدهور. قم ببناء التقييم في النشر الخاص بك من اليوم الأول.


الأسئلة المتداولة

ما مقدار البيانات التي نحتاجها لـ RAG الفعال؟

تعمل RAG مع ما لا يقل عن 50-100 مستند جيد التنظيم. الجودة أهم من الكمية. إن قاعدة المعرفة النظيفة والمقسمة جيدًا المكونة من 500 مستند تتفوق على مجموعة فوضوية مكونة من 50000 مستند. ابدأ بالمحتوى الأكثر استفسارًا لديك (أهم الأسئلة الشائعة، والسياسات الأساسية، ومستندات المنتج الأساسية) وقم بالتوسيع من هناك.

هل يستطيع RAG التعامل مع البيانات في الوقت الفعلي مثل مستويات المخزون أو التسعير؟

تم تحسين RAG القياسي للمحتوى شبه الثابت (المستندات والسياسات). بالنسبة للبيانات في الوقت الفعلي، استخدم نهجًا مختلطًا: RAG للمحتوى المعرفي بالإضافة إلى استعلامات API المباشرة للبيانات المباشرة. يتعامل وكلاء الذكاء الاصطناعي (عبر OpenClaw) بشكل طبيعي مع هذا من خلال الجمع بين استرجاع RAG واستدعاءات الأدوات للأنظمة الحية مثل Odoo أو Shopify.

ما الفرق بين RAG ومحرك البحث التقليدي؟

يقوم محرك البحث بإرجاع المستندات. تقوم RAG بإرجاع الإجابات. محرك بحث بعنوان "ما هي سياسة استرداد الأموال لعملاء المؤسسات؟" إرجاع وثيقة السياسة الكاملة. تقرأ RAG تلك الوثيقة وتجيب: "يمكن لعملاء المؤسسات طلب استرداد كامل المبلغ خلال 30 يومًا من الشراء. وبعد 30 يومًا، يتوفر استرداد متناسب للعقود السنوية." مع رابط للمصدر.

كيف نتعامل مع قواعد المعرفة المؤسسية متعددة اللغات؟

تدعم نماذج التضمين الحديثة (OpenAI وCohere) عمليات التضمين متعددة اللغات محليًا --- يمكن للاستعلام الفرنسي استرداد المستندات الإنجليزية والعكس صحيح. للحصول على أفضل النتائج، قم بتضمين المستندات بلغتها الأصلية واترك LLM يتولى الترجمة في الرد. بالنسبة للتطبيقات الهامة، احتفظ بفهرسة منفصلة لكل لغة.


ابدأ في إنشاء نظام RAG لمؤسستك

RAG هو أساس الذكاء الاصطناعي للمؤسسات الذي يتميز بالدقة والجديرة بالثقة والمرتكز على المعرفة الفعلية لشركتك. يعد الاستثمار متواضعًا مقارنة بقيمة مساعدي الذكاء الاصطناعي الذين يمكنهم بالفعل الإجابة على الأسئلة المتعلقة بعملك.

E

بقلم

ECOSIRE Research and Development Team

بناء منتجات رقمية بمستوى المؤسسات في ECOSIRE. مشاركة رؤى حول تكاملات Odoo وأتمتة التجارة الإلكترونية وحلول الأعمال المدعومة بالذكاء الاصطناعي.

الدردشة على الواتساب