مقدمة في تقنيات الملخص الاستخراجي والاستدراكي

المقدمة

في العلوم الdatascience وخاصة في معالجة اللغة الطبيعية، توحيد المعلومات هو وداعاً ودائماً موضوع يحمل الإعجاب الكبير. بينما يوجد طرق توحيد النصوص منذ وقت طويل، لكن السنوات الأخيرة شهدت تطورات كبيرة في المعالجة الطبيعية لللغة والتعلم العميق. وهناك تصدر كثير من المقالات المنشورة حول هذا الموضوع من قبل عوامل الإنترنت الكبيرة، مثل المقالة الأخيرة ChatGPT. بينما يجري عمل كبير حول هذا الموضوع البحثي، يوجد قليل جداً من المنشور المتعلق بتطبيقات التوحيد المودعة بالتعلم ال artificial. الصعوبة في تحليل المقولات الواسعة النطاق والتي تنطوي على تعبير عن أمور متنوعة (تكنولوجيا، رياضة، الماليات، السفر، وما إلى ذلك).

توحيد مقال صحفي وتوحيد تقرير مالي للأرباح هوما مهام مختلفتين. عند التعامل مع خصائص النصوص التي تختلف في الطول أوالموضوع التي تختلف (تكنولوجيا، رياضة، الماليات، السفر، وما إلى ذلك), يصبح التوحيد مهمة من العلوم الداتا صعبة. من الضروري إغماء بعض الأساسات في التوحيد النظرية قبل البدء في نظرة عامة على التطبيقات.

التوحيد الاستخراجي

تتطلب عملية توليد الخلاصات الاستخراجية إختيار الجمل الأكثر توافرًا من المقالة وتنظمها بشكل سistematي. تتم اخذ الجمل التي تترك في المختصر بالنص المصدري بالكلمة.
تحمل أنظمة التوليد الاستخراجي للخلاصات ثلاث عمليات أساسية حاليًا:

إنشاء تمثال في النص المدخل

تمثال المواضيع وتمثال المؤشرات مثالين لأساليب يعتمدون على التمثال. لفهم الموضوعات المذكورة في النص، يتم تحويل النص إلى تمثال في المعنى الوسط.

تقييم الجمل وفقًا للتمثال

في الوقت الذي يتم إنشاء التمثال الفي المعنى الوسط، يتم تخصيص جملة بنجمة أهمية. عند استخدام طريقة تعتمد على تمثال المواضيع، تمثل نجمة الجملة كم تكون فعالة في توضيح المفاهيم الرئيسية في النص. في تمثال المؤشرات، يتم حساب النجمة من تجميع الأدلة من المؤشرات الموزعة ومن الأجهزة الموزعة.

انتخاب تواصل تشمل عدد قليل من الجمل

لإنشاء تواصل، يقوم برنامج التواصل التلخيصي باختيار الجمل الأعلى عدد k. على سبيل المثال، يستخدم بعض الأساليب خيارات التلخيص الجائعة للتعرف والإختيار من بين الجمل التي تمثل المعنى الأكثر تعقيدًا والأخرى قد تحول تحديد الجمل إلى مشكلة تحسين حيث يتم إختيار مجموعة من الجمل بشرط أنها تحقيق الأهمية العامة والترابط بينها بشكل كبير بينما تقلل من كمية المعلومات التي تكرر.

دعونا نغوص أعمق في الطرق التي ذكرناها:

طرق التمثيل للمواضيع

كلمات الموضوع: بواسطة هذه الطريقة، يمكنك إيجاد الأوراق المتعلقة بالموضوع في المستند الدخولي. يمكن حساب أهمية الجملة بطريقتين: أولًا، كما وكالة العدد الذي يشمله جملة التواصل التي تحتوي على توقيعات الموضوع؛ ثانًا، كجزء من التوقيعات التي تحتوي عليها الجملة. بينما يعطي الطريقة الأولى أعلى أيجادات للجمل الأطولة والتي تحتوي على كلمات أكثر، تقيس الطريقة الثانية كثافة كلمات الموضوع.

المنهجيات القائمة على التوافر الموجي: من خلال هذه الطريقة، يتم تخصيص الكلمات بالأهمية النسبية. إذا كان المصطلح متوافقًا مع الموضوع، فإنه يحصل على نقطة واحدة؛ إلا إذا كان بعيدًا عن الموضوع، فيصبح صفرًا. وفي حسب كيفية تنفيذها، قد يكون الوزنات متواصلة. يمكن تمثيل المواضيع بواسطة أحد الطرق المناسبتين:

المعتادية للكلمات: تأخذ مجرد معدل توافر الكلمة لتعرف أهميتها. لحساب معدل محتملية للكلمة w، نقسم معدل ظهور الكلمة f (w) بالنسبة لعدد الكلمات الكامل N.

مصدر

تعني أهمية متوسطة لكلمات الجملة تمنح أهمية الجملة عند استخدام معدلات الكلمات.

TFIDF (تعدل التعريف المقارن بعدد المستندات المعاملة). هذه الطريقة تحسين على معدلات الكلمات الأولية. فيها يتم تحديد الوزنات باستخدام نهج TF-IDF. تقنية TFIDF (تعدل التعريف المقارن بعدد المستندات المعاملة) تؤثر بتأخير على العبارات التي تظهر في أغلب المستندات. يحسب وزن كلمة w في المستند d بالتالي:

مصدر

حيث fd (w) هي تعدل ظهور الكلمة w في المستند d،
fD (w) هو عدد المستندات التي تحتوي على الكلمة w، و |D| هو عدد المستندات في مجموعة D.

تحليل المعاني الفرعية: تحليل المعاني الفرعية (LSA) هو طريقة غير مراقبة لاستخراج تمثيل للمعاني الناتجة عن الكلمات المراودة. بدأت عملية LSA ببناء مصادر الكلمات والجمل (n بجملة m), حيث كل سطر يمثل كلمة من الدخول (n-كلمات), وكل عمود يمثل جملة (m جملة). في المصادر، يتم تعريف وزن كلمة i في الجملة j من خلال المدخل aij. ووفقاً لتقنية TFIDF، يتم تعطيل موزع لكل كلمة في الجملة، حيث يتم تخصيص صفر للمصطلحات التي لا تشمل الجملة.

طرق التمثيل المؤشري

طرق التمثيل الخريطية

تقنيات الجيدات التي تُبدي بتأثير الخوارزمية PageRank، تمثل المستندات كشبكة متصلة. يتم بناء الشبكة من أعمارها، وتترابط الجيدات التي تربط العبارات بينها توضح الدرجة التي تتصل بها جيدين مع بعضهما الآخر. وتستخدم طريقة واحدة فيما يتعلق بربط جيدين هي تقييم درجة تشابه الجيدين، وإذا كانت درجة تشابههما أكبر من تحديد معين يتم ربط الجيدين. ويمكن نتائج متعددة من هذه التمثيل الجيدي. أولاً، توزيعات الشبكة (الجيدات الفرعية) تحدد تصنيفات المعلومات المتعددة التي يغطيها المستندات. ثانياً، تبرز جيدي المستند الرئيسية. وتترابط الجيدين المرتبطة بعدة جيدين آخرين في التوزيع قد تكون مركز الشبكة ومن المرجح أنها ستشمل في التوصيف. يمكن للتوصيف الواحد والمتعدد المستندين أن يستفيد من استخدام التقنيات القائمة على الجيدات التي تقوم بها المعلومات الجيدي.

التعلم الآلي

تعلم الآلي يرأس مشكلة التوصيف كتحدي تصنيف. تحاول النماذج تصنيف الجيدين إلى تصنيفات وجيد/غير وجيد وفقاً لخصائصها. لدينا مجموعة تدريبية تكون من المستندات والتوصيفات المنسقة من البشر والتي نحن نعمل بها تدريب خوارزمياتنا. ويتم عمل هذا غالباً باستخدام البايه بيرز، شجرة القرار، أو آلة التوفير التي تحمل الدعم.

توصيف اختصاري

في مقابل التوصيف الاستخراجي، يعتبر توصيف المواد الاختصاري طريقة أكثر فاعلية. قدرة التوصيف الاختصاري على إنشاء جمل فريدة تتميز بالمعلومات الرئيسية من المصادر النصية ساهم في تعزيز هذا الشعب الناشئ.
يقدم التوصيف الاختصاري توصيفاً منطقياً ومنظماً جيداً وبشكل جميل. يمكن تحسين جودة التوصيف بجعله أكثر قابلية للقراءة أو بتحسين جودة اللغة التي يتم بناءها. (شامل الصورة).
وهناك طريقتان: الطريقة المبنية على التكوين والطريقة القائمة على المعاني.

الطريقة المبنية على التكوين

في الطريقة المبنية على التكوين الأول، يتم تسمية أهم المعلومات من المستند(ت) باستخدام نماذج خصائص عقلية مثل القالب، قواعد الاستخراج، والتكوينات البديلة، بما في ذلك التكوين الشجري، المعنى الشخصي، الجزء الرئيسي والجزء التفاصيلي، القواعد، والتكوينات العقدية. سنقوم بقراءة عن بعض أشكال التكوينات التي تتراكم في هذه الاستراتيجية.

مصدر

أساليب مبنية على الأشجار

في هذه الطريقة، تمثل المحتويات من مواد الوثيقة كشجرة من الترابط. يمكن إنجاز إختيار المحتويات للمحتويات التحديدية بواسطة ما يلي تقنيات أخرى، مثل برنامج توافق المواضيع أو الذي يستخدم توافق الترجمة الأصلية عبر الجمل التي تم تجزئتها. هذا المقاربة يستخدم ما يلي مولد اللغة أو خوارزميات مرتبطة بالشهادة لإنشاء المحتويات التحديدية. في هذه الوثيقة، يقدم المؤلفون طريقة لتراكم الجمل تستخدم توافق الجمل المحلي التي تبحث عن العبارات المشتركة للمعلومات. تستخدم أنظمة توحيد الجينات تقنية تدعى تراكم الجمل.

في هذه الطريقة، يستخدم مجموعة من الوثائق كمعايير الدخول، يتم معالجتها بواسطة خوارزمية اختيار الموضوع لاستخراج الموضوع الرئيسي، ومن ثم يستخدم خوارزمية التجميع لترتيب العبارات وفقاً للأهمية. بعد ترتيب الجمل، يتم تركيبها بواسطة تراكم الجمل، ويتم إنشاء توصيف إحصائي. الطريقة المنظمة تتمكن من ترميز أهم البيانات من الوثيقة (الوثائق) بواسطة النماذج العاطفية مثل القالب، القوانين الاستخراجية، والأنظمة البديلة مثل الشجرة، التوافق التعريفي، الرأس والجسم، قاعدة، وهياكل الشكل التقني.

مصدر

أساليب قائمة على نموذج

يستخدم مجال في هذه الطريقة لممثلة المستند بأكمله. يمكن المقارنة بأنماط اللغة أو المعايير التي تساعد في تحديد القطع النصية التي يمكن ربطها بمحاذات المجال. تلك القطع النصية تشمل مؤشرات وحدات المحتويات الخارجية للنموذج. وهذا الورقةأقترح طريقتان للتوصيف (التوصيف الواحد والمتعدد الوثائقي) للوثائق. وتتبعون طرق التوصيف التي يوصفها GISTEXTER لإنشاء الأوصاف والنصوص التفصيلية من الوثائق.

تم تنفيذ GISTEXTER للاستخراج المعلوماتي، وهي نظام توصيف يكتشف المعلومات المتعلقة بالموضوع في النص المدخل ويحولها إلى أدخالات في القاعدة البيانات؛ ويتم إضافة الجمل إلى التوصيف وفقاً لل solicitudes المتعلقة بالمستخدم.

مصدر

أساليب قائمة على الوثيقة

لقد حاول العديد من الباحثين تحسين فعالية الملخصات باستخدام الأنطولوجيا (قاعدة المعرفة). تحتوي معظم مستندات الإنترنت على نطاق مشترك، مما يعني أنها تتعامل جميعها مع نفس الموضوع العام. تُعد الأنطولوجيا تمثيلاً قوياً للبنية المعلوماتية الفريدة لكل نطاق. يقترح هذا البحث استخدام الأنطولوجيا الضبابية، التي تُنمذج عدم اليقين وتصف معرفة النطاق بدقة، لتلخيص الأخبار الصينية. في هذه الطريقة، يقوم خبراء النطاق أولاً بتعريف الأنطولوجيا للنطاق لأحداث الأخبار، ثم تُستخرج الكلمات الدلالية من مجموعة الأخبار ومعجم الأخبار الصينية في مرحلة إعداد المستندات.

طريقة الجملة التمهيدية والجسم

يتضمن هذا النهج إعادة كتابة الجملة التمهيدية بإجراء عمليات على العبارات (الإدراج والاستبدال) بنفس الجزء النحوي الرئيسي في المقدمة وجسم الجملة. باستخدام التحليل النحوي لأجزاء العبارة، اقترح تاناكا تقنية لتلخيص الأخبار الإذاعية. تُستخدم طرق دمج الجمل لاستنتاج أساس هذا المفهوم.

تلخيص بث الأخبار يتطلب وضع عناوين الخبر وجزء الجسم الجوهري ومن ثم تحريك وتبديل تلك العناوين لتوليد التلخيص من خلال تحرير الجمل. أولاً، يتم تطبيق محرر سينتاكيدي على العناوين الرئيسية والجزء الجسم. ومن ثم، يتم تحديد أزواج البحث الترمزي، وأخيرًا، توافق العبارات بواسطة مجموعة متنوعة من المعايير المتشابهة والتوافق. والمرحلة الأخيرة قد تكون توليد أو تبديل أو كلاهما معاً.

تلخيص العبارات يتطلب إختيار النقطة المتوازية، تحقيق لمعايير التكرار، وتأكد من توافق النص داخل الحوار لضمان الترابط وإلimination التكرار. وخطوة التبديل توفر معلومات أكبر بتبديل عبارة الجزء الجسم في العناوين الرئيسية.

طريقة قائمة على القوانين

في هذه التقنية، يمثل الوثائق التي يتم تلخيصها بالصفات وقائمة عن الجوانب. والموديل المحتوية يختار وصف الفرد الأكثر فاعلية من ما يولده قوانين الاستخراج البياني لإجابة عن واحد أو أكثر من الجوانب لفئة. وأخيرًا، يستخدم الأنماط التوليدية لتوليد الجمل الخاصة بالنظام.

لتحديد الأسماء والفعاليات المتعلقة بالمعنى، قام Pierre-Etienne والآخرون بتقديم مجموعة من المعايير للاستخراج المعلومات. بمجرد استخراج البيانات، يتم إرسالها إلى خطوة اختيار المحتويات التي تبذل جهد في تصفية مرشحين متكاملين. وهي تستخدم للهيكل الجملي والكلمات في نموذج توليد direct. بعد التوليد، يتم إجراء التوحد التوجيهي بالمحتويات.

الطرق المبنية على الرسم البياني

معظم الباحثين يستخدمون بنية الشبكة لتمثيل الوثائق اللغوية. وتعد الشبكات خيار محبوب لتمثيل الوثائق في مجتمع دراسات اللغة. كل نقطة في النظام تمثل وحدة كلمة وهي تتميز بواسطة أوعية توجيهية بشكل مباشر ببنية الجملة. ولتحسين أداء تلخيص Dingding Wang والأخرون قدموا نظم التلخيص المتعدد المصنفات التي تستخدم مجموعة واسعة من الاستراتيجيات مثل طريقة مركز الجسم، والطريقة المبنية على الشبكة، وما إلى ذلك، لتقييم أساسيات مختلفة مثل المعدل المتوسط، والمراكز المتوسط، عدد بوردا، تجميع المعدلات، وما إلى ذلك. تم تطوير تقنية التوافق الوزني الفريدة لجمع نتائج الاستراتيجيات المختلفة للتلخيص. في نهج يعتمد على المعاني، يستخدم توضيح الوثيقة اللغوي أو الوثائق اللغوية للتغذية للنظام التي يتم بها إنتاج اللغة الطبيعية (NLG). هذه التقنية تتخصص في تحديد الجمل الفاعلة والفاعلة من البيانات اللغوية.

النهج المبني على المعاني

تطبيقات تعتمد على توضيح الوثيقة اللغوي للتغذية للنظام التي يتم بها إنتاج اللغة الطبيعية (NLG). وهذه التقنية تعالج البيانات اللغوية لتحديد الجمل الفاعلة والفاعلة.

مصدر

  • نموذج متعدد الوسائط السميتي: في هذه الطريقة، يتم إنشاء نموذج لغوي يلتقط مفاهيم وعلاقات بين الأفكار ليصف المحتويات في المستندات المتعددة الوسائط مثل النصوص والصور. يتم تقييم الأفكار الرئيسية بواسطة عدة معايير، ومن ثم يتم تعبير المفاهيم المختارة بالجملات لتكوين الخلاصة.
  • طريقة العنصر المعلوماتي: في هذه المقاربة، بدلاً من استخدام الجمل من المواد المقدمة، يتم استخدام تمثيل توحيدي لهذه المواد لتوليد محتويات الخلاصة. التوحيد المعلوماتي هو العنصر الأصغر في المعلومات المتماسكة في النص.

  • نموذج الشبكة السميتية: يهدف هذه التقنية إلى توليد خلاصة للمستند ببناء شبكة المعاني الغنية (RSG) للمستند الأولي، ثم تقليل الشبكة اللغوية المنشأة وإنتاج الخلاصة التعايشية النهائية من الشبكة اللغوية المختلفة.

مصدر

خلال مودول الشبكة المعاني الغنية الراكدة، تم تطبيق مجموعة من القوانين الهيدروستاتية على الشبكة المعاني الغنية المنشأة لتقليلها من خلال تراكم، حذف أو تحاليل نقاط الشبكة.

  • نموذج تمثيل النص السميتي: يتم تحليل النص المدخل باستخدام المعاني اللغوية للكلمات بدلاً من الترميز/البنية اللغوية للنص.

دراسات حالة في الأعمال

  • برمجة اللغة الحاسوبية: وجدت مساعي عديدة لتطوير التكنولوجيا الذكية القادرة على كتابة الشروط وتطوير المواقع الإلكترونية ب autonomy. في المستقبل، قد يتمكن المبرمجون من التثبيت على ال “مختصرات الشروطية” المتخصصة لتسرير الأساسيات من المشاريع الجديدة.
  • مساعدة الأشخاص المعاقين من الجهاز الحسوس: قد يجد المساعدة المختصرة تساعدهم بشكل أفضل في تتبع المحتويات مع تطور تقنية التحرير الصوتي إلى النص.
  • المؤتمرات وجميع المجالات الأخرى للجلسات الفيديو: ومع توسع العمل عن بعد، يتطلب معظم الأفكار الرئيسية والمحتويات التي تأتي من التفاعلات تسجيلًا. سيكون رائعًا لو أن قاعدة معارفك يمكن توصيفها بواسطة طريقة التحرير الصوتي إلى النص.
  • البحث في البرامج البحثية: قد تكون البحث في معلومات البرامج المتعلقة بالبحث الزمني من المرة. قد ينقلك المختصرات البحثية للبرامج من الوقت سواء كنت تقوم ببحث أعمال السوق أو تجهيز تسجيل برامج جديدة.
  • الكتب والأدب: المختصرات مفيدة لأنها تعطي القارئين تجربة خلاصة عن المحتويات التي يمكن أن يتوقعوا منها في كتاب قبل أن يتخذوا قرار شراءه.
  • تسويق عبر المواقع الاجتماعية: قد تستخدم المنظمات التي تنشر الوثائق البيانية والكتب الإلكترونية والمدونات الشركية تلك المختصرات لجعل عم
  • بحث اقتصادي: تستثمر مجال بنك المشاركات في جمع البيانات للاستخدام في إتخاذ القرارات، مثل التمويل الحالي للتجارة بالموارد الالكترونية. يصبح أي محلل مالي يقضي جميع أيامه في مراجعة البيانات التجارية والأخبار سيصل في النهاية إلى تحمل المعلومات الزائد. قد يستفيد الوثائق المالية، مثل التقارير المالية السنوية والأخبار المالية، من أجهزة توحيد تسمح للمحللين باستخراج الإشارات التجارية من المحتويات بسرعة.
  • ترويج أعمالك باستخدام التحسين في المحركات البحثية: تحتاجت تقييمات تحسين المحركات البحثية (SEO) للمعرفة تامة بمواضيع المواضيع التي يتم دراستها في محتويات منافسيك. وهي من المهم جدا بالاعتبار من تغييرات خوارزمية جوجل الأخيرة والتركيز المتبادل بموضوع السلطة التعليمية. تمكين رائدة في توصيف عدة وثائق بسرعة وتحديد المشتركات وبحث عن المعلومات الحيوية قد يكون أداة بحث قوية.

نهاية

على الرغم من أن التوحيد الاستنادي أقل موثوقية من الطرق الاستنزافية، لكنه يحمل وعدة أمنيات أكثر إمكانية لإنتاج التوحيدات التي تتوافق مع كيفية كتابة البشر من الوصف. ولهذا يمكن أن يظهر في هذا المجال عدة تقنيات جديدة في الحوسبة العالية، المعرفية، واللغوية.

المراجعات

Source:
https://www.digitalocean.com/community/tutorials/extractive-and-abstractive-summarization-techniques