كيف Google BERT مقابل. تعمل خوارزميات سميث معًا - نظرة عامة على Semalt




أصدرت Google مؤخرًا ورقة بحثية حول خوارزمية البرمجة اللغوية العصبية الجديدة SMITH. لقد سلطت هذه الورقة الضوء على العديد من محترفي تحسين محركات البحث بشأن التغييرات التي قد تستدعي زيادة أو انخفاض ترتيب SERP. ومع ذلك ، فإن اهتمامنا هنا هو كيف تقارن خوارزمية SMITH الجديدة هذه بخوارزمية BERT؟

في الورقة التي نشرتها Google ، زعموا أن SMITH يتفوق على BERT في فهم استعلامات البحث الطويلة والوثائق الطويلة. ما يجعل SMITH مثيرًا للاهتمام هو أنه يمكنه فهم مقاطع داخل مستند مشابه لما يفعله BERT بالكلمات والجمل. تتيح هذه الميزة المحسّنة لـ SMITH فهم المستندات الأطول بسهولة.

ولكن قبل أن نذهب إلى أبعد من ذلك ، يجب أن نعلمك أنه اعتبارًا من الآن ، SMITH لا يعمل في خوارزميات Google. ولكن إذا كانت تكهناتنا صحيحة ، فسيتم إطلاقها جنبًا إلى جنب مع فهرسة الممر ، أو أنها ستسبقها. إذا كنت مهتمًا حقًا بتعلم كيفية الترتيب في SEP ، فمن المؤكد أن التعلم الآلي سوف يسير جنبًا إلى جنب مع هذا الاهتمام.

عودة إلى الموضوع ، هل BERT على وشك أن يتم استبداله؟ ألن يكون أداء معظم المستندات على الويب الضخمة والقوية وبالتالي الأطول أداءً أفضل مع SMITH؟

دعنا ننتقل إلى أبعد من ذلك ونرى ما توصلنا إليه. يمكن أن يقوم SMITH بمهمة قراءة المستندات القوية والرقيقة. فكر في الأمر مثل بازوكا. يمكن أن يسبب ضررًا كبيرًا لأنه يمكن أن يفتح أيضًا الأبواب.

لنبدأ ، لماذا BERT أو SMITH؟

السؤال الحقيقي هنا هو لماذا يتطلب محرك البحث معالجة التعلم الطبيعي لتقديم نتائج البحث. الجواب بسيط. تتطلب محركات البحث البرمجة اللغوية العصبية في انتقالها من سلاسل فهم محرك البحث أو الكلمات الرئيسية إلى الأشياء أو صفحات الويب.

عندما لا يكون لدى Google فكرة ، فما الذي يمكن أن يكون على الصفحة بخلاف الكلمات الرئيسية أو ما إذا كان المحتوى الذي تتم فهرسته منطقيًا فيما يتعلق باستعلام البحث. بفضل البرمجة اللغوية العصبية (NLP) ، يمكن لـ Google فهم سياق الأحرف المكتوبة في استعلام البحث الخاص بها.
بفضل البرمجة اللغوية العصبية ، يمكن لـ Google التمييز بين نوايا المستخدم عندما يقول "ضفة النهر" و "حساب مصرفي". ويمكنه أيضًا فهم عبارات مثل "التقت كارولين بأصدقائها لتناول مشروب ، ومشروب ، ونصف لتر ، وبيرة ، ومشروب" على أنها غير طبيعية.

بصفتنا خبراء في تحسين محركات البحث ، يجب أن نقول أن فهم استعلام البحث قد قطع شوطًا طويلاً. من الأفضل أن يعتقد أنه كان من الصعب للغاية العثور على المقالات الصحيحة على الإنترنت في الماضي.

فهم BERT

يعمل BERT حاليًا كأفضل نموذج في البرمجة اللغوية العصبية لدينا للعديد من التطبيقات ، إن لم يكن معظمها ، خاصة عندما يتعلق الأمر بفهم الهياكل اللغوية المعقدة. يعتبر الكثيرون أن الشخصية ثنائية الاتجاه الأولى هي أكبر قفزة إلى الأمام في هذه الخوارزمية. بدلاً من امتلاك خوارزمية تقرأ من اليسار إلى اليمين ، يمكن لـ BERT أيضًا فهم الكلمات فيما يتعلق بسياقها. بهذه الطريقة ، لن يعطي نتائج للكلمات الفردية الموضوعة في الاستعلام ولكن فهرسة صفحات الويب بناءً على المعنى الجماعي للكلمات في استعلام البحث.

إليك مثال لتسهيل فهمك:

ضوء الشاحنة.

إذا قمت بتفسير هذا البيان من اليسار إلى اليمين ، عند الوصول إلى كلمة "ضوء" ، يمكنك تصنيف الشاحنة على أنها شيء خفيف. ذلك لأن الشاحنة جاءت قبل النور في البيان.

لكن إذا أردنا تصنيف الأشياء على الشاحنات ، فقد نترك "خفيف" لأننا لا نصادفها قبل "شاحنة".

من الصعب النظر إلى البيان في اتجاه واحد فقط.

بالإضافة إلى ذلك ، يتمتع BERT أيضًا بميزة سرية أخرى تتمثل في كونه رائعًا للغاية ، ويسمح بمعالجة اللغة بفعالية بتكلفة أقل للموارد مقارنة بالنماذج السابقة. هذا بالفعل عامل مهم يجب مراعاته عندما يريد المرء تطبيقه على الويب بالكامل.

تطبيق الرموز هو تطور آخر رافق BERT. يوجد 30000 رمز مميز في BERT ، وكل واحد من هذه الرموز يمثل كلمة شائعة مع بعض الرموز المميزة الإضافية للأحرف والأجزاء في حالة وجود كلمة خارج 30000.

من خلال قدرتها على معالجة الرموز والمحولات ، فهمت BERT المحتوى ، مما أعطاها أيضًا القدرة على فهم الجمل بشكل مناسب.

لذلك إذا قلنا ، "ذهبت الشابة إلى الضفة. جلست لاحقًا على ضفة النهر وشاهدت تدفق النهر".

سيخصص BERT قيمًا مختلفة لتلك الجمل لأنها تشير إلى شيئين مختلفين.

فهم سميث

ثم تأتي بعد ذلك SMITH ، وهي خوارزمية ذات موارد وأرقام أفضل لاستخدامها في معالجة المستندات الأكبر حجمًا. يستخدم BERT حوالي 256 رمزًا مميزًا لكل مستند ، وعندما يتجاوز هذا الحد ، تصبح تكلفة الحوسبة عالية جدًا بالنسبة للوظيفة المثلى. في المقابل ، يمكن لـ SMITH معالجة ما يصل إلى 2248 رمزًا مميزًا لكل مستند. هذا حوالي 8 أضعاف عدد الرموز التي يستخدمها BERT.

لفهم سبب ارتفاع تكاليف الحوسبة في نموذج NLP واحد ، يجب علينا أولاً التفكير في ما يلزم لفهم جملة وفقرة. عند التعامل مع جملة ، لا يوجد سوى مفهوم عام واحد لفهمه. هناك عدد أقل من الكلمات التي تتعلق ببعضها البعض ، وبالتالي هناك روابط أقل بين الكلمات والأفكار التي تحملها في الذاكرة.

من خلال تحويل الجمل إلى فقرات ، يتم مضاعفة العلاقة بين هذه الكلمات بشكل كبير. ستتطلب عمليات 8X النص عدة مرات في السرعة وسعة تحسين الذاكرة باستخدام نفس النموذج. هذا هو المكان الذي تحدث فيه SMITH كل الفرق من خلال التجميع والقيام بالكثير من المعالجة دون اتصال بالإنترنت. ومن المثير للاهتمام أن SMITH لا تزال تعتمد على BERT لتعمل بشكل صحيح.

فيما يلي وصف لكيفية أخذ SMITH للوثيقة في جوهرها:
  1. يقوم أولاً بتقسيم المستند إلى أحجام تجميع يسهل إدارتها.
  2. ثم يقوم بمعالجة كل كتلة من الجمل على حدة.
  3. يتعلم المحول بعد ذلك تمثيلًا سياقيًا لكل كتلة ، وبعد ذلك يقوم بتحويلها إلى تمثيل مستند.

كيف يعمل سميث؟

لتدريب نموذج SMITH ، نتعلم من BERT بطريقتين:

لتدريب BERT ، يتم أخذ كلمة من الجملة ، وسيتم توفير خيارات بديلة

إن BERT ، الذي يتم تدريبه بشكل أفضل ، هو الذي سيكون أكثر نجاحًا في اختيار الخيار الصحيح من البدائل المتوفرة. على سبيل المثال ، إذا تم إعطاء BERT الجملة:

قفز ------ البني السعيد فوق سياج الاعتصام.
  • الخيار الأول - الطماطم.
  • الخيار الثاني - الكلب.
كلما كان BERT أفضل تدريبًا ، كانت فرصه في اختيار الخيار الصحيح أفضل ، وهو الخيار الثاني.

يتم تطبيق طريقة التدريب هذه أيضًا في SMITH أيضًا.

تم تدريب سميث على المستندات الكبيرة

كلما كان SMITH أفضل تدريبًا ، كانت فرصه في التعرف على الجمل المحذوفة أفضل. إنها نفس الفكرة مع BERT ولكن تطبيق مختلف. هذا الجزء مثير للاهتمام بشكل خاص لأنه يرسم العالم بمحتويات تم إنشاؤها بواسطة Google مجمعة معًا في صفحات نتائج محرك البحث المثبتة على الحائط. بالطبع ، يمكن للمستخدمين المغادرة ، لكنهم لن يفعلوا ذلك لأن Google يمكنها تجميع محتوى قصير وطويل من جميع أفضل المصادر في صفحة النتائج الخاصة به.

إذا كنت تشك في حدوث ذلك ، فيجب أن تعلم أنه قد بدأ بالفعل ، وعلى الرغم من أنهم لم يتقنوه بعد ، فهذه بداية.

هل سميث أفضل من بيرت؟

مع كل ما قرأته ، من الطبيعي تمامًا أن نفترض أن SMITH أفضل ، وفي العديد من المهام ، يكون أفضل حقًا. لكن فكر في كيفية استخدامك للإنترنت للحظة ؛ ما هي الأسئلة التي تدخلها بانتظام في استعلامات البحث؟
  • "ما هي توقعات الطقس لهذا اليوم؟"
  • "الاتجاهات إلى مطعم".
عادةً ما تتطلب الإجابة على استعلامات البحث هذه محتوى قصيرًا ، غالبًا ببيانات محدودة وغير معقدة. SMITH أكثر انخراطًا في فهم المستندات الأطول والأكثر تعقيدًا واستعلامات البحث الطويلة والمعقدة.

سيتضمن ذلك تجميع العديد من المستندات والموضوعات معًا لإنشاء إجاباتها. إنه يحدد كيفية تقسيم المحتوى ، مما يمكّن Google من معرفة الشيء الصحيح لعرضه. سيساعد Google على فهم كيفية ارتباط صفحات المحتوى ببعضها البعض ، ويوفر مقياسًا يمكن من خلاله تقييم الروابط من بين الفوائد الأخرى.

مع ما يقال ، نختتم بالقول إن كلا من BERT و SMITH مهمان ، وكلاهما يخدم غرضهما الفريد.

استنتاج

في حين أن SMITH هي البازوكا ، فنحن بحاجة إليها لرسم صورة واضحة لكيفية سير الأمور بشكل جماعي. في الموارد ، يكلف أكثر لأنه يقوم بعمل أكبر ، لكنه يكلف أقل بكثير من BERT عند القيام بنفس الوظيفة.

تساعد BERT SMITH في مساعدتها على فهم الاستعلامات القصيرة ومقاطع المحتوى الصغيرة. هذا ، مع ذلك ، حتى تطور Google خوارزمية NLP أخرى ستحل محل كليهما ، وبعد ذلك سوف نتحرك ونلحق بالتقدم الآخر في تحسين محركات البحث.

المهتمة في تحسين محركات البحث؟ تحقق من مقالاتنا الأخرى على مدونة سيمالت.

mass gmail