Semalt: دليل تجريف HTML - أهم النصائح

غالبًا ما يكون محتوى الويب بتنسيقات منظمة أو HTML. يتم تنظيم كل صفحة بطريقتها الفريدة اعتمادًا على نوع المحتوى الموجود بها. إذا أراد شخص ما استخراج معلومات الويب ، فإن كل شخص يرغب في الحصول على البيانات بطريقة منظمة ومنظمة بشكل جيد. سيساعد هذا في توفير الوقت المطلوب لمراجعة وتحليل وتنظيم المستند قبل مشاركته. ومع ذلك ، فإن الحصول على التنسيق المنظم ليس سهلاً لأن معظم مواقع الويب لا تقدم هذا الخيار لمنع الأشخاص من استخراج كميات كبيرة من البيانات. ومع ذلك ، توفر بعض المواقع واجهات برمجة التطبيقات التي توفر للأشخاص خيار استخراج المعلومات في عملية سريعة وسهلة.

في مثل هذه الأحداث ، لن يكون أمامك خيار سوى استخدام مساعدة برمجة برمجية تُعرف باسم الكشط. وهو نهج يستخدم برنامج كمبيوتر يساعد المستخدمين على جمع المعلومات بتنسيق مفيد والحفاظ على بنية البيانات.

Lxml والطلب

هذه مكتبة كشط واسعة النطاق تساعد في تحليل وتقييم XML و HTML بسرعة وتساعد في توفير الوقت. كما أنه مفيد في التعامل مع العلامات الخاطئة في عملية التحليل. في هذا الإجراء ، يمكنك استخدام طلبات Lxml بدلاً من urllib2 المدمج لأنه أسرع ، وقوي ومتاح بسهولة. من السهل تثبيته باستخدام تثبيت تثبيت Lxml وطلبات تثبيت النقطة.

لقص HTML اتبع هذه الخطوات

ابدأ بالاستيراد - هنا تستورد HTML من Lxml ، ثم تستورد الطلب. استخدم الطلب ثم تتبع صفحة الويب التي تحتوي على البيانات التي ترغب في استخراجها ، وقم بتحليلها بواسطة وحدة HTML ثم احفظ البيانات التي تم تحليلها في الشجرة.

ستحتاج إلى استخدام محتوى الصفحة بدلاً من النص حيث تتوقع HTML تلقي الإدخال بالبايت. الشجرة ، حيث قمت بتخزين البيانات التي تم تحليلها تحتوي الآن على مستند HTML في بنية شجرة. يمكنك مراجعة هيكل الشجرة في مناهج مختلفة ، XPath و CSSelect.

يساعدك XPath على استرداد المعلومات أو الحصول عليها بتنسيق منظم مثل HTML أو XML. هناك العديد من الطرق التي يمكنك من خلالها الحصول على عناصر XPath. وتشمل هذه Firebug لمتصفح Firefox أو Chrome Inspector. عند استخدام Chrome ، يكون فحص المعلومات أمرًا سهلاً حيث تحتاج فقط إلى "النقر بزر الماوس الأيمن" على العنصر الذي يتطلب الفحص ، وتحديد "فحص العنصر" ، وتمييز الرمز المقدم ثم النقر بزر الماوس الأيمن وتحديد نسخ XPath. ستساعدك هذه العملية على معرفة العناصر الموجودة في صفحتك ومن هناك ، من السهل إنشاء استعلام XPath الصحيح وتطبيق Lxml XPath بشكل صحيح.

يضمن اتباع هذه الخطوات أنك قمت بحذف جميع البيانات التي تريد استخراجها من صفحة ويب معينة باستخدام Lxml والطلبات. سيكون لديك المعلومات المخزنة في ذاكرة قائمة اثنين ، وهي الآن جاهزة للفرز. يمكنك تحليلها باستخدام لغة برمجة مثل Python أو حفظها ومشاركتها. قد ترغب أيضًا في إعادة كتابة أو تحرير بعض أجزاء المعلومات قبل مشاركتها.

mass gmail