در چند سال گذشته پیشرفت های چشمگیری در دامنه scraping وب وجود داشته است.


ضبط وب به عنوان ابزاری برای جمع آوری استفاده می شود & تجزیه و تحلیل داده ها در سراسر وب. برای پشتیبانی از این فرآیند ، چهارچوبهای متعددی وجود داشته اند که نیازهای مختلفی را برای موارد مختلف استفاده برآورده می کنند.

بیایید نگاهی به برخی از چارچوب های معروف scraping وب بیاندازیم.

موارد زیر راه حل خود میزبانی است ، بنابراین باید خود را نصب و پیکربندی کنید. شما می توانید این پست را برای راه حل scraping مبتنی بر ابر بررسی کنید.

تراشیدن

چارچوب scraping وب Scrapy

تراشیدن یک چارچوب مشترک مبتنی بر پایتون است. این مجموعه کاملی از کتابخانه ها را ارائه می دهد. کاملاً ناهمزمان که می تواند درخواست ها را بپذیرد و آنها را سریعتر پردازش کند.

برخی از مزایای استفاده از Scrapy شامل موارد زیر است:

  • عملکرد عالی
  • استفاده بهینه از حافظه
  • کاملاً مشابه چارچوب جنگو
  • در الگوریتم مقایسه آن کارآمد است
  • کارکردهای آسان با پشتیبانی از انتخابهای جامع
  • چارچوب به راحتی قابل تنظیم با اضافه کردن وسایل نقلیه و یا خط لوله سفارشی برای ویژگی های سفارشی
  • قابل حمل
  • محیط ابری خود را برای اجرای عملیات با منابع فشرده فراهم می کند

اگر در مورد یادگیری Scrapy جدی هستید ، من این را به شما ارجاع می دهم دوره.

مکانیک سوپ

چارچوب scraping وب مکانیکی

مکانیک سوپ می تواند رفتارهای انسانی را در صفحات وب شبیه سازی کند. این است که در یک کتابخانه تجزیه وب BeautifulSoup است که در سایت های ساده کارآمد است.

فواید

  • کتابخانه مرتب با کد بسیار کمتر از کد
  • سریع وقتی می بینید که صفحات ساده تر تجزیه می شوند
  • توانایی شبیه سازی رفتار انسان
  • پشتیبانی از CSS & انتخابگر XPath

MechanSoup هنگام تلاش برای شبیه سازی اقدامات انسانی مانند انتظار برای یک رویداد خاص یا کلیک بر روی موارد خاص برای باز کردن یک پنجره به جای فقط کپی کردن داده ها ، مفید است.

جون

جون امکاناتی مانند ضبط خودکار ، پرس و جو داده های مبتنی بر JSON و یک مرورگر فوق العاده فوق العاده سبک. این پشتیبانی از ردیابی هر درخواست / پاسخ HTTP در حال اجرا است.

مزایای قابل توجه استفاده از Jaunt شامل موارد زیر است:

  • یک چارچوب سازمان یافته برای تأمین نیازهای شما در زمینه scraping وب
  • به جستجوی داده های مبتنی بر JSON از صفحات وب اجازه می دهد
  • ضایعات را از طریق فرم ها و جداول پشتیبانی می کند
  • امکان کنترل درخواست HTTP و پاسخ را می دهد
  • رابط کاربری آسان با API های REST
  • پشتیبانی از پروکسی HTTP / HTTPS
  • پشتیبانی از زنجیره جستجو در ناوبری HTML DOM ، جستجوی مبتنی بر Regex ، احراز هویت اساسی

یک نکته قابل توجه در مورد Jaunt این است که API مرورگر آن از وب سایتهای مبتنی بر Javascript پشتیبانی نمی کند. این با استفاده از Jauntium حل خواهد شد که در ادامه مورد بحث قرار خواهد گرفت.

Jauntium

Jauntium نسخه پیشرفته ای از چارچوب Jaunt است. این نه تنها اشکالات موجود در Jaunt را برطرف می کند بلکه ویژگی های بیشتری را نیز اضافه می کند.

  • امکان ایجاد رباتهای وب که در صفحات خراشیده می شوند و در صورت لزوم رویدادها را انجام می دهند
  • DOM را به راحتی جستجو کرده و دستکاری کنید
  • امکان نوشتن پرونده های آزمایشی با استفاده از توانایی های scraping وب آن
  • پشتیبانی از ادغام با سلنیوم برای ساده سازی تست های جلوه ای
  • از وب سایتهای مبتنی بر جاوا اسکریپت پشتیبانی می کند که علاوه بر این در مقایسه با چارچوب Jaunt هستند

در صورت نیاز به اتوماسیون برخی فرایندها و آزمایش آنها در مرورگرهای مختلف ، مناسب است.

طوفان خزنده

طوفان خزنده یک چارچوب کامل خزنده وب مبتنی بر جاوا است. از آن برای ساختن راه حلهای خزیدن وب مقیاس پذیر و بهینه شده در جاوا استفاده می شود. Storm Crawler در درجه اول ترجیح داده می شود جریانهای ورودی را که URL ها برای خزیدن ارسال می شوند در جریان قرار دهند..

چارچوب scraping وبلاگ Storm Crawler

فواید

  • بسیار مقیاس پذیر است و می تواند برای تماس های بازگشتی در مقیاس بزرگ استفاده شود
  • طبیعت انعطاف پذیر است
  • مدیریت عالی موضوع که باعث کاهش تاخیر خزیدن می شود
  • گسترش کتابخانه با کتابخانه های اضافی آسان
  • الگوریتم های خزنده وب ارائه شده از نظر کارایی بیشتری دارند

نورکونکس

نورکونکس گردآورنده HTTP به شما امکان می دهد خزنده های سازمانی را بسازید. این به عنوان یک باینری کامپایل شده موجود است که می تواند در بسیاری از سیستم عامل ها اجرا شود.

چارچوب scraping وب Norconex

فواید

  • می تواند تا یک میلیون صفحه در یک سرور متوسط ​​خزنده باشد
  • قادر به خزیدن از طریق اسناد Pdf ، Word و همچنین فرمت HTML هستید
  • قادر به استخراج داده ها درست از اسناد و پردازش آن هستید
  • OCR را برای استخراج داده های متنی از تصاویر پشتیبانی می کند
  • امکان تشخیص زبان محتوا
  • سرعت خزیدن قابل تنظیم است
  • می توان تنظیم کرد که بارها و بارها در صفحات اجرا شود تا دائماً داده ها را مقایسه و به روز کنید

Norconex می تواند برای کار با جاوا و همچنین در خط فرمان bash یکپارچه شود.

تأیید کنید

SDK را تصدیق کنید یک چارچوب خزنده مبتنی بر NodeJS است که کاملاً شبیه به Scrapy است که در بالا بحث شد. این یکی از بهترین کتابخانه های خزنده وب است که در جاوا اسکریپت ساخته شده است. اگرچه ممکن است به اندازه چارچوب مبتنی بر پایتون قدرتمند نباشد ، اما کدگذاری نسبتاً سبک و ساده تر است..

فواید

  • ساخته شده از پلاگین های NodeJS پشتیبانی مانند Cheerio ، Puppeteer و دیگران
  • دارای ویژگی استخر خودکار است که امکان خزیدن چندین صفحه وب را همزمان فراهم می کند
  • سریع از طریق پیوندهای داخلی خزنده می شوید و در صورت لزوم داده ها را استخراج می کنید
  • کتابخانه ساده برای برنامه نویسان برنامه نویسی
  • می توانید داده ها را به صورت JSON ، CSV ، XML ، Excel و همچنین HTML پرتاب کنید
  • روی کروم بدون سر اجرا می شود و از این رو از انواع وب سایت پشتیبانی می کند

کیمورایی

کیمورایی در روبی نوشته شده است و بر اساس سنگهای محبوب روبی ساخته شده است Capybara و نیکوگییری, که درک برنامه نویسی از چارچوب استفاده را برای توسعه دهندگان آسانتر می کند. این برنامه از ادغام آسان با مرورگرهای بی سیم Chrome ، Phantom JS و همچنین درخواست های HTTP ساده پشتیبانی می کند.

کیمورایی

فواید

  • می تواند چندین عنکبوت را در یک فرآیند واحد اجرا کند
  • پشتیبانی از تمام رویدادها با پشتیبانی از سنگ Capybara
  • در صورت رسیدن به حد مجاز ، مرورگرها مجدداً راه اندازی مجدد می شوند
  • رسیدگی خودکار به خطاهای درخواست
  • می تواند چندین هسته پردازنده را اهرم کند و پردازش موازی را با استفاده از یک روش ساده انجام دهد

کولی

کولی یک چارچوب صاف ، سریع ، ظریف و آسان برای استفاده حتی برای مبتدیان در دامنه scraping وب است. کولی به شما امکان می دهد که در صورت نیاز هر نوع خزنده ، عنکبوت و همچنین قیچی را بنویسید. این مهم است که از اهمیت زیادی برخوردار باشد وقتی که داده ها به صورت ساختار یافته ساخته می شوند.

چارچوب scraping Web Colly

فواید

  • قابلیت رسیدگی به بیش از 1000 درخواست در هر ثانیه
  • پشتیبانی از مدیریت خودکار جلسه و همچنین کوکی ها
  • پشتیبانی از خراشیده همزمان ، ناهمزمان و همچنین موازی
  • هنگام انجام تکرار تکراری ، حافظه پنهان را سریعتر محافظت کنید
  • robots.txt را بفهمید و از پاره شدن صفحات ناخواسته جلوگیری کنید
  • Google App Engine را از کادر پشتیبانی کنید

کولی می تواند مناسب برای تجزیه و تحلیل داده ها و برنامه های کاربردی استخراج مورد نیاز باشد.

چنگ زدن

چنگ زدن از نظر طبیعت بسیار مقیاس پذیر است. می توان از آن برای ساختن یک اسکریپت ساده scraping وب در چند سطر به یک اسکریپت پردازش ناهمزمان پیچیده استفاده کرد تا از طریق میلیون صفحه.

فواید

  • بسیار گسترده
  • پردازش موازی و همچنین ناهمزمان برای ضبط همزمان از میلیون صفحه در همان زمان پشتیبانی می کند
  • ساده برای شروع با کار اما به اندازه کافی قدرتمند برای نوشتن کارهای پیچیده
  • پشتیبانی scraping API
  • پشتیبانی از ساخت عنکبوت برای هر درخواست

Grablib پشتیبانی لازم را برای رسیدگی به پاسخ درخواست ها دارد. بنابراین ، اجازه می دهد تا از طریق سرویس های وب نیز scrap کنید.

BeautifulSoup

BeautifulSoup یک کتابخانه scraping وب مستقر در پایتون است. این در درجه اول برای scraping وب HTML و XML استفاده می شود. BeautifulSoup به طور معمول در بالای چهارچوبهای دیگر که به جستجو و نمایه سازی بهتر الگوریتم ها نیاز دارند ، استفاده می شود. به عنوان مثال ، چارچوب Scrapy که در بالا مورد بحث قرار گرفت ، از BeautifulSoup به عنوان یکی از وابستگی های آن استفاده می کند.

مزایای BeautifulSoup شامل موارد زیر است:

  • پشتیبانی از تجزیه XML و HTML شکسته
  • پس از آن بیشتر تجزیه و تحلیل های موجود برای این منظور کارآمد هستند
  • به راحتی با چهارچوبهای دیگر ادغام می شوید
  • ردپای کوچک و سبک وزن آن است
  • با عملکردهای فیلترشکن و جستجو از پیش ساخته همراه است

اینو ببین دوره آنلاین اگر علاقه مند به یادگیری BeautifulSoap هستید.

نتیجه

همانطور که شاید متوجه شده اید ، همه آنها مبتنی بر این هستند پایتون یا Nodejs بنابراین به عنوان یک توسعه دهنده باید با یک زبان برنامه نویسی زیر خطی خوب آشنا باشید. همه آنها منبع باز یا رایگان هستند ، بنابراین سعی کنید ببینید که چه چیزی برای تجارت شما مفید است.

برچسب ها:

  • متن باز

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me