Топ 11 БЕЗПЛАТНИ мрежови рамки

През последните няколко години се наблюдава значителен напредък в уеб пространството за изстъргване.


Премахването на уеб се използва като средство за събиране & анализиране на данни в мрежата. В подкрепа на този процес съществуват множество рамки, които отговарят на различни изисквания за различни случаи на използване.

Нека да разгледаме някои от популярните мрежови рамки за изстъргване.

По-долу са самостоятелно хоствано решение, така че трябва да се инсталирате и конфигурирате сами. Можете да проверите тази публикация за облачно базирано решение за изстъргване.

Scrapy

Scrap Web рамка за изстъргване

Scrapy е рамка за сътрудничество, базирана на Python. Той предоставя пълен набор от библиотеки. Напълно асинхронен, който може да приема заявки и да ги обработва, по-бързо.

Някои от предимствата на Scrap включват:

  • Супер бърз в изпълнение
  • Оптимално използване на паметта
  • Доста подобно на рамката на Django
  • Ефективен в своя алгоритъм за сравнение
  • Лесни за използване функции с изчерпателна поддръжка на селектори
  • Лесно адаптивни рамки чрез добавяне на потребителски междинен софтуер или тръбопровод за персонализирани функционалности
  • портативен
  • Осигурява облачната си среда за изпълнение на операции, изискващи големи ресурси

Ако се отнасяте сериозно към научаването на Scrap, тогава бих ви насочил това курс.

MechanicalSoup

Механична рамка за остъргване на уеб

MechanicalSoup може да симулира човешко поведение на уеб страници. Тя се основава на библиотека за разбор на уеб сайтове BeautifulSoup, която е най-ефективна в прости сайтове.

Ползи

  • Кокетна библиотека с много по-малко режийни кодове
  • Блъскащо бързо, когато става въпрос за разбор на по-прости страници
  • Способност за симулиране на човешкото поведение
  • Поддръжка на CSS & XPath селектори

MechanicalSoup е полезен, когато се опитвате да симулирате човешки действия като изчакване за определено събитие или щракнете върху определени елементи, за да отворите изскачащ прозорец, а не просто да запишете данни.

екскурзия

екскурзия съоръжения като автоматизирано изстъргване, запитване на данни на базата на JSON и браузър без лек ултра лек браузър. Той поддържа проследяване на всеки HTTP заявка / отговор, който се изпълнява.

Съществените ползи от използването на Jaunt включват:

  • Организирана рамка за осигуряване на всички ваши нужди за изстъргване в мрежата
  • Позволява базирани на JSON заявки на данни от уеб страници
  • Поддържа остъргването чрез формуляри и таблици
  • Позволява контролиране на HTTP заявка и отговор
  • Лесно взаимодействие с REST API
  • Поддържа HTTP / HTTPS прокси
  • Поддържа верижно търсене в HTML DOM навигация, търсене на базата на Regex, основно удостоверяване

Една точка, която трябва да се отбележи в случай на Jaunt, е, че неговият браузър API не поддържа уебсайтове, базирани на Javascript. Това се решава чрез използване на Jauntium, който се обсъжда по-нататък.

Jauntium

Jauntium е подобрена версия на рамката на Jaunt. Той не само решава недостатъците в Jaunt, но и добавя още функции.

  • Възможност за създаване на уеб-ботове, които стърчат през страниците и изпълняват събития според нуждите
  • Търсете лесно и манипулирайте DOM лесно
  • Механизъм за писане на тестови случаи чрез използване на способностите му за изстъргване в мрежата
  • Поддръжка за интегриране със Selenium за опростяване на тестовете на интерфейса
  • Поддържа уеб сайтове, базирани на Javascript, които са плюс в сравнение с рамката на Jaunt

Подходящ за използване, когато трябва да автоматизирате някои процеси и да ги тествате в различни браузъри.

Буря на гусеницата

Буря на гусеницата е пълноценна рамка за уеб браузър, базирана на Java. Той се използва за изграждане на мащабируеми и оптимизирани решения за обхождане на уеб в Java. Storm Crawler е за предпочитане да обслужва потоци от входове, където URL адресите се изпращат над потоци за обхождане.

Storm Crawler Web рамка за изстъргване

Ползи

  • Високо мащабируем и може да се използва за мащабни рекурсивни разговори
  • Устойчив в природата
  • Отлично управление на нишката, което намалява латентността на обхождането
  • Лесно разширяване на библиотеката с допълнителни библиотеки
  • Предоставените алгоритми за обхождане в мрежата са сравнително по-ефективни

Norconex

Norconex HTTP колекторът ви позволява да изграждате бизнес клаузи. Предлага се като компилиран двоичен файл, който може да се изпълнява в много платформи.

Norconex Web scraping Framework

Ползи

  • Може да обходи до милиони страници на среден сървър
  • Възможност за обхождане чрез документи в PDF, Word, както и HTML формат
  • Способен да извлича данни от документите и да ги обработва
  • Поддържа OCR за извличане на текстови данни от изображения
  • Възможност за откриване на езика на съдържанието
  • Скоростта на обхождане може да бъде конфигурирана
  • Може да бъде настроен да се изпълнява многократно над страници за непрекъснато сравняване и актуализиране на данните

Norconex може да бъде интегриран за работа с Java, както и над командния ред bash.

Apify

Apify SDK е базирана на NodeJS обхождаща рамка, която е доста подобна на Scrap, разгледана по-горе. Това е една от най-добрите библиотеки за обхождане на уеб вградени в Javascript. Въпреки че може да не е толкова мощен, колкото основата на Python, той е сравнително лек и по-лесен за кодиране.

Ползи

  • Вградена поддръжка на NodeJS плъгини като Cheerio, Puppeteer и други
  • Разполага с пул AutoScaled, който позволява да започнете да обхождате няколко уеб страници едновременно
  • Бързо обхожда вътрешни връзки и извлича данни, ако е необходимо
  • По-опростена библиотека за кодиране на роботите
  • Може да изхвърля данни под формата на JSON, CSV, XML, Excel, както и HTML
  • Работи с хром без глава и по този начин поддържа всички видове уебсайтове

Kimurai

Kimurai е написана на Ruby и се основава на популярни скъпоценни камъни Ruby капибара и Nikogiri, което улеснява разработчиците как да разберат как да използват рамката. Поддържа лесна интеграция с браузъри без глава, Phantom JS, както и прости HTTP заявки.

Kimurai

Ползи

  • Може да стартира множество паяци в един процес
  • Поддържа всички събития с подкрепата на скъпоценния камък Capybara
  • Автоматично рестартира браузърите в случай, че изпълнението на JavaScript достигне лимит
  • Автоматично обработване на грешки в заявката
  • Може да използва няколко ядра на процесор и да извършва паралелна обработка с помощта на прост метод

коли

коли е гладка, бърза, елегантна и лесна за използване рамка дори за начинаещи в уеб пространството за изстъргване. Colly ви позволява да пишете всякакъв тип гусени, паяци, както и скрепери, ако е необходимо. От първостепенно значение е, когато данните за изстъргване са структурирани.

Colly Web Scraping Framework

Ползи

  • Способен да обработва над 1000 заявки в секунда
  • Поддържа автоматично обработка на сесии, както и бисквитки
  • Поддържа синхронно, асинхронно, както и паралелно изстъргване
  • Кеширане на поддръжка за по-бързо изстъргване на мрежата, когато правите повторно
  • Разберете robots.txt и предотвратява изтриването на нежелани страници
  • Подкрепете Google App Engine извън кутията

Colly може да бъде подходящ за анализ на данни и изискване за приложения за добив.

Grablab

Grablab има силно мащабируем характер. Може да се използва за изграждане на прост скрипт за изтриване на уеб с няколко реда до сложен асинхронен скрипт за обработка, който да се изстърже през милиони страници.

Ползи

  • Силно разтегателен
  • Поддържа паралелна, както и асинхронна обработка, за да се изстърже едновременно през милиони страници
  • Лесно за начало, но достатъчно мощно за писане на сложни задачи
  • Поддръжка на API за изстъргване
  • Поддръжка за изграждане на паяци за всяка заявка

Grablib има вградена поддръжка за обработка на отговора от заявки. По този начин, той позволява да се изстъргва и чрез уеб услуги.

BeautifulSoup

BeautifulSoup е базирана на Python уеб библиотека за изстъргване. Използва се предимно за изстъргване на HTML и XML. BeautifulSoup обикновено се използва върху други рамки, които изискват по-добри алгоритми за търсене и индексиране. Например, Scrap рамката, разгледана по-горе, използва BeautifulSoup като една от неговите зависимости.

Предимствата на BeautifulSoup включват:

  • Поддържа разбор на Broken XML и HTML
  • Ефективен след това повечето парсери, налични за тази цел
  • Лесно се интегрира с други рамки
  • Мал отпечатък, което го прави лек
  • Предлага се с предварително изградени функции за филтриране и търсене

Вижте това онлайн курс ако се интересувате да научите BeautifulSoap.

заключение

Както може би сте забелязали, всички те са или базирани Питон или Nodejs, така че като програмист трябва да сте добре запознат с подчертан език за програмиране. Всички те са или с отворен код, или БЕЗПЛАТНИ, така че опитайте да видите какво работи за вашия бизнес.

ЕТИКЕТИ:

  • Отворен код

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map