Рубрики
Без рубрики

Как легко просматривать сайты для информации с использованием стандартной библиотеки и Node.js

Janeth Ledezma Как легко скользить сайты для информации с использованием стандартной библиотеки и Node.jsa Web Scraper – это инструмент, который позволяет нам выбрать и преобразовать неструктурированные данные веб-сайта в структурированную базу данных. Так куда пригодится веб-скребок? Я перечислил мой

Автор оригинала: FreeCodeCamp Community Member.

Дженет Ледезма

Веб-скребок – это инструмент, который позволяет нам выбрать и преобразовывать неструктурированные данные веб-сайта в структурированную базу данных. Так куда пригодится веб-скребок? Я перечислил мои любимые случаи использования, чтобы вы взволнованы по запуску своих!

  • Scrape Списки недвижимости – предприятия используют веб-соскоб, чтобы собрать уже перечисленные свойства
  • Scrape Products/Отзывы о продукте от продавца или сайтов изготовителя, чтобы показать на своем сайте, предоставляют спецификации/сравнение цен
  • Scrape News Wesies Для применения пользовательского анализа и курирования (ручной или автоматический), предоставьте лучшую целевую новость для вашей аудитории
  • Сбор адресов электронной почты для генерации свинца

Вы можете прочитать другие удобные случаи использования для Веб-скребок здесь Отказ

Теперь давайте начнем! Как простой пример – Мы будем опрокидывать первую страницу Hacker News чтобы получить названия ссылок.

Если вы не знакомы с Стандартная библиотека Тем не менее, вы для удовольствия! Стандартная библиотека Является ли платформа разработки и публикации API, которая может помочь вам построить и судить код в записи, используя редактор API в браузере API – Код на стандартной библиотеке.

Шаг первый: войти в код в стандартной библиотеке

Первый шаг – отправиться на https://code.Stdlib.com. /и создать бесплатный аккаунт. Код на стандартной библиотеке Это редактор онлайн API, построен командой в Стандартная библиотека – Встраиваемая среда разработки для быстрого строительства API, веб-капонов и задач автоматизации рабочего процесса.

В нижнем левом углу нажмите (Войти) Отказ Если у вас есть Стандарт Библиотека Учетная запись Нажмите, Уже зарегистрирован, и войдите в систему, используя ваш Стандартная библиотека реквизиты для входа. Модаль появится побуждает вам претендовать на пространство имен (Это ваше имя пользователя). Введите свой адрес электронной почты и выберите пароль.

После создания своей учетной записи другой модуль появится в списке планов подписки. Бесплатный аккаунт – это все, что вам нужно, чтобы начать, но вы Можно узнать больше о ценовых пакетах стандартной библиотеки здесь Отказ

Как только вы нажмете Подписаться + Зарабатывайте кредиты, Вы должны увидеть сообщение подтверждения.

Нажмите Продолжить вернуться на посадочную страницу.

Шаг второй: Выберите исходный код скребка веб

Выберите API из Sourcecode кнопка . Стандартная библиотека SourceCodes предназначены для оптимизации создания различных типов проектов. SourceCodes обеспечивает по умолчанию для таких вещей, как код котельной и настройка каталога, поэтому вы можете получить право на разработку и реализацию более сложных функциональных возможностей.

Вы должны увидеть список опубликованных исходных кодов. Прокрутите вниз и выберите @ Nemo/Web -scraper Отказ Обязательно введите желаемое имя для вашего API и нажмите Хорошо (или нажмите Enter)

Затем вы увидите код вашего конечного точка в: Функции/__ Главная __. JS

На правой стороне вы заметите флажок Параметры.

В URL требуется тип параметра:

https://news.ycombinator.com/

В типе запросов:

[“.StoryLink”, “текст”]]

Выберите зеленый ” Беги ” кнопка.

В течение нескольких секунд у вас должен быть список названий ссылок с первой страницы Хакеров Новости под Результаты Раздел Код на стандартной библиотеке Отказ Вы заметите документацию портал – скопируйте и вставьте URL-адрес документации на новую вкладку в браузере, чтобы увидеть информацию вашей API в стандартной библиотеке.

Как это работает ?

Веб-скребок делает простой запрос на URL-адрес и запускает серию запросов на полученной странице и возвращает его к вам. Используется мощный Cheerio Процессор DOM (модель документа объекта), позволяющий нам использовать CSS-селекторы Чтобы схватить данные со страницы! Селекторы CSS – это шаблоны, используемые для выбора элементов (ы), которые вы хотите организовать.

Как запросить использование селекторов CSS

Веб-страницы написаны в Язык разметки такие как HTML HTML-элемент является одним из компонентов HTML-документа или веб-страницы. Элементы определяют способ отображения информации в человеческом глазу на браузере – информация, такая как изображения, мультимедиа, текст, листы стилей, сценарии и т. Д.

Для этого примера мы использовали селектор « .Class» (класс), чтобы получить названия всех гиперссылок от всех элементов на первой странице Hacker News.

Если вам интересно, как найти имена элементов, которые составляют сайт – позвольте мне показать вам!

Огоненьтесь Google Chrome и введите в нашу Хакеров Новости URL-адрес https://news.ycombinator.com/ . Затем щелкните правой кнопкой мыши на заголовке любой статьи и выберите « Осмотреть. «Это откроет веб-консоль в Google Chrome. Или вы можете использовать командная клавиша ( ⌘) + клавиша опции (⌥) + j ключ.

Консоль веб-разработчиков откроется справа от вашего экрана. Обратите внимание, что, когда вы выбрали название ссылки Раздел на консоли также выделен. Выделенный элемент имеет «класс», определяемый как «рассказчик». И теперь вы знаете, как найти имена элементов на любом сайте!

Если вы хотите запросить разные метаданные на Хакеров Новости , наведите курсор на него. Ниже вы можете увидеть, как я нашел .Class, чтобы запросить URL-адрес ссылки, наведя мою мышь на этот элемент на новость хакера.

Вот и все, и спасибо!

Спасибо за прочтение! Я бы полюбил тебя к Комментарий здесь , E-Mail Me в Janeth [AT] STDLIB [DOT] COM или следовать Стандартная библиотека В Твиттере @Stdlibhq Отказ Дайте мне знать, если вы построили что-нибудь захватывающее, что вам хотелось бы стандартную команду библиотеки в функцию или поделиться – я хотел бы помочь!

Janeth Ledezma – это защитник разработчика для стандартных библиотеки и Berkeley Grad- Go Go Bears! ? Когда она не изучает арабский язык или разрабатывает, вы можете найти ее ездить на ее CBR500R. ?? Следуйте за своим путешествием со стандартной библиотекой в Twitter @MS S_ledezma.

Оригинал: “https://www.freecodecamp.org/news/scrape-websites-for-information-easily-using-code-xyz-and-node-js-8be3e2f938ab/”