Дипломный проект SearchEngine - Поисковый движок -2022 год

Категории: Диплом и связанное с ним, Skillbox, Дипломные проекты
Добавлен: 03.07.2023
Размер: 9 MB
Покупок: 3
Добавил:
StudentHelp

Написать сообщение

Все работы пользователя

Цена:

2000 руб.

Скачать

Состав работы

EB0EDC91-60DF-4556-8A38-B1B4F4A0328D.zip [ 9 MB ]

SearchEngine

.git

config [ 305 bytes ]

description [ 73 bytes ]

HEAD [ 21 bytes ]

hooks

applypatch-msg.sample [ 478 bytes ]

commit-msg.sample [ 896 bytes ]

fsmonitor-watchman.sample [ 5 KB ]

post-update.sample [ 189 bytes ]

pre-applypatch.sample [ 424 bytes ]

pre-commit.sample [ 2 KB ]

pre-merge-commit.sample [ 416 bytes ]

pre-push.sample [ 1 KB ]

pre-rebase.sample [ 5 KB ]

pre-receive.sample [ 544 bytes ]

prepare-commit-msg.sample [ 1 KB ]

push-to-checkout.sample [ 3 KB ]

update.sample [ 4 KB ]

index [ 17 KB ]

info

exclude [ 240 bytes ]

logs

HEAD [ 187 bytes ]

refs

heads

main [ 187 bytes ]

remotes

origin

HEAD [ 187 bytes ]

objects

info

pack

pack-868a5d2471711cbcaff09d135b3da6a2f483f3bc.idx [ 8 KB ]

pack-868a5d2471711cbcaff09d135b3da6a2f483f3bc.pack [ 4 MB ]

packed-refs [ 112 bytes ]

refs

heads

main [ 41 bytes ]

remotes

origin

HEAD [ 30 bytes ]

Описание

Дипломный проект SearchEngine - Поисковый движок -2022 год.

Данный проект реализует поисковый движок, предоставляющий пользователю специальный API со следующими основными функциями:

предварительное индексирование сайтов;
выдача основных сведений по сайтам;
поиск ключевых слов в проиндексированных сайтах и предоставление их пользователю.

Дополнительная информация

Дипломный проект SearchEngine - Поисковый движок -2022 год.

Веб-страница:
В проект также входит веб-страница, которая позволяет управлять процессами, реализованными в движке.

Страница содержит три вкладки:

- Вкладка DASHBOARD (см. приложенные файлы)
Эта вкладка открывается по умолчанию. На ней отображается общая статистика по всем проиндексированным сайтам, а также детальная статистика и статус по каждому из сайтов (статистика, получаемая по запросу /statistics).

- Вкладка MANAGEMENT (см. приложенные файлы)
На этой вкладке находятся инструменты управления поисковым движком — запуск (запрос /startIndexing) и остановка (запрос /stopIndexing) полной индексации (переиндексации), а также возможность добавить (обновить) отдельную страницу по ссылке (запрос /indexPage/{pagePath}). Отметим, что если в последнем запросе присутствует только URL сайта без завершающего слэша (/), как в приведённом выше скриншоте, то индексироваться будет указанный сайт целиком.

- Вкладка SEARCH (см. приложенные файлы)
Эта вкладка предназначена для тестирования поискового движка. На ней находится поле поиска и выпадающий список с выбором сайта, по которому искать, а при нажатии на кнопку SEARCH выводятся результаты поиска (по запросу /search).

Кодировка страницы (см. приложенные файлы)
На всех вкладках присутствует выпадающий список Language (Язык). При выборе одного из двух вариантов — English или Русский — соответственно поменяется кодировка страницы.
Пример русской раскладки:(см. приложенные файлы)

Файлы настройки:

Данное приложение по выбору может работать либо с СУБД MySQL, либо с СУБД PostgreSQL. Выбор зависит от значения параметра spring.profiles.active в конфигурационном файле application.yaml, который определяет профиль и находится в корне проекта. Параметр может принимать одно из двух значений:

mysql — для работы с MySQL;
postgresql — для работы с PostgreSQL.
В зависимости от значения заданного профиля подключается один из двух соответствующих конфигурационных файлов: application-mysql.yaml или application-postgresql.yaml, которые тоже находятся в корне проекта.

Приложение допускает подключение и к другим реляционным БД. Для этого, по аналогии с PostgreSQL, нужно создать файл application-{profilename}.yaml, скрипт для генерирования объектов БД — schema-{profilename}.sql и скрипт для наполнения таблицы field — data-{profilename}.sql. Кроме того, в файле pom.xml нужно подключить подходящую зависимость, обеспечивающую работу с выбранной БД.

Раздел server
В этом разделе задаётся параметр port — порт, через который контроллеры приложения "слушают" веб-запросы. Задавая разные порты, можно, например, из разных папок, в которых находятся файлы настройки, запустить несколько экземпляров приложения.

Также задаётся параметр indexingAvailable, который разрешает или запрещает данному экземпляру приложения индексировать сайты. При любом значении параметра — true или false — разрешены поиск по сайтам и просмотр статистики.

Раздел spring
Здесь задаются параметры СУБД, в которой приложение хранит данные конфигурации. Некоторые параметры общие для всех СУБД и они находятся в файле application.yaml. Специфичные для выбранной СУБД параметры находятся в соответствующих файлах application-{profilename}.yaml

Следует отметить важность параметра spring.jpa.hibernate.ddl-auto и отличия его применения в двух случаях:

СУБД MySQL. База данных создаётся на основе классов из пакета main.model. В том случае, когда параметр принимает значение create, при запуске приложения база данных пересоздаётся, то есть содержимое всех таблиц БД уничтожается. При следующих запусках значение этого параметра следует установить в update.
Другие СУБД. База данных создаётся скриптом schema-{profilename}.sql. При этом параметр spring.jpa.hibernate.ddl-auto должен принимать значение none. Теперь поведение системы зависит от параметра spring.sql.init.mode: если он принимает значение always, то при запуске приложения база данных пересоздаётся. Если он принимает значение never, то база данных остаётся прежней.
Раздел logging
Здесь можно задать уровень логирования level.root и имя файла журнала file.name.

Раздел config
На режим индексации влияют следующие параметры:

forSitesThreadNumber — максимальное количество потоков, в которых могут параллельно индексироваться различные сайты;
forPagesThreadNumber — максимальное количество потоков, в которых могут индексироваться страницы каждого сайта. Когда наложено ограничение на минимальный интервал обращения к конкретному сайту (об этом ниже), то 2–3 потока вполне достаточно. Если такого ограничения нет, то значение 8 данного параметра значительно ускорит процесс индексирования;
repeatedPageCount — один из параметров, позволяющих ограничить количество индексируемых страниц;
maxPagesInSite — когда количество страниц для данного сайта достигает этого значения, индексация сайта останавливается. Чаще всего ещё несколько страниц будет проиндексировано после достижения maxPagesInSite.
synchronizePageSave — разрешает или запрещает включение оператора synchronize при сохранении записи в таблицу page. Для СУБД MySQL параметр должен быть установлен в true, для PostgreSQL может быть установлен в false.
multiInsertString — в этом параметре определена подстрока специфичного для каждой СУБД запроса множественной вставки.
Список sites
Здесь приведён список сайтов, которые программа будет в состоянии индексировать. Каждый сайт характеризуется следующими параметрами:

url — адрес сайта. Если в адресе присутствует страница (как, например, в случае https://et-cetera.ru/mobile), то всё равно индексирование начнётся с главной страницы (как если бы в параметре было указано https://et-cetera.ru);
name — имя сайта. Оно, в частности, выводится в списке сайтов на вкладке DASHBOARD;
pause — минимальный интервал обращения к одному сайту при индексировании, выраженный в миллисекундах. Параметр может принимать положительные значения и 0. При нуле задержек между обращениями не будет.
Используемые технологии
Приложение построено на платформе Spring Boot.

Необходимые компоненты собираются с помощью фреймворка Maven. Maven подключает следующие относящиеся к Spring Boot стартеры:

spring-boot-starter-web — подтягивает в проект библиотеки, необходимые для выполнения Spring-MVC функций приложения. При этом обмен данными между браузером и сервером выполняется по технологии AJAX;
spring-boot-starter-data-jpa — отвечает за подключение библиотек, требующихся для работы приложения с базой данных;
spring-boot-starter-thymeleaf — шаблонизатор веб-страницы программы.
Для загрузки и разбора страниц с сайтов используется библиотека jsoup.

Данная версия программы работает с СУБД MySQL. Для этого подключается зависимость mysql-connector-java.

Для удобства написания (и чтения) программного кода и для расширения функциональности языка Java используется библиотека Lombok (зависимость lombok).

Запуск программы
Репозиторий с приложением SearchEngine находится по адресу https://github.com/vrpanfilov/SearchEngine.git.

Если проект загрузить на локальный диск, то он готов к тому, чтобы его можно было скомпилировать и запустить с помощью среды разработки IntelliJ IDEA.

Перед первой компиляцией программы следует выполнить следующие шаги:

Установить СУБД — одну или несколько, если они ещё не установлены.
В базе данных создать схему search_engine. Имя схемы может быть и другим, но тогда это должно быть отражено в параметре spring.datasource.url в файле application-{profilename}.yaml.
В схеме нужно создать пользователя se_user с паролем se_user. Пользователь и пароль могут быть другими, это опять же должно соответствовать параметрам spring.datasource.username и spring.datasource.password в файле application-{profilename}.yaml.
Установить параметры jpa.hibernate.ddl-auto и, если нужно, параметр spring.sql.init.mode так, как это описано выше.
Установить фреймворк Apache Maven, если он ещё не установлен.
В командной оболочке (например, PowerShell) перейти в корневой каталог проекта и выполнить пакетный файл init_morphology.cmd:
.\init_morphology.cmd.

Теперь приложение можно компилировать и запускать из программной среды.

Приложение может быть также запущено командной строкой. Для этого оно должно быть скомпилировано в панели Maven среды разработки командой package: (см. приложенные файлы).

Результат компиляции, SearchEngine-0.0.1-SNAPSHOT.jar, будет располагаться в папке target. Этот файл можно перенести в любую доступную папку на компьютере, при этом в той же папке должны находиться файлы application.yaml и application-{profilename}.yaml. Приложение запускается строкой

java -jar SearchEngine-0.0.1-SNAPSHOT.jar.

Можно поступить и так. В несколько папок — например, d:\aaa, d:\bbb — положить набор файлов настройки application.yaml и application-{profilename}.yaml.

Файлы application.yaml будут отличаться параметром server.port. А приложение SearchEngine-0.0.1-SNAPSHOT.jar можно поместить, например, в папку d:\search_engine. Тогда, перейдя, последовательно в папки d:\aaa и d:\bbb, можно запустить два экземпляра программы командой

java -jar d:\search_engine\SearchEngine-0.0.1-SNAPSHOT.jar.

Эти экземпляры будут "слушать" разные порты и не мешать друг другу при условии, что только у одного экземпляра приложения параметр конфигурации server.indexingAvailable принимает значение true.

Skillbox. Итоговый проект курса «Поисковый движок». Java-разработчик.

Skillbox. Java-разработчик. Итоговый проект курса «Поисковый движок» Данный проект сдан в 2021 году, но актуален по сей день. Проект включает описание самого, проекта, техническую спецификацию, Т.З, критерий оценивания, а также описание подключение и создание базы и таблиц, а также скрипт для создания самих таблиц. В стоимость входит поддержка и исправление замечаний от куратора на всем пути до сдачи проекта.

Диплом и связанное с ним Skillbox java - разработчик

StudentHelp : 25 марта 2025

4000 руб.

Конкуренция - ответы на тест Синергия - 2022 год!

Все вопросы. Полная база. 121 вопрос с ответами. Сдано на 90 баллов из 100 Сдано в 2022 году! Верные ответы выделены зеленым цветом.

Конкуренция Московский финансово-промышленный университет «Синергия»

StudentHelp : 23 августа 2022

390 руб.

Вступительный экзамен в магистратуру СибГУТИ 2022 год.

1. Вычислить определенный интеграл ∫_0^(π/2)▒sin7xdx 2. Найти векторное произведение a ̅×b ̅; 3. Число отказов радиотехнической системы – пуассоновский поток с интенсивностью 0,003 отказов в час. Найти вероятность того, что за 200 часов работы системы будет не менее двух отказов 4. Среди 10 деталей 3 бракованных. Наугад берутся две детали. Найти вероятность того, что среди них будет по крайней мере одна не бракованная. 5. Эталонная модель взаимодействия открытых систем ISO/OSI. Известные стеки

Основы телекоммуникаций ДО СИБГУТИ Билеты вступительные

Помощь студентам СибГУТИ ДО : 16 февраля 2022

700 руб.

Основы предпринимательства Тест с ответами Синергия 2022 год

Основы предпринимательства Тест с ответами Синергия 2021 год 33 вопроса с ответами! Сдано в 2021 году на 97 баллов! Ответы выделены цветом!

Основы предпринимательской деятельности Московский финансово-промышленный университет «Синергия» Тесты

StudentHelp : 18 ноября 2022

390 руб.

Общая энергетика - Ответы на тест - Синергия - 2022 год

Общая энергетика - Ответы на тест - Синергия - 2022 год 30 вопросов с ответами Сдано на 100 баллов в 2022 году Все ответы выделены цветом

Общая энергетика Московский финансово-промышленный университет «Синергия» Тесты

StudentHelp : 16 ноября 2022

390 руб.

Элементы в высшей математике - Экзамен - Синергия 2022 год

Элементы в высшей математике - Экзамен - Синергия 2022 год 25 вопрос с ответами Сдано на 100 баллов в 2022 году

МПФУ Высшая математика Тесты

StudentHelp : 15 ноября 2022

390 руб.

Физика (часть 1-я). Вариант: №9 .2022 год

кр2 1. В сеть с напряжением 100 В подключили катушку с сопротивлением 2 кОм и вольтметр, соединённые последовательно. Показание вольтметра 80 В. Когда катушку заменили другой, вольтметр показал 60 В. Вычислите сопротивление другой катушки. 2 Сила тока в цепи изменяется по закону I(t) = Imsin(щt), где Im = 20 A и щ = 0,2р с-1. Вычислите количество теплоты, которое выделится в участке цепи сопротивлением 12 Ом за время, равное четверти периода изменения тока. 3. Задача №3 По двум бесконечно длинн

ДО СИБГУТИ Физика Работа Контрольная

Богдан40 : 18 января 2022

100 руб.

Физика (часть 1-я). Вариант: №9 к . 2022 год

Физика (часть 1) Вариант: 9. кр1 1. На сколько переместится относительно берега лодка длиной 3,5 м и массой 200 кг, если стоящий на корме человек массой 80 кг переместится на нос лодки? Считать лодку расположенной перпендикулярно берегу. 2. Из орудия производилась стрельба в горизонтальном направлении. Когда орудие было неподвижно закреплено, снаряд вылетел со скоростью 600 м/с, а когда орудию дали возможность свободно откатываться назад, снаряд вылетел со скоростью 580 м/с. С какой скоростью от

ДО СИБГУТИ Физика Работа Контрольная

Богдан40 : 18 января 2022

100 руб.

Лабораторная работа №№1-3 по дисциплине: Математические основы моделирования компьютерных сетей. Вариант №1

Лабораторная работа No1 1.1. Непосредственное соединение двух компьютеров 1. На рабочее поле эмулятора добавить два компьютера с помощью кнопки «Добавить компьютер» на панели устройств. 2. Соединить добавленные компьютеры. Для этого a) нажать кнопку «Создать соединение» на панели устройств; b) навести указатель на один из компьютеров; c) зажав левую кнопку мыши, провести линию до второго компьютера, после чего отпустить левую кнопку мыши; d) в появившемся диалоговом окне настроек интерфейсов

Математические основы моделирования компьютерных сетей Работа Лабораторная

IT-STUDHELP : 15 ноября 2021

1100 руб.

Контрольная работа по дисциплине: «Схемотехника телекоммуникационных устройств (часть 2)» вариант 11.

Дано: 1. Тип транзистора – КТ3102А (n-p-n); 2. h21max/ h21min = 250/100; 3. Iкб0max/T = 0,05/25 мкА/ ° С; 4. Тс max = 40° С; 5. Еп = 12 В; 6. Rвх сл = 400 Ом; 7. Um вх сл = 50 мВ; 8. Im вх сл = 5 мА; 9. Rпс = 0,4 ° С/мВт.

ДО СИБГУТИ Схемотехника телекоммуникационных устройств Работа Контрольная

costafel : 20 октября 2016

300 руб.

Теплотехника Часть 1 Термодинамика Задача 26 Вариант 5

Определить основные параметры рабочего тела в переходных точках идеального цикла поршневого двигателя внутреннего сгорания со смешанным подводом теплоты, а также степень сжатия ε, термический КПД ηt и полезную работу l, если заданы характеристики цикла: степень повышения давления при изохорном подводе теплоты λ и степень предварительного расширения ρ. В начальной точке цикла р1=0,1 МПа и t1=67 ºC. Температура в конце адиабатного процесса сжатия рабочего тела равна 600 ºC. Рабочее тело – воздух.

Задачи Теплотехника

Z24 : 11 октября 2025

280 руб.

Основы компьютерного проектирования

ЗАДАНИЕ НА КУРСОВОЕ ПРОЕКТИРОВАНИЕ В процессе выполнения задания необходимо: а) Привести структурную схему АЦП с передискретизацией и описать назначение каждого элемента этой схемы. б) По данным таблицы 1 выбрать данные для расчета аналогового фильтра нижних частот (АФНЧ), положив требуемое затухание на граничной частоте полосы непропускания (Amin) равным 20 дБ. Расчет характеристик фильтра ведется по заданным значениям неравномерности группового времени запаздывания (Amax, дБ) в полосе пропуск

******* Не известно Компьютерные сети, системы и техника, Работа Конкурсная

liza131992 : 11 октября 2015

400 руб.

Дипломный проект SearchEngine - Поисковый движок -2022 год

Состав работы

Описание

Дополнительная информация

Похожие материалы

Другие работы

Вход