Мы в Telegram
Добавить новость

Новости сегодня на DirectAdvert

Новости сегодня от Adwile

Разработать и реализовать архитектуру хранилища данных bigdata проекта

Есть рабочий проект по сбору и анализу прайс-листов организаций некоторой отрасли. Задача состоит в регулярной загрузке обновленных данных прайс-листов и их обработка для последующего поиска в реальном времени (по последним данным) и проведении аналитических исследований (на исторических данных). Хранение и работа с товарами осуществляется после их обработки и приведения к эталонному виду, получение значения отдельных характеристик (цвет, размер и т.д.). По сути проект представляет из себя Яндекс.Маркет для внутреннего пользования.

Описание работы

Загружаемые “сырые” данные представляют собой плоские таблицы с произвольным числом колонок и строк. Есть обязательныес столбцы (товар, единица измерения, количество, цена), а есть все остальные (описание, цвет, размер и т.д.). При этом “все остальные” столбцы разные для разных товаров, организаций и т.д..

Получаемые данные ложатся в БД “как есть” и используются для дальшей обработки. Обработка заключается во-первых в приведении “сырых” назватий товаров к эталонному виду, а во-вторых к группировке товаров. Таким образом получаются “обработанные” данные.

“Обработанные” данные используются конечными пользователями для поиска, построения исторических отчетов и т.д.

Схему прикрепить не могу, поэтому вышлю по требованию на почту.

Техническое описание и объемы информации

Сейчас архитектура системы построена на базе mysql для плоских данных и mongodb для остальных. Поиск осуществляется с помощью sphinx.

В настоящий момент в месяц загружается 700-1000 файлов, планируется довести этот показатель до 1.5-2 тысяч. Среднее количество записей в файле около 1000 (от 1 до 100000 записей). Объем данных 250-400 Мб/месяц. Таким образом за год выходит около 3-5Гб “сырых” данных. Планируется хранить данные до 5 лет. То есть общий объем будет не менее 15Гб. “Сырые” данные не удаляются после обработки.

Обработка заключается в сопоставлении “сырых” названий товаров с эталонными из каталога. Объем эталонного каталога сейчас 200к записей. Планируется довести количество до 1М.

После обработки делается срез последних данных (по компаниям и городам) и формирование поиского индекса для возможности гибкого поиска. Формирование списка актуальных данных занимает 20 минут, формирование поискового индекса около 25 минут.

Требования к поиску

Для поиска в срезе актуальной информации сейчас используется sphinx. Сейчас строится два индекса - один по всему списку данных и один по сгруппированному списку. При работе с индексом используется “натуральная” сортировка по названию, “умный” поиск по названию (названия товаров специфические, поэтому стандартная морфология русского языка не используется), отбор по промежутку числовых данных, выборка по нескольким значениям словарных значений, отбор по параметрам и т.д.

Проблемы и пожелания по их исправлению

При начальной разработке были не верно оценены объемы данных и сейчас система достаточно медленно работает и сильно нагружает сервера. Ещё одна причина этого - сильно неоптимизированный процесс работы. Время работы и нагрузка скриптов обработки информации несогласовано между собой.

В итоге с момента загрузки данных файла и до появления этих данных в поисковой выдаче проходит до 6 часов. Требуется сократить это время до 1 часа, а лучше меньше.

Получение исторических данных должно быть возможно в режиме реального времени. Но если в поиске участвуют актуальные данных всех организаций, то историю можно посмотреть только для выбранной организации и с ограниченным отбором (по названию, по количеству и т.д.).

Прочее
Помимо подсистемы хранения есть проблема с разработкой архитектуры эталонного каталога товаров с учетом их характеристик. В доработке нуждается и механизм распознавания “сырых” названий товаров и сопоставления их с эталонными значениями.

Задача
Задача-минимум разработать архитектуру хранения данных, скрипты загрузки, обработки и поисковый механизм. Сделать тестовую загрузку данных, проверить, что запросы выполняются за приемлемое время.

Задача-максимум сделать эталонный каталог, механизм распознавания товаров и, возможно, интерфейс.

Наработки и примеры работ приветствуются (и скорее даже необходимы). Подробную информацию и примеры данных будут при предметном обсуждении.

Если готовы взяться, то просьба сразу писать решения на которых работаете и какие планируете использовать, чтобы было понятно в какую сторону общаться.

Техническое обеспечение
  1. ОС Linux (debian, centos …)
  2. БД - на ваш выбор (сейчас mysql, mongodb, sphinx)
  3. Интерфейс на php + yii, поэтому необходимо наличие драйвера для выбранной БД
  4. Язык разработки - perl/python, возможно java

Читайте на 123ru.net

Другие проекты от 123ru.net



Архангельск

Торговые настольные электронные весы CAS PR-15P



Мир

Туристка заразилась плотоядной болезнью и потеряла руку: новая инфекция начала распространяться на людей, посещающих достопримечательности






Новости 24 часа

В ЖК «Восточное Бутово» продолжают строительство шестого по счету детского сада



Game News

How to watch the 2024 PC Gaming Show: our 10th annual summer showcase



Москва

Онлайн: удмуртский праздник Гербер отмечают на выставке «Россия» в Москве



News Every Day

Watch awkward moment baffled French Open teen is ‘teleported’ into Eurosport studio for live TV interview



Интернет

Хакеры начали «прикидываться» соискателями и подсовывать вредоносные ссылки



Москва

Закрытие границ России и Финляндии: Как это отразилось на простых финнах?



Баста

На организацию зоны активности для гостей на концерте артиста Басты выделят 1,7 млн рублей



Москва

Валиева: мы каждый год ходим на Сабантуй, я там бегаю в мешках и с ложкой во рту



Даниил Медведев

Тарпищев о Медведеве и Рублеве: без травм сыграют в Париже лучше, чем в Токио



Москва

Об отношении к русским в Азербайджане



Пулково

За месяц в Пулково столкнулись два самолета и задержали несколько рейсов



Симферополь

Глава Росавиации: возобновление работы закрытых с начала СВО аэропортов пока не ожидается



Москва

Глава СК Бастрыкин пообещал защитить гаишника Гусева от диаспоры и МВД Новосибирска



Москва

Собянин: Более 220 единиц новой медицинской техники начали использовать в Москве



Москва

Доцент Соболева: дешевле всего лечить зубы в Тульской и Тверской областях



103news.com — быстрее, чем Я..., самые свежие и актуальные новости Вашего города — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 103news.com.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Вашего города или других населённых пунктов Вашего региона мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Вашем городе можно самостоятельно через форму.

Другие популярные новости дня сегодня


Новости 24/7 Все города России





Топ 10 новостей последнего часа




Новости России

Ежегодная церемония вручения Всероссийской премии Евгения Зубова прошла в библиотеке Видного

«Очень нехорошее занятие»: Распутину повергли в шок планы дочери на жизнь

В Северном Бутово модернизируют территории для спорта на свежем воздухе

Собянин: Более 220 единиц новой медицинской техники начали использовать в Москве


Москва

В ПРЕДДВЕРИИ ДНЯ РОССИИ РОСГВАРДЕЙЦЫ ПРОВЕЛИ ПРАЗДНИЧНОЕ МЕРОПРИЯТИЕ ДЛЯ ДЕТЕЙ






Rss.plus

В Подмосковье сотрудники Росгвардии спасли пожилого мужчину, который оказался один дома и плохо себя почувствовал

США и Европа "подготавливают" Россию и Ближний Восток для переселений?!

Профилактический рейд по противопожарной безопасности прошел сегодня в Ленинском округе

Ежегодная церемония вручения Всероссийской премии Евгения Зубова прошла в библиотеке Видного

Moscow.media
Москва

Собянин: Благодаря модернизации театры Москвы создают уникальные декорации



103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. 103news.com — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости

Тимати

«К очереди присоединялась другая»: Тимати раскрыл успех своего бизнеса




Спорт в России и мире

Алексей Смирнов – актер, которого, надеюсь, еще не забыли

В Москве прошёл спортивный праздник для росгвардейцев

Более 1 тыс человек стали участниками циркового шествия на выставке «Россия»

В Москве 14-летний мальчик ранил ножом 16-летнего юношу на футбольном поле


Уимблдон

Уимблдон и Олимпиада? Что нужно знать о планах Рыбакиной после Ролан Гаррос



Новости Крыма на Sevpoisk.ru


Москва

Путин после действий Байдена: в ядерную доктрину России могут быть внесены изменения



Частные объявления в Вашем городе, в Вашем регионе и в России