Ezhe.ru архив

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Мусор в Сети




Юрий прав - проблема есть и она не считается системной. На той неделе на внезапно встреченном в телеграме НОЖе читал о веб-архивации (неплохая статья, рекомендую ознакомиться всем, кому поднятая тема интересна - https://knife.media/internet-archive).

Там в принципе контуры проблемы видны. Если вкратце, то:
а) частные архивы влезают в убытки
б) чиновники до сих пор смотрят на консервацию отдалённого прошлого, а не ушедшего настоящего

Вот цитата Ивана Бегтина, российский госархивный сервис:

"Мы хотели сделать краулер на весь рунет, но это дорого. Это то, на что нам не хватает ресурсов: нам нужен хороший канал, возможность установить и разместить свой сервер или даже несколько серверов. На фоне каких-нибудь государственных расходов это сущие копейки: несколько миллионов рублей в год - и можно обеспечить хотя бы самый базовый функционал. Но даже эти копейки найти достаточно сложно".

Архивирование неструктурированной информации - даже пусть для анализа, то есть временно - очень ресурсная задача. Помню лет 5 назад болтали с И.С. и как-то коснулись его "Крибрума" в этом смысле. Он сразу руками замахал: "чтобы выкачать Фейсбук и ВКонтакте, надо хотя бы 10.000 серверов, на Одноклассники уже не останется". Ну тут сам имярек может детальнее рассказать, если захочет.

Насчёт дороговизны серверов история такая. Я когда ИТ-директором был, делал цифровой архив в масштабах дивизиона (1 головная + 8 дочерних компаний). Это где-то 2500 работников. Ни о чём архив в принципе, но задача была именно в сохранении десятилетий всей цифровой жизни - историю контракта требовалось хранить до 49 лет. Компания денег не жалела, поэтому удалось на опыте ознакомиться со всеми гражданскими корпоративными методами и технологиями, выбрать лучшие из доступных (кто сказал IBM/ЕМС?).

Методика обращения с данными напрямую опирается на их "температуру" - частоту запросов из архива.

В эту "горячую зону" также заливается всё снаружи, потом уходит на медленные диски подешевле, там дедуплицируется, сортируется по типу, пережимается архиваторами и далее тонет на лентах. Картинки жмутся раз в 10 без потери читаемости, файлы - до 98%. Нормально.

Всё интересное - в разархивировании. Оно происходит по запросу пользователя с разной скоростью. Он кликает на ссылку вроде бы на файл или веб-адрес, а на самом деле это лежит где-то на ленте (а то даже вынуто с кассетой и положено на полочку на складе, ведь кассетная ёмкость не резиновая). Запрос адресует место хранения и если данные доступны для робота - он ставит в очередь запрос и либо разархивирует с дисков (секунды), либо с ленты (минуты).

Специальные алгоритмы круглосуточно следят за динамикой обращений к данным и автоматически "поднимают" часто требуемые данные в скоростные (и дорогущие) хранилища, где могучие IOPSы и всё "летает".

Остальные данные ранжируются по степени востребованности и раскладываются по разным хранилищам с понижающейся стоимостью хранения гигабайта вплоть до ленточных накопителей (и такие шкафы покупал, штук 5).

В итоге разовые затраты конечно большие, но за счёт распределения оборудования на разные функции и умной оркестровки это на порядок дешевле простой стопки серверов на магнитных дисках.

Так вот. Я специально за темой с тех пор не слежу, но замечал какие-то сравнимые с законом Мура темпы роста технологий архивации. То ленту удвоенной ёмкости выпустят, то скорость чтения увеличат, то на квадратный дюйм оптического диска ещё больше запишут. В общем, тут процесс не стоит на месте и в нём практически нет пресловутых серверов.

На мой взгляд, можно делать архив, а данные оттуда корректно коммерциализировать - и описанным Андреевым способом, и описанным в статье типа WebCite, и из офлайна притащить подходы.

Задача точно решаемая. И интересная.

У меня есть несколько хобби, в том числе ментальное - просто обожаю решать задачки "это нужное, но экономически неэффективное дело". Фактически подбираю устойчивую, а то и масштабируемую бизнес-модель для всякого. Тут и концептуализация, и системное мышление, и логика, и математика сразу крутятся - очень "вкусное" упражнение для серого вещества.

Прямо завтра подумать не обещаю, но что точно подумаю - гарантирую. Ещё не было задач, которые бы не решил.


Оценить письмо Reputatio: http://ezhe.ru/reputatio/071f4cf07f


Home | Main Index | Thread Index