КРАТКОЕ СОДЕРЖАНИЕ (кто не хочет читать):
- web-страницы в Интернете исчезают бесследно;
- чтобы исчезали не бесследно, web-страницы и файлы можно сохранять в Internet Archive по ссылке https://web.archive.org/save/АДРЕС_СТРАНИЦЫ;
- какие-то web-страницы не сохраняются, поэтому сначала сохраните в https://akkela.net/copyhtml/, а потом полученный URL по ссылке https://web.archive.org/save/АДРЕС_СТРАНИЦЫ;
- какие-то файлы не сохраняются, поэтому сначала сохраните в https://leopard.hosting.pecon.us/, а потом полученный URL по ссылке https://web.archive.org/save/АДРЕС_СТРАНИЦЫ;
- ещё большие тексты можно сохранять сначала в pastebin.com, а потом полученный URL по ссылке https://web.archive.org/save/АДРЕС_СТРАНИЦЫ;
- бонусом в статье рассказывается о способе сделать копию закрытых страниц и замену peeep.us;
- если не нравятся предложенные сайты, ищите альтернативы сами. :)
Подробнее (много текста):
История
Первые страницы в Интернете были созданы ещё в 1991 году.
Но 24 года назад, лишь в 1996 году Брюстером Кейлом была организована некоммерческая организация Internet Arсhive, собирающая копии веб-сайтов, с 2001 года предоставившая публичный доступ к своей Waybackmachine (накопилось свыше 50 петабайт данных и число перевалило за полтриллиона страниц).
Но, к сожалению, материалы за около 5 лет, когда сайты были, а архива не было, фактически потеряны.
Распадаются страны (например, домен .yu — Югославия), упраздняются организации, прекращают работу сайты, следовательно сведения бесследно исчезают.
Информация — это история и культура.
Доп.почитать: Почему у нас осталось так мало раннего Интернета (Хабрахабр)
https://ru.wikipedia.org/wiki/Архив_Интернета
Например, сайт прекратившей работу компании, создавшей один из первых интернет-браузеров:
https://web.archive.org/web/20070917180729/http://www.netscape.com/
«Существует два типа людей: 1) которые ещё не делают резервное копирование и 2) которое уже делают.»
Лучшие практики того,
как можно вручную сохранить ценную информацию [почти] навечно (на примере Пикабу).
Чтобы сохранить АДРЕС_СТРАНИЦЫ, нужно прописать:
https://web.archive.org/save/АДРЕС_СТРАНИЦЫ
Чтобы найти АДРЕС_СТРАНИЦЫ потом:
https://web.archive.org/web/*/АДРЕС_СТРАНИЦЫ
Подробнее:
1) Web-страницы публично открытых сайтов (когда waybackmachine срабатывает).
Стандартно. «Скармливать» ему лучше чистую ссылку (например, https://pikabu.ru/story/_7676787, без заголовка в URL). Чтобы потом проще было найти в архиве, если статья исчезнет.
2) Текстовая информация.
Сохранить текст, большой текст можно в pastebin.com (должно хранить вечно, но кто знает).
А потом дополнительно для спокойствия сохраняем в Waybackmachine.
Обе ссылки можно дать, например, в комментарии.
3.1) Файлы по ссылкам.
Стандартно. Упомянутый Архив Интернета сохраняет файлы, если дать на них прямую ссылку.
В комментариях можно дать ссылку на резервную копию файла.
3.2) Файлы по ссылкам, когда waybackmachine не сработал, ИЛИ же закрытые файлы.
Во-первых, применимо, когда сохранение не проходит из-за настроек сервера.
Во-вторых, применимо, когда у вас есть свой файл, который хочется опубликовать и сделать так, чтобы ссылка на него была доступна в комментариях и в будущем, навсегда.
Тогда файл стоит «перезалить», сохранить и дать на него ссылку.
Последовательность действий моя:
- загружаем файл через https://leopard.hosting.pecon.us/ (даёт прямые ссылки; утверждает, что хранит файл вечно; до 100 мегабайтов);
- дополнительно сохраняем полученную ссылку в Waybackmachine;
- в комментариях к странице даём обе ссылки;
- опционно: сохраняем в waybackmachine ещё и статью с комментариями (где будут эти ссылки).
Критерии хостинга: без регистрации, получается прямая ссылка (которая сохранится в Waybackmachine), а бонусом идёт вечное хранение (как утверждается). Но если и не вечное, то зеркало будет в Архиве Интернета.
Если у вас есть подпадающие под эти критерии хостинги — кидайте в комментарии.
4.1) Web-страницы публично открытых сайтов, когда waybackmachine не сработал, ИЛИ же закрытые страницы.
Во-первых, применимо, когда сохранение конкретной страницы не проходит опять-таки из-за настроек сервера (например, сайт подгружает информацию по нажатию мыши).
Во-вторых, применимо, когда есть информация, которая доступна после авторизации, а давать логин-пароль не рационально.
С первым примером всё ясно.
Типичный пример второго — та же Лепра, или страница с закрытого паблика соцсети, или страница с электронной почты. Сделать копию HTML, не давая доступа к учётной записи, чтобы показать, можно.
В своё время для этого использовался созданный в 2009 году сайт peeep.us, который бонусом был ещё и удобным сокращателем ссылок. Но он увы канул в Лету... Ничто не вечно.
Доступный аналог (к сожалению, в отличие от исчезнувшего сервиса ссылки не сокращает и хранит информацию у себя не вечно, хотя с первостепенной задачей справляется):
https://akkela.net/copyhtml/
Как работать:
- зайти на сайт, скопировать букмарклет себе в браузер (или быть готовым запустить скрипт, например, через консоль);
- зайти на нужную страницу;
- запустить букмарклет, чтобы осуществить копирование страницы. Учтите, она пропадёт в скором времени!
- дополнительно сохранить её с помощью в waybackmachine навечно;
- в комментарии к странице даём обе ссылки;
- опционно: сохраняем в waybackmachine ещё и статью с комментариями (где будут эти ссылки).
4.2) Страницы закрытых сайтов (исправленные).
Как и в peeep.us, разумеется, если вам дали страницу, полностью доверять содержимому на ней нельзя: перед загрузкой страницы её можно отредактировать и отправить на сервер отредактированную (подменённую) версию.
Как подменить:
После изменения HTML страницы данный код позволяет отправить страницу, как её видит пользователь:
(function() {
var send = function(url, content, type) {
if (type == null)
type = 'text/html;charset=utf-8';
else
type = type.match(/^[^;]+/)+';charset=utf-8';
var form = document.createElement('form');
form.setAttribute('method', 'post');
form.setAttribute('action', 'http://akkela.net/create.php');
form.setAttribute('enctype', 'multipart/form-data');
form.setAttribute('accept-charset', 'utf-8');
var input = document.createElement('input');
input.setAttribute('type', 'hidden');
input.setAttribute('name', 'r_content');
input.setAttribute('value', content);
form.appendChild(input);
input = input.cloneNode(false);
input.setAttribute('name', 'r_url');
input.setAttribute('value', window.location.protocol + "//" + window.location.hostname);
form.appendChild(input);
input = input.cloneNode(false);
input.setAttribute('name', 'r_type');
input.setAttribute('value', type);
form.appendChild(input);
document.body.appendChild(form);
form.submit();
document.body.removeChild(form);
};
var showLoad = function() {
if (document.getElementById('peeeppeeeppeeep') != null)
return;
var div = document.createElement('div'), img = document.createElement('img');
img.setAttribute('src', 'http://www.peeep.us/assets/load.gif');
div.appendChild(img);
div.setAttribute('style', 'position: fixed; left: 50%; top: 0; margin-left: -24px; padding: 8px; background: rgba(255,255,255,0.9);');
div.id = 'peeeppeeeppeeep';
document.body.appendChild(div);
};
try {
showLoad();
var url = location.href;
var r = new XMLHttpRequest();
r.open('GET', url, true);
//r.overrideMimeType('application/octet-stream');
r.onreadystatechange = function() {
try {
if (r.readyState == 4) {
if ((r.status >= 200 && r.status < 300) || (r.status >= 400 && r.status < 500)) {
//send(url, r.responseText, r.getResponseHeader('Content-type'));
send(url, document.documentElement.outerHTML, r.getResponseHeader('Content-type'));
} else {
throw r.statusText;
}
}
}
catch(e) { alert('Error: '+e+'\nPlease, try again'); }
};
r.send(null);
}
catch(e) { alert('Error: '+e+'\nPlease, try again'); }
})();
Пример результата:
- Хабрахабр: лучшие месяца + доп.абзац (скоро удалится).
- Зеркало, которое не удалится.
Типичные примеры спасения файлов, когда ссылка в посте больше не работает, и иное:
1. Пикабу: Векторные дома в изометри, раздаю бесплатно:) (с сайта, указанного в посте, не грузится, но Архив Интернета скопировал).
2. Голосовое управление офисной оргтехникой (по ссылке в посте не грузится, но файл залит на хостинг, а потом сохранён в Архив Интернета).
3. Сайт peeep.us больше не работает, пропал и их javascript, но код сохранён в 2017 году.
4. Аналогичный файл javascript сайта-аналога, не был сохранён. А был сохранён позавчера мной, и я был первым. Если что с сайтом случится, файл останется.