Como salvar uma pagina da web pode ser visto off-line corretamente?

Quando eu tento abrir uma página da web salva enquanto offline, muito de sua aparência mudou como a fonte, alinhamento e outros elementos que mantém a página em forma adequada. Existe alguma maneira de eu pode manter a aparência original da página então pode vê-lo corretamente ao off-line (internet desconectado)? Estou usando a maneira usual de salvar páginas da web, que é o arquivo Salvar como-> a página da Web, completa, OK. Ele não consegue salvar a página da web como ela é.

Resposta

Tags: Browser Firefox Firefox extensões grátis Software Lynx Browser Spidering 2006, setembro de 5-20:05 — dicas Webmaster

Há muitas maneiras de salvar páginas da web e sites da web para exibição off-line. Estes métodos irão funcionar em Linux, Windows ou Mac OS X. Estas ferramentas vão salvar páginas inteiras da web e web sites. Se você está procurando uma maneira de tirar screenshots, experimente esta página em vez disso.

Salvar páginas da Web para exibição Offline com o Firefox

O Firefox tem uma extensão chamada de Scrapbook. Scrapbook permite-lhe editar páginas da web salvas, assim você pode adicionar notas, destacando, anotações de inline e muito mais. É uma excelente ferramenta para pesquisa.

Salvando Sites da Web para exibição Offline com o Firefox e Spiderzilla

SpiderZilla foi uma grande extensão de Firefox que baixei toda web sites, com uma versão embutida do HTTrack. Parece que você ainda pode baixar o Spiderzilla, mas a extensão não pode ser mantida mais. Vale a pena conferir.

Salvando Sites Web com HTTtrack

HTTrack é uma ferramenta clássica para baixar toda web sites, ou partes de sites da web. Pense com cuidado antes de usar este programa no site de alguém. Se é um site grande, você vai usar uma grande quantidade de largura de banda, então não fazê-lo para alguém do site. Use a extensão de Firefox Scrapbook, descrita acima, para baixar páginas individuais em vez disso.

Salvar páginas da Web com Lynx no Terminal

Dica: Para instalar o Lynx no Ubuntu/Debian, digite sudo apt-get install lynx. Se você deseja instalar o Lynx no Windows, eu recomendo usar o Cygwin. Não tenho certeza se o Lynx vem com o Mac OS X, mas se não for no seu Mac, você pode obter a versão Mac aqui.

Lynx é um navegador baseado em texto. Eu já escrevi um tutorial de lince que mostra como extrair texto de páginas da web. Você também pode usar o Lynx para capturar apenas o texto de várias páginas da web. No entanto é um pouco confuso e eu não recomendo, a menos que tenha uma finalidade específica que necessita de extração de texto de páginas da web, dessa maneira. Aqui está:

Primeiro crie um diretório de teste:

mkdir lynx_testing

Navegue para o diretório:

CD. / lynx_testing

Inicie o rastreamento. Não faça isso em grandes sites de outras pessoas porque ele poderia usar uma grande quantidade de largura de banda em um grande site.

Você então vai acabar com um diretório cheio de arquivos de texto com uma extensão de arquivo. dat.

Dica: você pode alterar as extensões de arquivo. dat para. txt com o seguinte comando — certificar-se de que você está no diretório certo primeiro:

Renomear - v 's/\.dat$/\.txt/' .dat

Ou remover as extensões de arquivo por completo com o seguinte comando:

Renomear - v / \.dat$ / /' .dat

Mais sobre o comando de renomear aqui

Supondo que você está deixando o. dat extensões de arquivo por agora, esta é uma lista de arquivos e o que eles contêm:

Traverse.dat — este arquivo contém uma lista de URLs que foram spidered.

traverse2.dat — este arquivo contém uma lista de URLs, incluindo o HTML<title>. Eles são listados na ordem encontrados.

lnk00000 ###.dat — cada página extraída da web serão salvas em um arquivo numerado com os títulos HTML e URLs no topo. Lynx é um navegador de texto, então esses arquivos só irão conter o conteúdo de texto de páginas da web, que o HTML será extraído. Eu tive problemas para abrir esses arquivos do Nautilus, mas você pode facilmente abri-los no terminal com os comandos como gedit lnk00000001.dat ou lnk00000001.dat de vim.

Dica: Não há mais informações sobre os arquivos criados com - passagem aqui

Se você quiser combinar todas as páginas de texto em um arquivo para pesquisa com um editor de texto visual como gedit, SciTE ou bloco de notas, você pode usar o comando cat como este:

gato > MyFile. txt

Que irá criar um arquivo chamado MyFile. txt que contém todo o texto de arquivos no diretório atual.

Você também pode grep (Pesquisar) os arquivos de uma vez com o comando grep. Navegue até o diretório com os arquivos que você deseja pesquisar e tipo algo como:

grep -i "seus termos de pesquisa"

O i - fará uma pesquisa diferencia maiúsculas de minúsculas. Para obter mais informações sobre grep, tipo homem grep no terminal.

GNU Wget

Informações do wget é breve, mas serão abordadas em outro post.

Resumo

Para salvar páginas da web individuais, eu recomendo a extensão do Firefox de Scrapbook. Para baixar e salvar toda web sites eu recomendo o HTTrack (não usá-lo em grandes sites embora). Wget é ótimo para pegar seletivamente os arquivos de uma página da Web/site. Se você souber de outras boas ferramentas para salvar páginas da web para exibição offline, deixe um comentário abaixo.</title>