Arquivo da Internet

Da Wikipédia, a enciclopédia livre.
Ir para a navegação Ir para a pesquisa
Arquivo da Internet
Logotipo do Internet Archive e wordmark.svg
Cara ONG
Fundação 1996
Sede Estados Unidos São Francisco
Área de ação Preservação digital
Presidente Brewster Kahle
Lema acesso universal a todo o conhecimento
Local na rede Internet
Arquivo da Internet
local na rede Internet
Logotipo
URL archive.org/
Tipo de site Livraria digital
Língua inglês
Cadastro opcional
Lucro Não
Criado por Brewster Kahle
Lançar Maio de 1996
Estado atual ativo
Slogan acesso universal a todo o conhecimento
O Internet Archive está alojado no Presidio de San Francisco , uma antiga base militar dos EUA em San Francisco de 1996 a 2009
A nova sede do Internet Archive de novembro de 2009 a 300 Funston em San Francisco , um ex- cientista cristão da igreja
O logotipo da Wayback Machine, usado desde novembro de 2001
Espelho do Arquivo da Internet na Bibliotheca Alexandrina ( Egito )

Internet Archive é uma biblioteca digital sem fins lucrativos que tem a finalidade expressa de permitir um "acesso universal ao conhecimento" [1] [2] . Oferece um espaço digital permanente para acesso a vários tipos de recursos: por exemplo, sites, áudio, imagens em movimento (vídeos) e livros. O Internet Archive foi fundado por Brewster Kahle em 1996 e faz parte do IIPC ( International Internet Preservation Consortium ). [3] Além de sua função primária de armazenamento, o Internet Archive é uma organização que faz campanha pela Internet gratuita e aberta, e é uma organização sem fins lucrativos oficialmente reconhecida nos Estados Unidos .

Os escritórios administrativos estão localizados em San Francisco, enquanto os data centers estão localizados em San Francisco, Redwood City e Mountain View, na Califórnia . A coleção digital mais massiva da biblioteca é o arquivo da web, uma espécie de coleção de "imagens estáticas" da World Wide Web catalogada por data de aquisição. Para garantir a estabilidade e segurança dos dados armazenados, todo o acervo conta com um espelho no servidor Bibliotheca Alexandrina em Alexandria, Egito . O arquivo permite que o público faça upload e download de material digital de e para seus servidores sem nenhum custo.

Também permite o acesso a um dos maiores projetos de arquivamento digital de livros existentes, faz parte da ' American Library Association e é oficialmente reconhecida pelo estado da Califórnia como uma biblioteca pública. [4] A empresa tem 200 funcionários, muitos dos quais envolvidos na digitalização de volumes de papel em centros especializados. O escritório principal de São Francisco tem trinta funcionários. O Internet Archive tem um orçamento anual de cerca de US $ 10 milhões, proveniente principalmente de uma variedade de fontes: os lucros de serviços relacionados ao rastreamento da web , colaborações, doações, doações e a Fundação Kahle-Austin. [5]

De acordo com o site Internet Archive, "muitas sociedades dão importância à preservação de artefatos relacionados ao seu patrimônio cultural. Sem esses artefatos, a civilização não tem memória e não tem como aprender com seus sucessos e fracassos. Nossa cultura agora sempre produz. Mais produtos. em formato digital. A missão do Internet Archive é ajudar a preservar esses artefatos e criar uma biblioteca digital na Internet para pesquisadores, historiadores e acadêmicos. "

História

Brewster Kahle fundou o Internet Archive em 1996, mesmo período em que fundou a empresa Alexa Internet , uma empresa que atua no rastreamento de serviços na web . O Internet Archive começou a armazenar a World Wide Web em 1996, mas a coleção não estava disponível até 2001 , quando foi desenvolvida a Wayback Machine. Em 1999, o Internet Archive é expandido com a adição de mais coleções, incluindo o Prelinger Archive . O Internet Archive atualmente inclui, inter alia, texto, áudio, imagens em movimento e software. Ele hospeda uma série de outros projetos, incluindo um arquivo de imagens da NASA , o Indexing Service Archive-It e Open Library , um catálogo de volumes editado por um software semelhante a um wiki.

Em 25 de março de 2020, após a pandemia de COVID-19 , o The Internet Archive lançou a Biblioteca Nacional de Emergência, uma iniciativa que permite o acesso em texto completo gratuito a todo o acervo digital de mais de 1 milhão de títulos do catálogo. [6] [7]

Projetos

Máquina Wayback

Ícone da lupa mgx2.svg O mesmo tópico em detalhes: Wayback Machine .

Wayback Machine é a interface da web usada pelo Internet Archive para a extração de dados em sites de arquivos. Os sites arquivados representam uma espécie de "imagens estáticas" coletadas no momento da aquisição das páginas por meio do software de indexação do Internet Archive. O nome "Wayback Machine" vem do termo "WABAC Machine" usado em uma das histórias da série animada Rocky and Bullwinkle . [8] O serviço, graças aos spiders do Alexa , armazena ao longo do tempo as mudanças e tendências dos diferentes sites . Para sites menores, ele não tem um cache comum ou as páginas raramente são armazenadas.

É um serviço útil nos seguintes casos:

  • estudo da evolução dos sites;
  • recuperação de páginas e sites perdidos;
  • procurar evidências depois de publicadas e, em seguida, excluídas.

O serviço permite o acesso a versões arquivadas de páginas da web do passado, uma espécie de "arquivo tridimensional" nas palavras do Internet Archive. Milhões de sites com seus dados (imagens, textos, documentos relacionados, etc.) são armazenados em um banco de dados gigante . Nem todos os sites estão disponíveis devido à escolha de muitos proprietários de sites de excluir seus sites da indexação. Como acontece com todos os sites baseados em dados de rastreadores da web, também faltam grandes áreas da web por uma série de razões técnicas. Vários problemas jurídicos relativos ao arquivamento e cobertura ou não de sites foram finalmente encontrados ao longo dos anos, embora não sejam o resultado de ações deliberadas. [9]

O uso do termo "Wayback Machine" no contexto do Internet Archive tornou-se tão comum que "Wayback Machine" e "Internet Archive" se tornaram quase sinônimos na cultura popular ; por exemplo, na série de televisão Law & Order: Criminal Intent (no episódio "Legacy", que foi ao ar pela primeira vez em 3 de agosto de 2008, intitulado Amor virtual na contraparte italiana), um dos protagonistas do episódio usa a "Wayback Machine" para localizar uma cópia arquivada de um site. O "instantâneo" de sites arquivados durante as várias etapas do rastreador torna-se acessível ao público geralmente após 6 a 18 meses.

Exemplos de sites arquivados pelo Internet Archive e visualizados por meio da Wayback Machine:

O Internet Archive utiliza o protocolo Robots Exclusion Standard (através do arquivo robots.txt ) para a exclusão voluntária de sites de seu banco de dados. O Internet Archive respeita as diretivas do arquivo robots.txt, certificando-se de que seus bots não indexem as páginas. Por esse motivo, o Internet Archive tornou indisponíveis vários sites que são completamente inacessíveis pela Wayback Machine. No caso de sites bloqueados, ele armazena o arquivo apenas robots.txt .

O Internet Archive aplica as regras do robots.txt retroativamente, se um site bloquear o spider do Internet Archive por meio do arquivo robots.txt, todas as páginas já armazenadas por domínio se tornam indisponíveis. Além disso, o mesmo comportamento é reservado para todos os sites que o solicitem explicitamente: por este motivo, toda vez que o dono de um site solicita sua exclusão do índice, a solicitação é consentida [10] , uma vez que não é "Internet Arquivo interessado em preservar ou oferecer acesso a sites ou outros documentos na Internet pertencentes a pessoas que não desejam seus materiais em nosso acervo. " [11]

Por exemplo, o endereço https://web.archive.org/*/https://www.ubuntu-it.org exibe as cópias das páginas da página

https://www.ubuntu-it.org,
dividido de acordo com a data de salvamento no Internet Archive.

Biblioteca aberta

A Open Library , entre cujos fundadores também está o ativista digital Aaron Swartz [12], é uma biblioteca digital criada com o objetivo de coletar cartões para cada livro já publicado, e inseri-los em um único banco de dados; uma espécie de versão de código aberto do WorldCat , nascida em oposição ao projeto de digitalização Google Books [13] (em italiano, Google Books ). O projeto nasceu em 2007 e inclui alguns milhões de fichas de catálogo e livros digitalizados no domínio público que são totalmente acessíveis e para download. [14] Open Library é um projeto que se baseia em software livre e de código aberto, o código-fonte é totalmente acessível a partir do site de referência. A partir de junho de 2010, a Open Library também oferece um e- book de serviço de empréstimo feito em colaboração com a distribuidora de conteúdo digital norte-americana OverDrive e com as bibliotecas americanas [15] .

Archive-It

Desenvolvido em 2006, o Archive-It é um serviço que permite a instituições e entidades individuais construir e preservar acervos de material digital. [16] Por meio de uma aplicação web, os assinantes do serviço podem coletar, catalogar, indexar e, ao longo de 24 horas, ter acesso total ao arquivo. As coleções são armazenadas em servidores e no Internet Archive acessíveis ao público por meio de pesquisas de texto completo . Todo o material digital é armazenado em duas cópias (uma primária e outra de backup), é regularmente indexado no Arquivo geral da Internet e uma cópia dos dados pode ser enviada aos assinantes mediante solicitação. Em 2009, o Archive-It tem 125 instituições parceiras em 42 estados dos EUA e em 11 países, para um total de 1,5 bilhão de URLs e 963 coleções públicas. As instituições que assinaram o serviço Archive-It são principalmente bibliotecas acadêmicas e faculdades, arquivos estaduais, instituições federais, museus e organizações culturais, incluindo a Organização de Literatura Eletrônica , os Arquivos do Estado da Carolina do Norte , a Biblioteca Estadual do Texas e a Comissão de Arquivos , a Universidade de Stanford , a Biblioteca Nacional da Austrália , o Grupo de Bibliotecas de Pesquisa (RLG) e muitos outros.

Imagens da NASA

O projeto NASA Images foi criado graças a um Space Act Agreement entre o Internet Archive e a NASA para tornar os arquivos de imagens, vídeos e áudio produzidos pela agência ao longo dos anos acessíveis ao público por meio de um único arquivo totalmente indexado e acessível por meio de buscas. O site foi lançado em julho de 2008 e já contém mais de 100.000 arquivos.

Coleções de recursos multimídia

Além dos arquivos da web, o Internet Archive mantém grandes coleções de ativos de multimídia digital reconhecidos, por aqueles que os carregaram no site, em domínio público nos Estados Unidos ou distribuídos com uma licença que permite a redistribuição gratuita, como as licenças Creative Commons . . Os ativos são classificados de acordo com o tipo de mídia (imagens em movimento, áudio, texto) e em outras subclassificações de acordo com diversos critérios.

Coleção de filmes

A coleção de imagens em movimento (Moving Image Collection) Internet Archive inclui: cinejornais; desenhos animados clássicos; propaganda de guerra; o Prelinger Archive , um arquivo especial que contém material considerado "efêmero" como filme patrocinado por empresas e organizações, filmes educacionais e caseiros, anúncios e outros materiais cujos direitos autorais tenham expirado. As coleções de recursos digitais são muitas e variam de acordo com o tópico e a fonte de recuperação; o brickfilm da coleção, por exemplo, contém vários filmes feitos em stop-motion com blocos de Lego; outra coleção diz respeito às eleições presidenciais dos Estados Unidos de 2004 e à campanha eleitoral relacionada. A coleção Independent News inclui várias coleções, incluindo a competição de 2001 do Internet Archive's World At War, para a qual os concorrentes criaram curtas-metragens para demonstrar a importância do acesso à informação e à história. Os arquivos relativos ao ataque às Torres Gêmeas de 11 de setembro de 2001 contêm material de arquivo produzido pelas principais redes de televisão e o evento foi transmitido ao vivo naquele dia.

Filme

Nas coleções de filmes também existem versões originais de filmes famosos, incluindo:

Coleção de áudio

A coleção de áudio inclui música, livros de áudio, notícias, antigas transmissões de rádio e uma grande variedade de outros arquivos de áudio. A coleção Live Music Archive inclui mais de 50.000 gravações de concertos de artistas independentes, artistas consagrados e conjuntos musicais que adotam regras relaxadas sobre o registro de seus shows, como Grateful Dead e Smashing Pumpkins .

Coleção de textos

Internet Archive Book Scanner

A coleção inclui textos de livros digitalizados de várias bibliotecas em todo o mundo, bem como muitas coleções especiais. O Internet Archive possui 23 centros de digitalização em cinco países, digitalizando aproximadamente 1 000 livros por dia, financiados por bibliotecas e fundações. [17] Em novembro de 2008, quando havia cerca de 1 milhão de textos, toda a coleção ocupava cerca de 0,5 petabytes , incluindo imagens brutas, arquivos PDF, OCR e dados brutos. [18]

Entre 2006 e 2008, a Microsoft Corporation colabora com o Internet Archive por meio de seu projeto Live Search Books , digitalizando mais de 300.000 livros que foram adicionados à coleção, bem como suporte financeiro e equipamento de digitalização. Em 23 de maio de 2008, a Microsoft anunciou que encerraria o projeto Live Book Search e a digitalização de novos livros. [19] A Microsoft disponibilizou livros digitalizados sem restrições contratuais e doou seu equipamento de digitalização para seu antigo parceiro.

Em outubro de 2007, os usuários do Internet Archive começaram a enviar livros de domínio público do Google Books . [20] Em janeiro de 2010, foram coletados 900.000 livros digitalizados pelo Google , que representam mais da metade do total de livros disponíveis em archive.org. Os livros são idênticos às cópias encontradas no Google e estão disponíveis para uso e download ilimitados , como todos os materiais do Internet Archive.

O Internet Archive é membro da Open Book Alliance , uma organização que está entre as mais críticas em relação ao acordo entre a Association of American Publishers e o Google para digitalizar livros.

Em 2016, também após o escândalo da eleição presidencial , o Internet Archive iniciou uma colaboração com as versões da Wikipedia em vários idiomas, preparando um programa para a substituição automática dos links quebrados no template Citation. Em sua substituição, o Internet Archive Bot [21] coloca a ' URL da cópia digital desta fonte no Internet Archive, com uma visualização de duas páginas para contextualizar a citação.[22]

Observação

  1. ^ (EN) Perguntas mais frequentes sobre o Internet Archive Arquivado em 15 de abril de 2013 no Wikiwix.
  2. ^ (EN) Arquivo da Internet: Acesso universal a todos os conhecimentos arquivado em 13 de outubro de 2013 no Arquivo da Internet .
  3. ^ (EN) Membros arquivados em 13 de junho de 2010 no Internet Archive . (Consórcio Internacional de Preservação da Internet)
  4. ^ (EN) "Arquivo da Internet oficialmente para a biblioteca" Arquivado em 1 de setembro de 2016, Wikiwix., 2 de maio de 2007.
  5. ^ (EN) CabinetMagazine.org Arquivado em 19 de março de 2013 no Internet Archive .
  6. ^ Palmer Haasch, The Internet Archive Lançou uma biblioteca pública digitalizada sem espera com mais de 1 milhão de livros que normalmente estão disponíveis apenas para escolas e bibliotecas , em insider.com.
  7. ^ Anunciando a Biblioteca Nacional de Emergências em archive.org. Recuperado em 26 de março de 2020 ( arquivado em 26 de março de 2020).
  8. ^ (EN) Verde Urze, Uma biblioteca tão grande quanto o mundo: Brewster Kahle possui a tecnologia para reunir o arquivo definitivo do conhecimento humano. O que o está impedindo? Leis restritivas de direitos autorais , Business Week Online, 28 de fevereiro de 2002. Recuperado em 25 de junho de 2007 ( arquivado em 1 de junho de 2002).
  9. ^ (EN) Thelwall, M. & Vaughan, L. (2004). Uma boa história da Web? Examining country balance in the Internet Archive, Library & Information Science Research, 26 (2), 162-176.
  10. ^ (EN) Alguns sites não estão disponíveis por causa de Robots.txt ou outras exclusões Arquivado em 15 de abril de 2011 no Internet Archive .
  11. ^ (PT) Como posso remover as páginas do meu site da Wayback Machine? Arquivado em 10 de outubro de 2013 Internet Archive .
  12. ^ Aaron Swartz O projeto Open Library em openlibrary.org. Recuperado em 2 de maio de 2019 ( arquivado em 27 de junho de 2015).
  13. ^ (EN) Antone Gonsalves, Progresso das reivindicações do arquivo da Internet contra a iniciativa da biblioteca do Google , InformationWeek, 20 de dezembro de 2006. Obtido em 5 de janeiro de 2007 ( arquivado em 14 de outubro de 2007).
  14. ^ ( EN ) The Open Library faz sua estreia online , Chronicle of Higher Education, The Wired Campus, 19 de julho de 2007. Recuperado em 26 de janeiro de 2013 (arquivado por 'URL original 30 de setembro de 2007).
  15. ^ Small Moves: Open Integrates Digital Library Lending , em blog.openlibrary.org. Retirado 26 de janeiro, 2013.
  16. ^ (EN) Stefanie Olsen, Preserving the Web one group de cada vez , CNet News.com, 1 de maio de 2006.
  17. ^ (EN) Livros que fazem a varredura para ser financiado publicamente Arquivado em 24 de setembro de 2009 no Internet Archive ., Anúncio de Brewster Kahle, 23 de maio de 2008.
  18. ^ (EN) "Bulk Access to OCR for 1 Million Books" Arquivado em 6 de dezembro de 2008 no Internet Archive ., Via Open Library Blog, por raj, 24 de novembro de 2008.
  19. ^ (PT) "Book search winding down" Arquivado em 20 de agosto de 2008 no Internet Archive ., Live Search Blog. Anúncio oficial da Microsoft. Último acesso em 23 de maio de 2008.
  20. ^ (PT) Google Books at Internet Archive Arquivado em 3 de outubro de 2013 Internet Archive ..
  21. ^ Você também pode consultar a discussão IABot blue linking to the Internet archive books de 14 de novembro de 2019, presente na versão em inglês da Wikipedia
  22. ^ The Internet Archive Wikipedia Is Making More Reliable , em wired.com, 11 de março de 2019. Recuperado em 24 de novembro de 2019 ( arquivado em 24 de novembro de 2019).

Itens relacionados

Outros projetos

links externos

Outros Projetos e Recursos
Controle de autoridade VIAF (EN) 123 343 900 · LCCN (EN) n2001062537 · GND (DE) 1222513323 · BNF (FR) cb170635025 (data) · NLA (EN) 54,3568 milhões · Identidades WorldCat (EN)lccn-n2001062537
Informática Portal de TI : acesse as entradas da Wikipedia que lidam com TI