Diferencia entre revisiones de «Internet profunda»

Contenido eliminado Contenido añadido
SeroBOT (discusión · contribs.)
m Revertidos los cambios de 186.141.138.142 (disc.) a la última edición de Gaijin
Etiqueta: Reversión
Maose (discusión · contribs.)
m Se agregan enlaces internos, se suprimen repetidos o se reorganizan
Línea 3:
[[Archivo:Infografía sobre la encriptación de la deep web.png|miniaturadeimagen|300px|Cifrado de la Internet profunda]]
 
'''Internet profunda'''<ref>[http://www.fundeu.es/recomendacion/internet-profunda-mejor-que-deep-web/ «internet profunda, mejor que Deep Web.» («Aunque es posible emplear tanto el masculino como el femenino, la forma femenina es la que de hecho está más extendida con gran diferencia.»).] [[Fundeu]]. Consultado el30 de marzo de 2016.</ref> (del [[idioma inglés|inglés]], ''deep web''), '''internet invisible'''<ref name="jal">{{cita publicación|título=Beyond google: the invisible web in the academic library|url=https://www.sciencedirect.com/science/article/pii/S0099133304000801?np=y|volumen=30|número=4|fecha=julio de 2004|páginas=265-269|last1=Devine|first1=Jane|last2=Egger-Sider|first2=Francine|publicación=The Journal of Academic Librarianship|fechaacceso=6 de febrero de 2014|doi=10.1016/j.acalib.2004.04.010}}</ref> o '''internet oculta'''<ref name="cthw">{{cita publicación|título=Crawling the Hidden Web|obra=27th International Conference on Very Large Data Bases|fecha=11-14 de septiembre de 2001|first1=Sriram|last1=Raghavan|first2=Hector|last2=Garcia-Molina|ubicación=Rome, Italy|url=http://ilpubs.stanford.edu:8090/725/}}</ref> es el contenido de [[internet]] que no está [[Indexación|indexado]] por los [[Motor de búsqueda|motores de búsqueda]] convencionales, debido a diversos factores.<ref name="EP1">{{cita web
|nombre = Daniel Sánchez
|enlaceautor = elpais.com
Línea 10:
|url = http://elpais.com/elpais/2016/10/17/tentaciones/1476714486_345940.html
|fechaacceso = 2017
}}</ref> El término se atribuye al informático [[Mike Bergman]].<ref name="wright2009">{{cita noticia
| apellido = Wright
| nombre = Alex
Línea 21:
== Origen ==
 
La principal causa de la existencia de la internet profunda es la imposibilidad de los motores de búsqueda ([[Google]], [[Yahoo]], [[Bing]], etc.) de encontrar o indexar gran parte de la información existente en Internet. Si los buscadores tuvieran la capacidad para acceder a toda la información entonces la magnitud de la «internet profunda» se reduciría casi en su totalidad. No obstante, aunque los motores de búsqueda pudieran indexar la información de la internet profunda esto no significaría que esta dejara de existir, ya que siempre existirán las [[Página web|páginas]] privadas. Los motores de búsqueda no pueden acceder a la información de estas páginas y sólo determinados usuarios, aquellos con contraseñas o códigos especiales, pueden hacerlo.
 
La ''Deep Web'' es un sitio perfecto para el crimen organizado, ahí pueden establecerse contactos que no son monitoreados, nadie esta allí observando. Además las transferencias tanto de mercancía como de pagos son prácticamente imposible de rastrear. La web está dividida en dos partes, la [[Internet superficial|web superficial]] y la web profunda. Esta última es la que se conoce como ''Deep Web'', donde se ubica todo contenido que no es indexable por los buscadores, o al que los usuarios no pueden acceder mediante un navegador[[buscador web]] como [[DuckDuckGo]], [[Startpage]], [[Yandex]], [[Ecosia]], Yahoo!, Google o Bing.
La internet profunda no es una región prohibida o mística de internet, y la tecnología relacionada con ella por lo general no es conspirativa, peligrosa o ilegal. En ella se alberga todo tipo de recurso al que se es difícil de acceder mediante métodos comunes como los motores de búsqueda populares.
 
Una parte de la internet profunda consiste en redes internas de instituciones científicas y académicas que forman la denominada ''Academic Invisible Web:'' («Internet académica invisible» por sus siglas en inglés) la cual se refiere a las [[Base de datos|bases de datos]] que contienen avances tecnológicos, publicaciones científicas, y material académico en general a los cuales no se pueden acceder fácilmente.<ref> {{cita web |fechaacceso=28 de octubre de 2014 |apellido= Lewandowski |nombre= Exploring the academic invisible web |fecha= 11 de noviembre de 2013|obra=Library Hi Tech| idioma= inglés |cita=the Academic Invisible Web (AIW). We define the Academic Invisible Web as consisting of all databases and collections relevant to academia but not searchable by the general-purpose internet search engines.}}</ref>
 
== Tamaño ==
Línea 33:
La internet profunda es un conjunto de sitios web y bases de datos que buscadores comunes no pueden encontrar ya que no están indexadas. El contenido que se puede hallar dentro de la internet profunda es muy amplio<ref>{{cita web |url=http://eds.b.ebscohost.com/eds/detail/detail?vid=1&sid=a3d91cb8-ac3b-4bba-b529-362f524dd50d%40sessionmgr111&hid=111&bdata=Jmxhbmc9ZXMmc2l0ZT1lZHMtbGl2ZQ%3d%3d#db=a9h&AN=91735298 |título= The Deep Web.|fechaacceso=28 de octubre de 2014 |apellido= Grossman |nombre= Lev|fecha= 11 de noviembre de 2013|obra= Time|idioma= inglés |cita= Technically the Deep Web refers to the collection of all the websites and databases that search engines like Google don't or can't índex}}</ref>.
 
El internet se ve dividido en dos ramas, Lala internet profunda y la superficial. La [[internet superficial]] se compone de páginas indexadas en [[Servidor DNS|servidores DNS]] con una alfabetización y codificación de página perfectamente entendible por los motores de búsqueda, mientras que la internet profunda está compuesta de páginas cuyos dominios están registrados con extensiones .onion y los nombres de los dominios están codificados en una trama HASH. Estas páginas se sirven de forma ad hoc, y no necesitan registrarse, basta con que tu ordenador tenga funcionando un servicio onion, que hará las veces de un servicio dns, pero especial para las páginas del internet profundo. Mediante una red P2P, se replican las bases de datos que contienen la resolución de nombres HASH.
 
Mientras que las páginas normales son identificadas mediante el protocolo UDP/IP, las páginas .onion son repetidas por el ramal al que se ha conectado el navegador especializado para tal sistema de navegación segura. El sistema de búsqueda es el mismo que usa BitTorrent. El contenido se coloca en una base de datos y se proporciona sólo cuando lo solicite el usuario.<ref>{{cita web |url=http://eds.b.ebscohost.com/eds/pdfviewer/pdfviewer?vid=3&sid=a3d91cb8-ac3b-4bba-b529-362f524dd50d%40sessionmgr111&hid=111 |título= Understanding the Deep Web |fechaacceso=28 de octubre de 2014 |apellido=Iffat |nombre=Rabia |fecha= 1 de octubre de 2010|obra= Library Philosophy and Practice 2010 |idioma= inglés |cita=Surface Web is made up of static and fixed pages, whereas Deep Web is made up of dynamic pages. Static pages do not depend on a database for their content. They reside on a server waiting to be retrieved, and are basically html files whose content never changes.}}</ref>
Línea 43:
Estimaciones basadas en la extrapolación de un estudio de la Universidad de California en Berkeley especula que actualmente la internet profunda debe tener unos 91&nbsp;000 terabytes.<ref>[http://www.deepweb.es/que-es-la-deep-web DeepWeb.]</ref>
 
La Association for Computing Machinery (ACM) publicó en 2007 que Google y [[Yahoo]] indexaban el 32&nbsp;% de los objetos de la internet profunda, y MSN tenía la cobertura más pequeña con el 11&nbsp;%. Sin embargo, la cobertura de los tres motores era de 37&nbsp;%, lo que indicaba que estaban indexando casi los mismos objetos.<ref>{{cita web |url= http://eds.b.ebscohost.com/eds/pdfviewer/pdfviewer?sid=d1f42ee9-d949-4a44-b3da-1431daba94ac%40sessionmgr198&vid=6&hid=114 |título= Ebscohost. |fechaacceso=29 de octubre de 2014 |apellido= He|nombre= Bin|fecha= 1 de mayo de 2007|obra= Communications of the ACM |idioma= inglés |cita=Google and Yahoo both indexed 32% of the deep Web objects, and MSN had the smallest coverage of 11%. However, there was significant overlap in what they covered: the combined coverage of the three largest search engines increased only to 37%, indicating they were indexing almost the same objects.}}</ref>
 
== Motivos ==
Línea 59:
Son páginas de texto, archivos, o en ocasiones información a la cual se puede acceder por medio de la [[World Wide Web]] que los buscadores de uso general no pueden, debido a limitaciones o deliberadamente, agregar a sus índices de páginas web.
 
La Web profunda se refiere a la colección de sitios o bases de datos que un buscador común, como [[Google]], no puede o no quiere indexar. Es un lugar específico del internet que se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la identidad de uno, a menos que uno lo desee.<ref>{{cita publicación|apellido=Grossman|nombre=Lev|coautores=Newton-Small, Roy & Stampler|título=The Deep Web|publicación=Time|fecha = noviembre de 2013|volumen=182|número=20}}</ref>
 
Bergman, en un artículo semanal sobre la Web profunda publicado en el ''Journal of Electronic Publishing'', mencionó que Jill Ellsworth utilizó el término «Web invisible» en [[1994]] para referirse a los sitios web que no están registrados por ningún motor de búsqueda.<ref name="whi">{{cita web|autor=Bergman, Michael K.|título=White Paper: The Deep Web: Surfacing Hidden Value|url=http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104|fechaacceso=30 de octubre de 2014|idioma=inglés}}</ref>
 
En su artículo, Bergman citó la entrevista que Frank García hizo a Ellsworth en [[1996]]:<ref>{{cita publicación | apellido = Garcia | nombre = Frank | título = Business and Marketing on the Internet | publicación = Masthead | volumen = 9 | número = 1 | fecha = enero de 1996 | url = http://tcp.ca/Jan96/BusandMark.html | fechaacceso = 24 de febrero de 2009 | urlarchivo = https://web.archive.org/web/19961205083117/http://tcp.ca/Jan96/BusandMark.html | fechaarchivo = 5 de diciembre de 1996 }}</ref> {{cita|Sería un sitio que, posiblemente esté diseñado razonablemente, pero no se molestaron en registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto, nadie puede encontrarlos! Estás oculto. Yo llamo a esto la Web invisible.}}
 
Otro uso temprano del término ''Web Invisible o web profunda'' fue por Bruce Monte y Mateo B. Koll de Personal Library Software, en una descripción de la herramienta @ 1 de web profunda, en un comunicado de prensa de diciembre de 1996.<ref name="PLS">@1 comenzó con 5.7 terabytes de contenido, estimado en 30 veces el tamaño de la naciente World Wide Web; PLS fue adquirida por [[AOL]] en 1998 y @1 fue abandonado.{{cite press release
Línea 75:
}}</ref>
 
La importancia potencial de las bases de datos de búsqueda también se reflejó en el primer sitio de búsqueda dedicado a ellos, el motor AT1 que se anunció a bombo y platillo a principios de [[1997]]. Sin embargo, [[PLS]], propietario de AT1, fue adquirida por [[AOL]] en [[1998]], y poco después el servicio AT1 fue abandonado.<ref name="whi"/>
 
El primer uso del término específico de ''web profunda'', ahora generalmente aceptada, ocurrió en el estudio de Bergman de [[2001]] mencionado anteriormente.
 
Por otra parte, el término web invisible se dice que es inexacto porque:
Línea 88:
[[Archivo:Infografía sobre la deep web.png|miniaturadeimagen|420x420px|Infografía sobre la deep web]]
 
Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la Web profunda. El Protocolo del sitio (primero desarrollado e introducido por [[Google]] en 2005) y OAI son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos de la internet profunda en los servidores web en particular. Ambos mecanismos permiten que los servidores web anuncien las direcciones [[URL]] que se puede acceder a ellos, lo que permite la detección automática de los recursos que no están directamente vinculados a la Web de la superficie. El sistema de búsqueda de la Web profunda de Google pre-calcula las entregas de cada formulario [[HTML]] y agrega a las páginas HTML resultantes en el índice del motor de búsqueda de Google. Los resultados surgidos arrojaron mil consultas por segundo al contenido de la Web profunda.<ref>{{cita web|autor=Madhavan, Jayant; Ko, David; Kot, Lucja; Ganapathy, Vignesh; Rasmussen,Alex & Havely, Alon|título=Google’s DeepWeb Crawl|url=http://www.cs.cornell.edu/~lucja/Publications/I03.pdf|fechaacceso=30 de octubre de 2014|idioma=inglés}}</ref> Este sistema se realiza utilizando tres algoritmos claves:
* La selección de valores de entrada, para que las entradas de búsqueda de texto acepten palabras clave.
* La identificación de los insumos que aceptan solo valores específicos (por ejemplo, fecha).
Línea 106:
[[Archivo:Tor-logo-2011-flat.svg|260x260px|miniaturadeimagen|Logo de Tor]]
 
''The Onion Router'' (abreviado como TOR) es un proyecto diseñado e implementado por la [[Armada de los Estados Unidos|marina de los Estados Unidos]] lanzado el [[20 de septiembre]] de [[2002]]. Posteriormente fue patrocinado por la [[EFF]] (Electronic Frontier Foundation, una organización en defensa de los [[derechos digitales]]). Al presente ([[2017]]), subsiste como TOR Project, una organización sin ánimo de lucro galardonada en [[2011]] por la [[Free Software Foundation]] por permitir que millones de personas en el mundo tengan libertad de acceso y expresión en internet manteniendo su privacidad y anonimato.<ref name="unam">{{cita web|autor=Becerra Gutiérrez Juan Armando|título=Mitos y realidades de la internet profunda|url=http://revista.seguridad.unam.mx/numero-20/mitos-y-realidades-de-la-internet-profunda|fechaacceso=30 de octubre de 2014}}</ref>
 
A diferencia de los navegadores de internet convencionales, Tor le permite a los usuarios navegar por la Web de forma anónima. Tor es descargado de 30 millones a 50 millones de veces al año, hay 0,8&nbsp;millones de usuarios diarios de Tor y un incremento del 20&nbsp;% solamente en [[2013]]. Tor puede acceder a unos 65006 500&nbsp;sitios web ocultos.<ref>{{cita web |url=http://eds.b.ebscohost.com/eds/detail/detail?vid=1&sid=a3d91cb8-ac3b-4bba-b529-362f524dd50d%40sessionmgr111&hid=111&bdata=Jmxhbmc9ZXMmc2l0ZT1lZHMtbGl2ZQ%3d%3d#db=a9h&AN=91735298 |título= The Deep Web. |fechaacceso=28 de octubre de 2014 |apellido= Grossman |nombre= Lev|fecha= 11 de noviembre de 2013|obra= Time|idioma= inglés |cita=Unlike conventional Internet browsers, Tor's allows users to surf the Web anonymously. Tor is downloaded 30 million-50 million times a year. There are 800,000 daily Tor users―a jump of 20% in the past year. Tor can access 6,500 hidden websites.}}</ref>
A diferencia de los navegadores de internet convencionales, Tor le permite a los usuarios navegar por la Web de forma anónima.
Tor es descargado de 30 millones a 50 millones de veces al año, hay 0,8&nbsp;millones de usuarios diarios de Tor y un incremento del 20&nbsp;% solamente en 2013. Tor puede acceder a unos 6500&nbsp;sitios web ocultos.<ref>{{cita web |url=http://eds.b.ebscohost.com/eds/detail/detail?vid=1&sid=a3d91cb8-ac3b-4bba-b529-362f524dd50d%40sessionmgr111&hid=111&bdata=Jmxhbmc9ZXMmc2l0ZT1lZHMtbGl2ZQ%3d%3d#db=a9h&AN=91735298 |título= The Deep Web. |fechaacceso=28 de octubre de 2014 |apellido= Grossman |nombre= Lev|fecha= 11 de noviembre de 2013|obra= Time|idioma= inglés |cita=Unlike conventional Internet browsers, Tor's allows users to surf the Web anonymously. Tor is downloaded 30 million-50 million times a year. There are 800,000 daily Tor users―a jump of 20% in the past year. Tor can access 6,500 hidden websites.}}</ref>
 
Cuando se ejecuta el software de Tor, para acceder a la internet profunda, los datos de la computadora se cifran en capas. El software envía los datos a través de una red de enlaces a otros equipos ―llamados en inglés '' «relays»'' (‘nodos’)― y lo va retransmitiendo quitando una capa antes de retransmitirlo de nuevo, esta trayectoria cambia con frecuencia. Tor cuenta con más de 4 000 retransmisiones y todos los datos cifrados pasan a través de ―por lo menos― tres de estos ''relays''. Una vez que la última capa de cifrado es retirado por un nodo de salida, se conecta a la página web que desea visitar.
Tor cuenta con más de 4000 retransmisiones y todos los datos cifrados pasan a través de ―por lo menos― tres de estos relays. Una vez que la última capa de cifrado es retirado por un nodo de salida, se conecta a la página web que desea visitar.
 
El contenido que puede ser encontrado dentro de la internet profunda es muy vasto, se encuentran por ejemplo, datos que se generan en tiempo real, como pueden ser valores de Bolsa, información del tiempo, horarios de trenes;, bases de datos sobre agencias de inteligencia, disidentes políticos y contenidos criminales.<ref name=El_inmenso_mar/>
 
=== Criptomoneda===
Línea 120 ⟶ 118:
[[Archivo:Bitcoin logo.svg|thumb|Logo de Bitcoin, una de las criptomonedas más populares.]]
 
Es posible encontrar sitios web que realicen transacciones ilegales (como drogas, armas, o incluso asesinos a sueldo) en servidores exclusivos para usuarios de Tor. Es una práctica común utilizar [[Moneda digital|monedas digitales]] como el [[Bitcoin]].<ref name="unam"/> que se intercambia a través de billeteras digitales entre el usuario y el vendedor, lo que hace que sea prácticamente imposible de rastrear.<ref>{{cita web |url=http://eds.b.ebscohost.com/eds/detail/detail?vid=1&sid=a3d91cb8-ac3b-4bba-b529-362f524dd50d%40sessionmgr111&hid=111&bdata=Jmxhbmc9ZXMmc2l0ZT1lZHMtbGl2ZQ%3d%3d#db=a9h&AN=91735298 |título= The Deep Web.|fechaacceso=28 de octubre de 2014 |apellido= Grossman |nombre= Lev|fecha= 11 de noviembre de 2013|obra= Time|idioma= inglés |cita= Bitcoin}}</ref>
 
== Recursos de la internet profunda ==
Línea 129 ⟶ 127:
* '''Contenido dinámico''': las páginas dinámicas que devuelven respuesta a una pregunta presentada o acceder a través de un formulario, especialmente si se utilizan elementos de entrada en el dominio abierto como campos de texto.
* '''Contenido no enlazado''': páginas que no están conectadas con otras páginas, que pueden impedir que los programas de rastreo [[web]] tengan acceso al contenido. Este material se conoce como páginas sin enlaces entrantes.
* '''Contenido programado''': páginas que solo son accesibles a través de [[Hiperenlace|enlaces]] producidos por [[JavaScript]], así como el contenido descargado de manera dinámica a partir de los [[Servidor web|servidores web]] a través de soluciones de [[Adobe Flash|Flash]] o [[Ajax (informática)|Ajax]].
* '''Sin contenido [[HTML]]''': contenido textual codificado en [[multimedia]] ([[imagen]] o [[video]]) [[Archivo (informática)|archivos]] o [[Formato de archivo|formatos de archivo]] específicos no tratados por los motores de búsqueda.
* '''Web privada''': los sitios que requieren de registro y de una contraseña para iniciar sesión
* '''Web contextual''': páginas con contenidos diferentes para diferentes contextos de acceso (por ejemplo, los rangos de [[direcciones IP]] de clientes o secuencia de navegación anterior).