Ayer vi un post de un usuario hablando de la internet profunda, describiendola como la parte de internet manejada por hackers, habitada por pedofilos y demas lacras. Nada mas alejado de la realidad, por eso realizo este post.
La web profunda se refiere al contenido de la WWW que no es parte de la web superficial, el cual es indexable por los motores de busqueda.
La mayor parte de la informacion de la web esta enterrada profundamente en sitios generados dinamicamente, y los motores de busqueda estandard no la encuentran. Estas paginas, invisibles para los motores de busqueda actuales, no existen hasta que son creadas dinamicamente como resultado de interaccion del usuario por medio de formularios o querries.
El contenido de estas paginas puede ser:
- Contenido dinamico: Paginas que son creadas dinamicamente en respuesta a la interaccion del usuario.
- Contenido sin linkear: Paginas sin un link que llegue a ellas, lo cual imposibilita a los programas de Web Crawling llegar a ellas.
- Sitios privados: Paginas que requieren un usuario para visualizarlas.
- Contenido No-HTML/Text: Paginas con contenido codificado en archivos multimedia o archivos en formato no manejados por los motores de busqueda.
- Contenido encriptado: Paginas que son solo accesible por medio de links generados con Javascript o contenido descargado dinamicamente desde un servidor por medio de Ajax o Flash.
Aqui hay una imagen que explica correctamente (en ingles):
Y asi es la cosa; aunque seguramente no los faltan, la web profunda no es el nido de la degeneracion de internet.

