Estimados amigos...
Les traigo una sencilla función para con una URL te extraiga el Código fuente y el texto plano de un sitio web.
Es facil de usar.
- Código: Seleccionar todo
<meta http-equiv="content-Type" content="text/html; charset=iso-8859-1" />
<meta http-equiv="content-type" content="Mime-Type; charset=iso-8859-1" />
<?php
//-----------------------------------
function getSource($host)
{
$archivo = file($host);
reset ($archivo);
while (list ($clave, $val) = each($archivo))
{
$Texto_Original .= $val;
}
return $Texto_Original;
}
//-----------------------------------
$sSourceCode = getSource('http://www.google.com') ;
function html2txt($document){
$search = array('@<script[^>]*?>.*?</script>@si',
'@<[\/\!]*?[^<>]*?>@si',
'@<style[^>]*?>.*?</style>@siU',
'@<![\s\S]*?--[ \t\n\r]*>@'
);
$text = preg_replace($search, '', $document);
return $text;
}
$sSourceCode = preg_replace("'<style[^>]*>.*</style>'siU",'', $sSourceCode);
$sSourceCode = html2txt($sSourceCode);
echo ($sSourceCode);
?>
En próximos días porteare mas ejemplos..
Saludos



