如何使用PHP从网页中提取URL

以下PHP代码将从网页URL获取所有链接。
“file_get_contents()”函数用于从URL获取网页内容。
获取的网页内容存储在“$urlcontent”变量中。
使用“domdocument”类从网页HTML内容中提取所有URL或者链接。
如果它是有效的URL,则所有链接将在返回之前使用“filter_validate_url”进行验证。

$urlContent = file_get_contents('http://php.net');
$dom = new DOMDocument();
@$dom->loadHTML($urlContent);
$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate("/html/body//a");
for($i = 0; $i < $hrefs->length; $i++){
    $href = $hrefs->item($i);
    $url = $href->getAttribute('href');
    $url = filter_var($url, FILTER_SANITIZE_URL);
    //validate url
    if(!filter_var($url, FILTER_VALIDATE_URL) === false){
        echo '<a href="'.$url.'">'.$url.'</a><br />';
    }
}
日期:2020-06-02 22:15:29 来源:oir作者:oir