为PHP网络蜘蛛提取Email地址脚本创建及储存MySQL数据库(4)

如何把收集到的资料储存在MySQL数据库

这是PHP网络蜘蛛提取Email地址脚本最后一章, 我将展示如何把收集到的资料储存在MySQL数据库。您可以把从多个网站收集到的资料储存在同一个数据库。

您也可以把资料分类。比如说您从产业网站及购物网站收集的资料分开储存在不同的数据库表。

首先在您的电脑运行XAMPP,并确保激活Apache及MySQL。在浏览器输入URL "http://localhost/phpmyadmin/"。在顶部菜单栏选择"Database"。在这教程里我们的数据库为"email_collection"。 按"Create"钮可看到如下 图般。

您可在此下戴PHP cURL邮址提取脚本。

阅读更多...

PHP网络蜘蛛爬行网页提取Email地址脚本(3)

网站分页爬行

在这文章里,我将展示如何进一步修改我们的电子邮址提取脚本,注入爬行能力,并收集尽可能最多的电子邮址。

诀窍很简单 - 我们不要爬行整个网站并检查每个网页。这样做会消耗大量的带宽和时间。我们只需要抓取网页有针对性的电子邮件列表,因此,只要我们知道总页数,然后循环从第一页到最后一页就可完成任务了!

首先,检查目标网站的分页。在这个例子中,它有页面1,2,3,...和“Last”页面按钮。按下此钮将带我们到最后一页,第169页。每个页面有10个电子邮件地址,所以从这个网站可以得到将近1690电子邮址。页面总数(目前为169)将来是可以改变的。如果我们想重用我们的电子邮件提取脚本,它必须能够自动检测总页数。

阅读更多...

PHP Email地址提取脚本cURL和正则表达式 (2)

HP Email地址提取脚本cURL和正则表达式

在本文里,我们需要稍微修改之前的PHP Email地址提取脚本。

首先,我们看回该网页的源文件,可以看到有重复块代理联系人的姓名,电子邮件和电话号码。每页有10块。

我们的策略是使用脚本“切出”每一块资料,然后存储到数组,再提取每块资料里的姓名,电子邮件和电话号码。

正如您看到的,每块以标签<div class="negotiators-wrapper">开头及以</ div></ div>结束。请注意,在这个例子中的回车和新换行分隔</ div>标记。

阅读更多...

PHP cURL和正则表达式的Email地址提取脚本(1)

PHP cURL和正则表达式的Email地址提取脚本

在本文里,我将解释如何使用PHP/cURL从网页提取Email地址。PHP脚本将运用正则表达式匹配HTML标签提取。

想想看,如果我们寄出电邮开头以“先生您好”或“老板您好”,那收信者多数会把我们的邮件当成垃圾处理。所以使用网络爬虫或蜘蛛采集Email地址时,我们也需提取相关的资料如姓名,电话号码,公司名称,职位等。把这些资料包括在邮件内容,收信者就会仔细阅读。

当然,请您不要滥用海量采集电子邮件地址的能力,胡乱发出垃圾邮件,令人反感的广告内容,违反版权法或干扰网络带宽。如果您惹祸上身,小弟没有势力救不了您,还是请个律师帮忙好。

阅读更多...
订阅此RSS源