在这篇文章里,我将讨论如何使用PHP/cURL网路蜘蛛下载和保存图像文件。我会用之前的电子邮址提取脚本作为示范。其实相同的脚本通过一些修改后可以用来提取购物网站,如ebay.com或者amazon.com的产品信息和图像,搬到您所指定的数据库。我们也可以从目录网站提取业务信息,文字信息和图像到您的网站。
以下是要提取图像文件储存进数据库的几项考量:
1 )不同的网站, 不同页面,甚至同一页面会有很多种图像文件格式( JPEG,PNG , GIF等)。
如果我们想对从不同的网站所采集到的图像建立共同的数据库,那么我们的PHP网路蜘蛛脚本需要能够转换成我们所要的文件格式。
2 )每个图像的文件大小不同。
一些图像可能非常大,一些则非常小。我们的PHP网路蜘蛛脚本需要能够调整大文件至更小的尺寸。调整大文件至小不是问题。小尺寸调大将使质量很差。
3 )我们需要图像文件的命名约定。
各个网站图像文件命名不同。有些长文件名,有些短。图像文件存储到我们的文件夹前,我们需要重新命名这些文件。
4 )我们需要在MySQL数据库中添加一个列,并将图像链接到相关信息。
那我们可以开始了。。。