Chin-Hock Tan

Chin-Hock Tan

I am a full time internet retailer, selling physical products through my own websites and various internet marketplaces. I write PHP web bots and screen scraper scripts during my free time for email marketing to increase web traffic, scraping products from one website to another to minimize manual entries, aggregate content for new websites etc.

I am available for hire as freelance PHP coder on web bots, screen scraper and data mining. I quote fixed price for your project if the detail of requirements are clearly outlined. 

I also help customers to build and host Joomla based business/content/blogging website, shopping cart with Virtuemart, Presta Shop, Open Cart, EC Shop, EC Mall etc. First year hosting is free.

I accept payment via Paypal. If you would like to contact me, please write to freeman [a] php8legs.com. TQ.

 

我是一名全职的网上零售商,通过自己的网站和不同的交易平台售卖实物商品。我在空闲时间写PHP机器人和网络资料提取脚本,并用于电子邮件营销以增加网站流量,从一个网站提取产品信息到另一个网站以减少手工输入,为新网站聚合内容等。

您可聘请我编码PHP机器人,网络资料提取脚本及数据挖掘。如果您详细明确阐述您的要求,我会报您一个固定的价格。

我也为客户用Joomla建立业务/内容/博客相关网站,用Virtuemart, Presta Shop, Open Cart, EC Shop, EC Mall等创建购物网站。我提供网页寄存,第一年是免费的。

我接受通过PayPal付款。如果您想联系我,请写信给“freeman [a] php8legs.com”。 谢谢。

网站网址: http://php8legs.com

PHP网络蜘蛛爬行网页提取Email地址脚本(3)

网站分页爬行

在这文章里,我将展示如何进一步修改我们的电子邮址提取脚本,注入爬行能力,并收集尽可能最多的电子邮址。

诀窍很简单 - 我们不要爬行整个网站并检查每个网页。这样做会消耗大量的带宽和时间。我们只需要抓取网页有针对性的电子邮件列表,因此,只要我们知道总页数,然后循环从第一页到最后一页就可完成任务了!

首先,检查目标网站的分页。在这个例子中,它有页面1,2,3,...和“Last”页面按钮。按下此钮将带我们到最后一页,第169页。每个页面有10个电子邮件地址,所以从这个网站可以得到将近1690电子邮址。页面总数(目前为169)将来是可以改变的。如果我们想重用我们的电子邮件提取脚本,它必须能够自动检测总页数。

PHP Email地址提取脚本cURL和正则表达式 (2)

HP Email地址提取脚本cURL和正则表达式

在本文里,我们需要稍微修改之前的PHP Email地址提取脚本。

首先,我们看回该网页的源文件,可以看到有重复块代理联系人的姓名,电子邮件和电话号码。每页有10块。

我们的策略是使用脚本“切出”每一块资料,然后存储到数组,再提取每块资料里的姓名,电子邮件和电话号码。

正如您看到的,每块以标签<div class="negotiators-wrapper">开头及以</ div></ div>结束。请注意,在这个例子中的回车和新换行分隔</ div>标记。

PHP cURL和正则表达式的Email地址提取脚本(1)

PHP cURL和正则表达式的Email地址提取脚本

在本文里,我将解释如何使用PHP/cURL从网页提取Email地址。PHP脚本将运用正则表达式匹配HTML标签提取。

想想看,如果我们寄出电邮开头以“先生您好”或“老板您好”,那收信者多数会把我们的邮件当成垃圾处理。所以使用网络爬虫或蜘蛛采集Email地址时,我们也需提取相关的资料如姓名,电话号码,公司名称,职位等。把这些资料包括在邮件内容,收信者就会仔细阅读。

当然,请您不要滥用海量采集电子邮件地址的能力,胡乱发出垃圾邮件,令人反感的广告内容,违反版权法或干扰网络带宽。如果您惹祸上身,小弟没有势力救不了您,还是请个律师帮忙好。

如何使用XAMPP本地安装(Windows电脑)Joomla 3.x 网站开发

  • 21 10月 2013 |
  • 发布于 囧啦

在XAMPP安装Joomla囧啦

如果您要开发新网站,其实您不必马上注册域名及购买网站托管计划。因为

1) 您可能在开发半途想要改变计畫,而那域名可能和您新内容不符。

2) 您可以在完成网站开发及写上足够的内容才放在网上,看起来就不会那麽空洞。

3) 您可以在不必上网的情形下向客户展示正在开发中的网站。

如果您已安装XAMPP(没有的话,请看这里如何安装),那您就可轻而易举的在本地(Windows电脑)安置Joomla,开发后才上传网络。我在这里使用Joomla 3.1.5为例子,万变不离其宗,您其实可用同样方法安装PHP/MySQL的程序如Wordpress, Drupal等等。请记得打开电脑的XAMPP。

直接去Joomla的网站下戴最新的开源内容管理系统。按"Download"。写这篇文章时是Joomla 3.1.5。

通过PHP/cURL实现HTTP Get 请求网页源文件

php cURL标志

当您成功装置XAMPP之后,我们就可以在PHP/MySQL环境生成PHP脚本索取网页源文件。PHP有很多函数库帮我们向伺服器发送请求及接收伺服器送回的文件,其中一个是我们将要用到的cURL。

现在我们先写一个间单的PHP/cURL类来协助我们向伺服器提出请求,之后我们才能向网页源文件“开刀”取出我们要的资料。我们也不时要改进我们的程序源码。

首先,在C:\xampp\htdocs下创建一个文件夹“scraper”,然后使用Notepad++在文件夹C:\xampp\htdocs\scraper创建一个文件httpcurl.php

视窗系统电脑(Windows PC)安装XAMPP开发环境

xampp图

在写PHP程序之前,我们可以在个人电脑(Windows PC)安装Apache Friends的 XAMPP. XAMPP 是功能齐全的AMPP (Apache, MySQL, PHP, Perl),而且是免费的Linux中间件。安装后您可在微软视窗系统的个人电脑运行网络机械人或蜘蛛,也可以在上传至伺服器前测试完整版的软件,如Joomla或WordPress等。

XAMPP性能相当稳定,如果您的程序没有问题,在个人电脑运行海量采集网上资料也没问题。您也不必注册域名或空间商,开发程序期间有时甚至不需要上网。

我的囧啦体验

  • 01 10月 2013 |
  • 发布于 囧啦

joomla

2005年我给一家软体公司帮我开发一个网上购物网站。这公司只有三个年轻程式设计师,用ASP设计了相当完整的网站, 有简单的内容管理系统,购物车,结账系统及Paypal付费链接。我可以从后台上传商品信息及有关文章。

缘起。。。

大约在2010年,我下载安装了一个开源的网络商城( 中国的ECMALL )。ECMall 社区电子商务系统是上海商派网络科技有限公司的电子商务产品,是一个允许店铺加盟的多店网上商城系统。它还支持Paypal付款。ECMALL在中国和亚洲各国仍然流行。

ECMALL的安装过程相当容易。虽然当时还不太懂PHP,我修改了语言包,创建ECMALL英文版。然而发布两个月后,没有一个用户上门注册开网店!我的网站仍然很新,内容很少,通过搜索引擎也很难找到它。如找不到方法吸引买家和卖家,我就要关门大吉啦。

订阅此RSS源