网站首页/技术开发列表/内容

用VB制作网络搜索软件

技术开发2022-05-13阅读
◆ 南京工程学院仿真部 施建强(shiyu789@163.com)

网络搜索的原理

搜索软件是通过向搜索站点发出特殊搜索字串命令(各个站点的格式不一样),然后对结果进行处理后显示出来,但如何发出搜索字符串、发出怎样的字符串还需要对HTML有一定的认识。我们知道对于网上信息的发送是通过表单的形式来进行的,也就是说当我们在网上点击某些表单时,通过表单中包含的默认地址中的表单处理程序来接受所有包含在表单中的信息,这些信息有的是显示的,而另外一些却是隐藏的。您可以试着将一个包含有表单的网页用Frontpage或者Dreamwaver打开,这时您就会发现有很多在浏览器里看不到的东西,这些隐藏的标志在您发送表单时起着重要的作用。没有这些标志,发出的字符串很可能得不到服务器的应答。

知道了这些,再来看程序所需发送的字符串,举个例子来说:雅虎中文的搜索代码是 http://cn.search.yahoo.com/search/gb?p=***,其中***代表的是所要搜索的字符串,而剩余的部分是处理字符串的服务器程序的地址。另外一个我们很常用的搜索引擎Yeah,它的搜索代码相对复杂一些,是“http:

//www2.yeah.net/cgi-bin/query2.exe?query=***&start=0&REXP=AND” ,但基本的东西没有变,它们都是使用了这样一种形式:http://目标URL?参数1名=参数1值&参数2名=参数2值&参数3名=参数3值……

对于HTTP协议,有几种传送数据的方法,其中比较常用的有GET和POST方法,对于使用GET方法进行传送数据的网站来说,使用上面的形式能够通过一条查询语句返回所需要查询的内容网页,但对于使用 POST方法的网站,有可能返回不了查询结果网页,不过从笔者的经验看,一般来说是能够成功的。

实现方法

下面剖析现在流行的搜索软件程序,并介绍使用VB制作自己的搜索软件的方法。

启动VB 6.0,首先创建一个窗体,然后要对运行环境进行一下设置:具体来说,就是添加上必要的控件,一般情况下,如果您安装了IE 4.0以上的浏览器,可通过点击VB菜单中“工程->部件”,在弹出的部件对话框中找到有一栏写着“Microsoft Internet Controls”的选项。利用它我们可以初始化一个浏览器的实例。当您选中这个选项后,会发现工具栏中多了一个形状如同地球的按钮,这就是刚才选中的浏览器控件,双击这个图标按钮在窗体上生成一个WebBrowser1的部件,接下来就使用这个部件来显示查询的结果。然后在窗体上放上一个文本框和一个按钮,其实就这几个部件已经可以构成一个最小的搜索程序基本结构了。

程序的编制

假若窗体上有一个文本框Text1、一个标签Label1、一个浏览器WebBrowser1、一个按钮Command1,其中文本框用于输入关键词,浏览器用于显示查询结果网页,按钮用于发出请求语句,点击Command1的程序代码可以这样写:

Private Sub Command1_Click()

Dim url As String

On Error Resume Next ’出错后继续

If Text1.Text = “” Then

MsgBox “请先输入关键字”

EndIf ’防止不输入关键词

url = “http://search.chinese.yahoo

.com/search/gb?p=” + Text1.Text

’将关键词放入查询语句中

Webbrowser1.Navigate url

’调用浏览器显示查询结果

End Sub

雅虎的查询语句比较简单,而对于比较复杂网站的查询语句一定要注意的是各个关键参数之间一定要用“&”来隔开。虽然您只是学会了这一招,但已经足够利用网上的资源来编写您的第一个程序了,因为网上所有类型的表单都能表示了,无论是查询股票、软件、书籍等都不外乎这种模式。只要您将查询网页调入 Frontpage、Dreamwaver等所见即所得的网页编辑软件中,这些网页的源码便会展现在您的面前,利用这些链接,再加上一个好的界面,就可以制作自己的搜索工具软件了,不过要注意的是,有些表单的传送路径是相对路径,这时要加上网站的地址链接。

程序的改进

上面的方法比起直接访问搜索站点的确能节省不少上网的时间,但并没有将程序的优势全部发挥出来,我们现在继续介绍另外一种检索网页的方法:

首先介绍一个控件Microsoft Internet Transfer(这个控件在安装VB或者某些应用程序的时候会自动安装),这个控件允许建立与其他计算机的连接,并传送文件。它使两个Internet协议HTTP和FTP的使用变得容易。当正常访问一个网页时,Internet Transfer用GET命令访问网络浏览器的一个文件。例如,如果打开了URL: http://www.computerworld.com

.cn/,浏览器将建立与地址是www.computerworld

.com的机器的连接,并传送GET命令。HTML 将通过连接以普通文本的方式返回,因为返回的内容只是所要的网页的源文件,节省了很多用于传送、显示网页中图像的时间,速度要快了许多,而且最重要的是我们可以很方便地使用自己的逻辑对返回的源文件进行正确地分析和格式化,重新整理网页的查询结果。

还用刚才的窗体,只是要在菜单中选择“工程->部件”,在弹出的对话框中找到一项“ Microsoft Internet Transfer Control”,选中后,在工具栏中您就会发现增添了一个显示有地球和计算机的小按钮,双击这个按钮会在窗体上加入一个 Internet Transfer实例Inet1,完成了这些步骤后,现在准备在实例工程中加入代码。

Internet Transfer控件有一个事件StateChanged。这个事件的目的是当不同的操作发生时通知用户程序。例如:控件在与网络服务器连接时是一种状态,检索HTML是另一种状态。当前的状态用事件过程的State 参数来表示。在示例程序的StateChanged事件中输入如下代码:

Private Sub Inet1_StateChanged(ByVal State As Integer)

Select Case State

Case 12 ’表明网络连接检索正常

stemp=Inet1.GetChunk(1024)

’使用GetChunk方法从缓冲区中一次提取1024个字节的文本,并存放在stemp临时变量中

While stemp<>“”

’当仍然返回信息时

LastResult=LastResult+stemp

’将整个网页的源文件代码放入LastResult变量中

stemp=Inet1.GetChunk(1024) ’循环

Wend

Case 11

MsgBox “未返回搜索结果”

End Select

End Sub

尽管StateChanged事件包含了这个示例程序代码的主要部分,我们仍然需要在Command1的Click事件中加入代码,以初始化这个请求。下面就是这段代码:

Private Sub Command1_Click()

url =“http://search.chinese.yahoo

.com/search/gb?p=” +Text1.Text

Inet1.protocol=icHTTP

’指明控件协议类型

Inet1.Execute CStr(url),“GET /”

’发出请求

While Inet1.StillExecuting

DoEvents

Wend

End Sub

进一步优化

前面已经提到,用这种方法返回的信息包含了搜索的结果网页,同直接搜索的区别就是由于这样返回的是源代码,暂时存储到一个临时变量中,这样一来,您可以将返回的信息直接存储到一个文件中。还有另一种方法,这就是我们下面要提到的对代码的优化处理。

什么叫对代码的优化处理呢?因为返回的结果中包含许多其他没有什么用处的修饰,比如表格、“banner”等等信息,而这些信息并不是我们需要的,去掉这些信息,只保留对我们来说有用的结果,这就是优化。那么怎样优化呢?分析HTML语法您就会看到,许多信息都是包含在一些关键词之间。举个例子:对于插入的图片来说,都是用“”来结尾,这样就清楚了,只要把代码中所有的满足以上条件的语句删掉,这样代码中就不会出现图片信息,代码如下:

Public Function picFilter(downCode)

’定义一个过滤图片信息的过程

Dim pStart As Long, pStop As Long

Dim pString1 As String, pString2 As String

pString1 = “
pString2 = “>”

’分别将两个关键词定义

pStart = InStr(downCode, pString1)

’找到第一个图片信息的起始位置

If pStart <> 0 Then

’如果代码中有图片信息的话

pStop = InStr(pStart, downCode, pString2) + 1

’从上面找的起始部位开始找到第一个用于结束图片信息的“>”

Do While pStart <> 0

’只要仍旧有图片信息就继续处理

Mid(downCode, pStart, pStop - pStart) = Space(pStop - pStart)

’将代码中的图片信息用空格代替,实现删除效果

pStart = InStr(pStop, downCode, pString1)

’重复上面的过程,删除其他的图片

If pStart = 0 Then Exit Do

’没有图片信息后,退出循环

pStop = InStr(pStart, downCode, pString2, 1) + 1

Loop

End If

picFilter=downCode

’将处理过后的代码返回过程函数

End Function

接下来只要使用lastResult=picFilter(lastResult)就实现了对临时变量中搜索结果代码的图片信息去除工作,以此类推,很容易去掉诸如“
上面所说的是一种解决方法,但我们知道HTML语法中关键词很多,如果都用以上的条件过滤的话,会使程序的效率大大降低,运行速度也会减慢很多。有没有更好的方法?有,不同的搜索引擎返回的结果有其独特的编排方式。我们仍以雅虎为例,您只要看看其返回的结果源代码就会发现:每一条信息的链接和主题部分排列都是以“
”开始,以“”结束,而在“” 和接下来的第一个“<”之间的部分是该主题的简单描述,这样我们可以用下面的代码来将雅虎搜索结果代码中的有用信息提取出来:

Public Function yahooFilter(downCode)

Dim sString1 As String, sString2 As String, sString3 As String

Dim sStart As Long, sStop As Long

Dim string1 As String, string2 As String, lastString as string

sString1 =“


sString2 =“”

sString3 =“<”

sStart = InStr(downCode, sString1)

’取得第一条主题信息的起始位置

Do While sStart <> 0

sStop = InStr(sStart, downCode, sString2)

string1 = Mid(downCode, sStart + 4, sStop - sStart)

’将第一条主题信息存放在string1变量中

sStart = InStr(sStop, downCode, sString1)

’从第一条主题信息的结束部位开始查找该主题的简单描述

sStart = sStop + 4

sStop = InStr(sStart, downCode, sString3)

’取得该主题描述部分的结束位置

If sStop = sStart Then

’判断是否只有主题而没有描述的信息

string2 = “”

ElseIf sStop <> sStart Then

string2 = Mid(downCode, sStart, sStop - sStart - 1)

’取出主题描述部分

End If

lastString = lastString + “
” + string1 + string2

’将提炼的结果存放在临时变量中

Start = InStr(sStop, downCode, sString1)

’重新定位下一条信息的起始位置

Loop ’循环

yahooFilter = lastString

End Function

经过了上面复杂的处理,将结果写到一个网页文件中,然后调用浏览器显示,就会出现整整齐齐的结果。

现在比较流行的搜索软件,比如 SearchX98、Crazysearch,它们都符合上面所说的原理,但它们各自都有自己的一些独特之处,比如SearchX98 能够连续搜索多个引擎,其实就是发出一条搜索指令后,程序本身连续向各个搜索引擎发出搜索指令,将返回的结果经过简单的处理生成一个页面,其他的内容搜索更是最简单地直接发出搜索指令而已。而对于 Crazysearch,您只要打开注册表,就会发现其中文搜索只能搜索中文雅虎,英文只能搜索Excite,号称注册版本能够搜索1000条记录,其实您只要分析一下雅虎的搜索代码就会发现,其中有一个关键词是“n=”,代表一次搜索返回的结果数目;另外一个是“b=”,代表从第几条记录开始显示,就是这两个关键词起到了重要的作用,但Crazysearch的独特之处在于返回的搜索结果以表格方式排列,直观醒目。

结束语

本文剖析了现在流行的搜索软件并介绍了使用VB 6.0制作搜索软件的办法。在搜索软件方面, 当然还有很多工作可以去做, 希望此文能起到抛砖引玉的作用。

……

相关阅读