谷歌黑语法

  目录

关于搜索引擎的一些使用技巧

谷歌黑语法

平时,我们经常用百度来搜索一些东西,由于墙的原因,我们很少用谷歌,但是我们工作生活中使用百度就已经足够了。
今天这篇文章介绍一下谷歌搜索的使用技巧,因为谷歌是所搜的老大,所以其它搜索引擎也来效仿谷歌,因而,下边介绍的这些搜索知识,基本上所有的搜索引擎都会适用的。

基础语法

谷歌的默认搜索是and逻辑,意思就是,我们在输入关键字后进行搜索时,如输入:“program google”后,会搜出包含“program”和“google”的文件内容,如下图1所示。
img
说到这里,我就插入一个小知识点:基础布尔逻辑。
对于一个搜索引擎来说,进行搜索的时候是要搜索到匹配到所有关键词的页面,还是包含关键词中的任意关键词就可以,取决于一个搜索引擎的一些特别算法,称之为搜索引擎的布尔逻辑默认值。
而google就是用and作为默认逻辑(搜索到所有的关键词),当然这个前提是我们没有输入一些特殊的命令。如果你不确定你要搜索的内容,或者你想搜索两个中的任意一个,那么就要使用关键词“OR”。注意:OR是大写的,小写是不起作用的,而且,每一个关键词与“OR”之间是有一个空格的,我们来看一下搜索结果。
img
当然,可以预想的是,google的结果要比program多得多,所以结果第一页全是有关google的内容。此外,还可以借助计算机体系语言中的“|”来代替“OR”,效果是一样的。
当然,如果你希望搜索“programgoogle”的内容,而不希望这两个单词之间有任何其他的内容,那么就要使用双引号把搜索的内容组成一个词组来达到目的。如下图3所示。
img
如上图所示,结果中的programgoogle都是在一起的,没有分割。当然这样的结果比较少,只有2740个,但是看图1,结果却有7亿多个。而且,大部分搜索引擎都有智能断句的功能,如果没有特殊的命令,搜索引擎会一定量的根据大众的语言使用习惯来判断你要搜索什么,而这样的做法,不仅仅没有使搜索引擎显得不听话,反而对大众来讲搜索引擎变得十分智能和高效!
但是如果我们只想看到“program”的内容,而不希望看到“google”的内容,就可以把“-”(减号或者破折号)应用到搜索当中去,语法为“program -google”,注意,“-”之前是有一个空格的,而其后却是和下一个关键词是紧紧相连的!搜索的结果如下图4所示。可以看得到结果中都会包含program,而不包含google。
img
说到这里,还要提一下google的约束扩展问题了。一般来说,当输入关键词后,google会把相关网页和信息的结果呈现在我们面前。然而,有一些单词在搜索引擎中是会被智能忽略的,导致我们得不到想要的结果。比如十分常用的“www”和“the”,基本上任何一个网页上都会找到的东西,就会被google自动忽略(不要觉得这样不好,还是那个道理,在实际引用当中这样做反而显得更加高效和智能)。如果我们不想忽略这些词进行查询,就得在这些关键词的前面加上符号“+”。如下图5所示:
img
看上去两者好像没有什么大的区别,其实仔细比较一下搜索结果就可以看得出,加上加号的搜索结果有一万多个,而不加加号的结果却有着55亿多!而因为google和www的关联度比较高,所以在前面的结果表现的差别不大。
除了上述字符之外,一些搜索引擎支持一种叫做“stemming”(填充)的技术。Stemming是指在查询的关键词中添加一些通配符,通常是“*”,有时候也可能是“?”,这些通配符的作用是要求搜索引擎进行查询是可以返回多个不同的结果。其中通配符代表占位,可以匹配其他任意字母和单词,而其他的字或词组与用户输入的相同。如我们想要搜索“Lionel Messi”的内容,却忘记了第一个单词的一些拼写,就可以输入“l*Messi”进行查询,注意:此处整个字符串是要用一个英文半角双引号括住的!结果如下图所示。
img
可以看到,google自动匹配出Lionel Messi的内容并且进行了搜索。这样的方式有利于我们只能记住单词或短语的一部分的内容时使用。
基本的语法就讲到这里,上述的内容也没有列全,因为有些搜索功能不太常用。不过,这些语法就已经够我们日常使用的了,基本语法就是做基本的事,google也有一些高级的语法,见下边高级语法。

高级语法

intitle

首先要介绍的就是“intitle:”的用法,这个串的作用是将搜索的范围局限在标题上。在关键词前面加上这个,就会只对网页的标题进行搜索并且配对,最后将结果返回给用户。例如输入“intitle:program moon”进行搜索,就会返回如下图所示的结果。
img
但是可以看到,貌似搜索结果中只出现了关于program的内容,而并没有moon相关的内容,这里其实还是牵扯到搜索引擎的基础布尔逻辑问题,在intitle:语法上,google会检索所有的网页,只要出现program或者moon其中的一个就会被匹配,意料之中的是,关于program的内容肯定是要远远多于moon的内容的,所以搜索结果里关于program的内容占据了主导,可以理解为moon这个关键词被一定量的智能忽略了。但是如果我们想要找到网页标题中既有program又有moon的网页呢?那么我们就要使用“intitle:”的一个变体“allintitle:”,使用这个前缀后,就能得到我们想要的结果了。如下图所示,除了第一条为google的图片推荐,其余的结果中网页的标题既含有program这个关键词,又含有moon这个关键词。
img

intext

看到这个单词,大概就可以猜到它的意义了,“intext:”是用来搜索网页正文内容的,这样就可以忽略网页中的超文本链接、URL和题目。我们输入“intext:2018 program”进行搜索,结果如下图所示,结果中显示的网页大部分标题几乎没有规律,但是网页的索引中都包含着 “2018 program”,但是因为2018和program的同时出现的网页实在比较少,两个关键词的关联度实在不高(笔者此时的时间为2016年12月25日00:07:10),因为现在才是2016年,如果换成“2016 program”我相信应该会有更多的结果出现。但是我们要明白,这时搜索引擎关注的内容是网页的正文。与之相对应的也有一个变体:“allintext:”,用法和上面的“allintitle”相似,我就不做过多的介绍了。
img
到这里恐怕就有读者要问了,这与我们平时的搜索相比没有什么高级的地方啊?确实,就平时的搜索来讲,这个语法的意义确实不太重大,但是在某些领域,例如黑客作为一名攻击者,构造好关键词配合适当的语法就可以进行撒网式的攻击,这个呢,我们点到为止,这里就不谈了。

inanchor

这个语法的意思是在页面的链接锚点进行搜索。
链接锚点指的是一个链接的描述文本,如这样的一段HTML代码:<a href=https://www.baidu.com>百度,链接的锚点就是“百度”了。
我们搜索“inanchor:login”就可以搜索到有那些含有锚点的网页了,如下图所示。当然,这个语法也有一个变体“allinanchor:”,意思也与前面的类似。
img

site

这个语法是把搜索限制在站点域名之内。例如我们搜索“program site:google.com”,结果如下图所示,这里呢,我们通常不需要加上前面的www,这样搜索的结果就会是包括所有含有google.com域名的有关内容,包括顶级域名和二级域名甚至三级域名的内容。也就是说我们甚至可以通过搜索,确定google.com大概有多少个子域名!
img

inurl

inurl:会将搜索的范围限制在URL或者网站的页面上,这个语法对于查找搜索和帮助是很有用的,不仅适合我们普通的搜索,在黑客搜索中用处也很大。例如我们输入“inurl:password”,结果如下图所示,结果显示了所有URL中含有password的网页。另外,这个语法也有一个变体:“allinurl:”,用法与前面的相似。
img
在黑客领域,inurl和site的使用是十分的频繁的,利用他们组合可以搜索到有用的信息,如我们可以使用

1
“site:google.com –inurl:www.google.com”,而这个语法的含义就是搜索google到底有多少个子域名。

这个的功能是查询所有链接到某个特定URL上的列表。要注意的是,是特定的URL页面,如输入:

1
“link:www.baidu.com”

进行搜索,如下图所示,就会返回所有链接到百度主页的网页了。因此,我们同样可以指定特定的URL页面来进行搜索。
img

cache

Cache可以帮助我们查找到google索引过的页面副本,它最大的好处就是即使源文件界面不存在了,或者变成了其它的内容,我们依然可以搜索的到。例如输入:

1
“cache:www.baidu.com”

结果如下所示,可以看到,格式虽然乱糟糟的,但是依稀可以从中获取一些有用的信息的。在国内的搜索引擎上,可能也有类似的功能,比如百度的网页快照,其功能与这个类似。
img

filetype

filetype是指搜索指定后缀的文件。这个不太常用,但是在黑客领域有一定的作用。但是我们的重点是讲解语法,所以这里就一笔带过(关于filetype的一些其他内容我会在以后的博文中展示),如下图所示,输入“filetype:mdb”,结果就会显示出一些网站的数据库文件。
img

这个语法是用于搜索与某些页面相关的网站的,可以辅助我们搜索同类的页面。比如我们输入

1
“related:www.google.com”

显示的结果都是一些其他的搜索引擎。
img

info

这个语法可以搜索到关于一个URL的更多信息的页面列表,这里的信息包括这个网页的cache,还有与这个网页相似的网页等等,注意下面的英文信息就好。输入

1
“info:www.google.com”

结果如下图所示。
img

好了,大概就这么多了,还用别的这里就不介绍了,对于我这种小白来说已经够用的了。