提起Google的图书搜索项目http://books.google.com/,又不得不提一下Google的终极任务了,那就是要索引全世界的信息并且使它们变成人人皆可获取的。这两步是同时进行的,不管是Google的搜索引擎还是图书搜索,都在索引着全世界的信息。
要想信息更容易被人们所获得,除了将它们免费发布外,有时候Google还要利用一定的技术。就拿图书搜索为例,之前我们只能浏览扫描版本的图书。如果我们想摘录其中某些内容,就不容易。如果Google能把图书变成纯文本版,那就能解决问题了。这对于Google而言, 在技术上显然不成问题。
Google今天宣布给图书搜索加上了纯文本阅读模式。当你在Google图书搜索里找到无版权保护的图书(比如一些古典名著)时,你就会发现你可以用纯文本的方式阅读它们。拿狄更斯的《双城记》为例:
我们可以点击"只阅读文字",这样就只看到纯文本版的图书内容了:
当然,由于是纯文本格式,所以你可以随意复制其中的内容。纯文本模式的出现,也使得更多的人包括有视觉障碍的人有机会从Google图书搜索里获取知 识,因为纯文本可以支持多种文本阅读器,比如文本朗读工具、读屏器、盲文显示器等。这也初步实现了Google的目的,因为这种方式使得更多人可以获取信 息。
如果你还记得,Google在去年7月份曾经为视障人士推出了特别版的搜索引擎Google Accessible Web Search。而现在图书搜索的纯文本阅读模式也正是使用了类似的技术,同样来自Google的资深专家T.V. Raman。
目前暂时还没有发现中文图书提供这种阅读模式,包括《三国演义》在内。
关于google books书籍的下载方法
什么是google books
google books是Google近来增加了新的搜索引擎,其中包含相当数量的图书,据说是和多家大型图书馆合作,目标是在10年内建成世界上最大的网络图书馆。但是google的目的并不是给人下载,而是供读者简单检索以向出版商和书店购买该书,因此也没有任何收费项目。其图书目前采取的是图片的方式,大部分图书均包含所有页面。
在打开 http://books.google.com的页面输入查找的关键字,搜索。得到包含该关键字的ebook,选择一本书进入
因为版权问题,google的书并不是每一页都能看,它只允许你浏览一部分(官方说法是20%多吧)。而且书中的每一页均是gif图片,在一般的浏览器中受到保护,只能看,不能下载。
所以对每个找书的人来说,现在的问题就是:先:能看到的页能下载下来吗?进而:不能看到的页能通过什么方法看到吗?
对于第一个问题,可以说是已经解决,方法用很多,试用后,感觉最方便的还是用firefox及几个java插件的方法了。
步骤:
1.安装firefox;
2.用firefox打开网址
http://greasemonkey.org 选择信任站点,安装
3.重新打开浏览器firefox,打开地址 http://diveintomark.org/projects/butler/
右击链接Download version 0.3 of April 14, 2005,选择install user script
4.重新打开浏览器firefox,检索http://books.google.com/ 打开电子书。右击图片,可以选择保存了。
接下来解决第二个问题:
如何看完整本书
因为goole books限制了上下只能看三页,达到三页后,到下一页的按钮会失效。
一个相当笨却行之有效的方法是在所能达到的最后一页搜寻某单词检索,在结果中找到该页,打开可以继续向下看。亦即:
一开始打开第一页,于是可以达到第三页,在第三页搜寻某单词,检索后返回若干结果,找到第三页,打开,于是可以到达第五页,以此类推。
但这样的方法都太费时费力。
通过偶的仔细揣摩,偶发现可以通过组合关键字利用左边的search in the book来解决这个问题。search in the book这个工具可以在在书内检索,把符合关键字的页面给出链接,所以,我们可以找几个这个书的常出现的词,组合起来,来达到覆盖所有页面的目的。
比如:market mircostructute theory这本书
常用的关键字有:market,stock,information,spread,volatility等,其实有个窍门,如果这本书定量的东西比较多,大可用数字来作关键字覆盖书,经实验,用1 2 3 4 5就可以覆盖大半本书(这里有个问题,不能采用太常见的英文单词,如:is the a 等,google会忽略它们的)
这样,我用market OR 1 OR 2 OR 3 OR 4 OR 5就把288页的整本书全覆盖了,这样就克服了google的上下三页的限制。(令人汗的是,在国外一个讨论google print的论坛上,看到别人发现一个非常好玩的bug:只要在search in the book工具栏里输入200,不管任何书,都可以把页面链接全显示出来。我已经检验过,绝对管用,不知道是不是google内部人故意留的)
找到每页的链接,但这时也很难把书看完,大概看个10页左右,会提醒你输入你的google帐号(包括gmail等服务的帐号均可),输入后,又可以看个20 左右。然后会再跳出页面限制你继续看。这时就没有办法了。因为其中涉及到goole的cookie,如果不更改cookie,你将只能等待24小时,以使得其失效。
通过使用不同的google的帐号。为此,我注册了10个以上的gmail,当一个帐号下载受限时,注销,换另外一个上,每个帐号可下20左右,于是,这样基本可把google允许下的所有页面下载完,如那本market microstructure theory,共288页,偶下了能下的250多页(为什么说是google允许下的全下了呢,因为google的每本书都有一部分页面是怎么也不让浏览的,页面链接提示为Sorry, this page's content is restricted.每本书大概10%-15%左右)
但是现在,登陆gmail账户好像特别困难,好像一天只能登陆一次,一部计算机也只能登陆一次,加代理的方法不知道是否行的通?下次试试,不过好像google的代理很难找。
相关文章
同类最新