My Document Ognization

| | 评论(3)

我的数据组织

信息时代的人们往往为一个事实困扰:信息很多,但是从当中挑选自己需要的东西很难。所以百多年前就有人发明了各种图书分类法,当代则有了各种搜索引擎。对数据的组织,整理的工作变得如此重要以至于google的股票能攀上$300的高峰。

我的父母很喜欢给我和弟弟买连环画看,最多的时候有几百本,象《薛刚反唐》《岳家将》都是成套的。上小学的我曾经和弟弟干过一件事,在现在叫做"Inventory Survey",就是给所有的小人书都贴上一个序号,然后有一个小本子记载了所有的序号和书名。这个简单的database仅此两项而已,却也颇让我们快乐地消耗了暑假里的几天时间。

后来念高中的时候在县图书馆办了张证,经常进去以后就直奔中图分类法序号72.xxxx的架子去借小说。那时候觉得真不错,世界上居然还有图书分类法这东西。记得还曾经买过一本介绍各种图书分类法的书,那时候还觉得中图分类法有些不合理的地方,如果有了自己的图书馆一定按照自己的分类方法来分类。

再后来,世界进入了信息时代。念大学的最后一年刻了第一张光盘,我刻光盘首先搜集的就是电子书。那几年我最满意的一张盘就是用离线浏览器抓下来的《黄金书屋》全网站,三百多兆字节,看得很开心。然后网上看书的地方就多元化起来,随着存储电子书以及其它资料的光盘超过十张,我感觉到了信息管理的需求。

最开始,是用DOS下的Dir /tree命令,把文件名都存到一个文本文件里,然后手工编辑加上注释。使用的时候用Ctrl+F查找。后来这样的手工劳动无以为继,而且TXT文件的查找功能有限。我找到一个工具CD2HTML,可以把文件名存成html, 然后我再用HTML Help Workshop编译成CHM文件,查找方便了很多,但是手工劳动依旧。在这方面太勤快的后果就是一直都没有自己去写一个工具,直到遇到了一直用到现在的CDBox软件。这个软件能自己提取CDROM的文件结构存到数据库里,几乎不需要人工干预。

但是CDBox也有不好的地方,就是,它只能记录查找光盘readme.txt的内容,其它文件的内容全靠文件名。因此,一个好的文件结构组织就显得很重要了。把我一直在用的电子书目录分类结构用Mind Map画了出来:

画完了以后我开始觉得烦躁,因为我发现这个结构是荒谬的:比如说,侦探小说和英国小说,这根本就是两种不同的划分方法,并列在一起是可笑的。那么我应该怎么办?侦探下面再分英国中国日本美国?或者英国下面再分侦探战争情感?好像太乱了,乱成一团麻。

很明显,书籍并不是按门别类的进到某一类之后就不能进其它类别了。是DOS/Windows的树状文件结构误导了我。UNIX/Linux在文件结构上有所改进,一个文件可以以link的方式虚拟地存在于另一个目录,但是功能仍然是不够的。Palm呢,舍弃了树状文件结构,使用标签(Tag), 是一种新的理念。但致命的是,Palm的文件只能被赋予一个Tag, 所以,和树状结构比没有明显的好处。

看起来,为了很好的管理信息,我需要这样一种文件系统(或者是现有文件系统的插件)--可以是树状结构,但每个文件都可以有多个标签, 可以按照树状/单个标签/标签组合来查看搜索文件。最后,我希望这套系统是基于web的(比如Web+Java/PHP),这样可以跨平台。这套系统最好还是个wiki系统,因为我会随手把网上看到的文章和图片什么的往这个系统里贴。如果是这样,那么这些小文件的内容搜索也可以做了。

最后,没有解决的问题就是光盘上文件的内容搜索。这个google老兄已经替我们做好了Google Desktop和Picasso。出于对硬盘容量和CPU效率的担忧,我装了他们之后就卸掉了。不知道有没有类似的开源项目,决定有空去找找看。

分类

评论(3)

lonshao :

e-book看的好难受的.现在愈发感到恐惧啦.

mach :

在Palm上看很舒服的,hehe

nobody :

我觉得不会有general的一统江湖的解决方案,肯定都是case by case,因为如何组织太依赖对个案的理解了。不过,一个好的工具,应该能帮助实施者快速把想法变成solution。

发表评论

关于此日记

此日记由mach发表于2005年11月25日 19:55

此Blog上的上一篇日记暖冬

此Blog上的下一篇日记地震了!!!

主索引归档页可以看到最新的日记和所有日记。

Powered by Movable Type 4.0