人品界面 , 软硬挨踢

为什么标签系统和全文检索还不够好用?

#内容 , #匹配 , #搜索 , #标签 , #检索 , #模糊 , #笔记

Web 2.0 概念红火的时候,Delicious、Flickr 等服务如日中天,其使用标签(tag)管理和检索内容的方式也颇受追捧,网站和应用程序纷纷学习。但这么些年用下来,除了 Delicious 之外,并没有觉得标签有多好用,特别是像 Evernote 和为知这样需要保存内容的笔记工具。

一个原因是,不支持组合标签的标签系统就是残废。

第二个原因是,增加标签的人工成本太高,而得到的回报不够。
一篇内容颇丰富的笔记要保证日后能够通过标签分类筛出来,可能要增加5个以上的标签,然而还是有一定几率要靠全文搜索才能定位,甚至可能找不到。

为什么?
因为标签要求精确匹配,如果我增加“米塞斯”、“实在论”的标签,而检索的时候用“米瑟斯”、“唯实论”,必然抓瞎。
于是,一方面,增加标签时要尽量多写,这样操作成本必然越来越高;
另一方面,就是在检索时反复尝试,这样就完全体现不出标签系统的好处,特别是还有组合标签功能时,你根本不知道到底是哪个标签的筛选落空了。这样,标签还不如全文检索来得方便。

但全文检索也解决不了上述同义、近义词的问题,要是文章内容中只出现“喜大普奔”,你轮换着搜“头顶青天”、“狂喜乱舞”那也白搭。
更进一步,同义、近义词也有覆盖不到的时候,比如涉及“李森科”的文章通篇都没有出现“伪科学”一词,但我们在搜索这篇文章时,不记得涉及的人名,只关心主题,很可能会输入“伪科学”而不是“李森科”,于是一无所获。

所以,大概只有等到程序能够理解自然语言的含义,才能以符合预期的方式检索信息吧。