灯泡短路 , 软硬挨踢

云输入法启示

#云输入法 , #搜狗 , #整句输入法 , #输入法 , #隐私

搜狗发布云输入法后,正面的赞扬主要有:
1、跨平台;
2、无需安装;
3、识别率高,整句输入有优势。

但刚刚推出的产品问题也不少:
1、只能在浏览器中使用;
2、浏览器地址栏、部分网站文本区域无法使用;
3、与传统的本地输入法软件相比,实用功能差太远,如模糊音、自造词、快捷键自定义等等;
4、响应速度慢,没有流畅的感觉。

虽然还达不到取代本地输入法的程度,但不可否认这个产品很有想法。而我最看重的是,云输入法这种模式也许正是整句输入法翻身的好机会。

目前中文输入法主要分为两类:
整句输入法包括微软拼音、智能狂拼、黑马神拼、自然码等,其哲学是:让用户在输入一个整句的时候不用打断思路,一次性输入整句文字的拼音再做后期调整,最终目标是几乎不用调整;
词组输入法是主流,包括智能ABC、拼音加加、紫光华宇、搜狗、谷歌、QQ等,其哲学是:以词组或词组群为单位输入,保证用户能够最快速的选中正确的词组。
两者在技术上的根本区别在于语料库的处理和整句算法。
词组输入法通常只需要关心词组的使用频率,即使有上下文关联功能也比较简单。而整句输入法的算法更接近人类的自然思维模式,但依靠庞大的语料库、用户整句输入历史数据分析才能得到可以接受的结果——这就导致整句输入法的体积非常庞大,智能狂拼曾经要用一张光盘装,自然码使用的黑马神拼语料库在200MB 以上,微软拼音也有将近100 MB,这大大影响了整句输入法的普及,语料库体积和整句正确率成为了整句输入法的基本矛盾。

而依照云输入法的思路,整句输入法完全可以将语料库的存储、用户语言习惯的分析交给服务端完成,客户端只是一个输入输出的界面,或者是断网时可以满足基本需要的词组输入法。

于是,将只剩下一个问题要关注:用户隐私。