转载--马占凯:Sogou输入法之父的故事

中文输入法这样亟待改善但缺乏商机的“荒原”,如何成为一个创新主战场

经过几个月前搜狐与谷歌那场声势浩大的“抄袭风波”,现在你 已经可以重新估量输入法对于一家

网络公司的 价值:从4月8日搜狐公司发布声明称,谷歌拼音抄袭了搜狗输入法词库,至今搜狐的股价已经增长了接近 50%。而在此之前的1年时间里,搜狐的股价下跌了18%。虽然将阶段性的股价变化归结于某一种力量的结果是天真的,但一个较为准确的说法是:通过一款几 兆大小的输入法软件,市值近12亿美元的搜狐重新撬动了华尔街对自己的热情。

这是怎么开始的?答案:这是一次为偷懒而创新的结果。

2005年,本科刚毕业、在太原一家国企做机械设计的马占凯找到了一种省力的方法:写东西时,如果输入法不能直接打出所需词语,他不愿意去输入法的词表 里一页一页寻找想敲的字,而是在搜索框里输入相应的拼音(比如:zhoujielun),获得搜索引擎相应的提示(“您要找的是不是:周杰伦”),由此复 制粘贴。

这名没有任何计算机背景,但每天可能使用百余次搜索的年轻人,曾经自己猜测出一套解释:搜索引擎有一个人工整理的巨大词 库。但稍微刨根问底之后,他发现,搜索引擎充分利用了用户输入的关键词,每当某个关键词的搜索量达到一定的数目,比如几百万次,那么这个关键词就自动被收 入搜索引擎的词库。换言之,用搜索引擎来生成一个常用词的巨大词库,花费极小。

这让马占凯隐隐觉得,让搜索引擎来做输入法大有可为。

如果当时他认识任何输入法业内人士,他的想法会被无情打击:谁还会在2005年进入输入法行业呢?早在1980、1990年代,微软就相继收购了智能 ABC和微软拼音,捆绑在Windows操作系统之中。此后还有一些来自民间程序师的作品,到2005年,这几乎已经成为一个寡头垄断的领域:智能 ABC、紫光拼音、拼音加加和微软拼音占据了输入法市场的90%。

理论上,所有这些产品都具备充分的改进空间。它们都是由人工整理词库,成本高且效果不好,很多词不能及时被收入词库。占市场第一位的紫光拼音,甚至2003年到2006年初没有推出一个升级版本。

但商业的力量阻止了改善的动力。输入法是一个叫好不叫座的产品。尽管中国的用户不可避免使用到它,但是却无法靠它取得收入。于是,输入法领域的状态是:不断有人看到市场需求,不断有人做出解决了某些问题的新产品,却没有人能坚持长期而频繁的升级和维护过程。

从某种程度上说,马占凯改变了这一切。如今,他已是搜狗输入法的产品经理,他创意和设计的输入法,为搜狐提供了一个接触广泛用户的新通道:8月底第11 版输入法推出,新产品将和用户账户绑定,通过同一账户可以在不同电脑上使用自己的个性化输入法。于是,输入法和博客一起,成为整个搜狐产品的入口,将为带 动其新闻、社区等产品产生积极效用。

更重要的是,自QQ旋风般占据四亿网民的桌面开始,客户端软件就展示了其巨大的想象空间。而输入法是客户端中粘性大、使用频率高的软件之一,比如,紫光拼音2005年的下载量就仅次于腾讯的QQ,约为2到3亿。

鸡肋

在中国科技业商业化程度不高时,输入法曾是创新最密集的领域——除了拼音、五笔,还有自然码等数十种相关产品。

早在1980年代末,哈工大的一位博士生王晓龙就研发出了一款支持整句输入的输入法系统,后来为微软所收购,成为微软拼音。早期,输入法领域还有“中文 之星”所提供的新拼音输入法,以及后来同样被微软收购的智能ABC。“中文之星”留给很多人的记忆已经淡薄,然而这款让计算机识别中文的产品,其开发者包 括新浪奠基人王志东,以及后来的拼音加加的创始人廖恒毅。

在这些基础之上,1996年,名噪一时的黑马输入法推出。其开发者王励 在联想汉卡待了三年多,在中文处理上积累了丰富经验。那时,这个技术爱好者因为联想要安排其去做管理职位而离开联想,加入黑马飞腾科技有限公司,主导起校 对技术的开发,并抽时间开发出了“黑马神拼”。

直到前不久搜狗和谷歌的争端激烈之时,中国最著名的博客之一王小峰还在其博客上称赞使用多年的黑马神拼质量之高,引发了外界对黑马的关注。

王励把黑马输入法归为是有别于五笔的字输入、智能ABC及搜狗输入法等的词输入的第三代输入法,在整句输入上准确率很高。黑马拼音的句库来自报纸、文学 作品等成文的文字内容,并有自动学习功能,既杜绝了错词的出现,又具有相当高的智能化水平。不过,黑马输入法也有一个致命的弱点:体积大,有400多兆, 不利于传播。

但在当时互联网连接不畅情况下,这倒不成为问题。依靠光盘销售,黑马神拼给黑马公司带来了意料之外的收入。直到今天,黑马采取的仍然是这种销售模式。

不过,2001年,考虑到竞争对手是强大的微软、输入法又无法提供企业所需要的资金,王励放弃在输入法上的继续更新,把精力集中到了黑马的文字校对业务,只留下黑马神拼2001版和一些输入法底层技术作为销售和合作之用。

而因为找不到合适输入法使用、干脆自己开发了拼音加加的廖恒毅,也一度因为每月上百元的注册费无法支撑,而停止了开发和更新。

当然,这些人也并非没有尝试过寻找商业化途径让输入法增值,不过仅仅停留在个人站长式的经营方式上。比如,廖恒毅曾将拼音加加的首页放置了一个百度的搜 索框,进而和百度合作分成。后来,廖恒毅干脆把首页设成了一个类似hao123.com那样的导航页面,这样一来,他便能每月从中获得 10万元左右的收入,这才结束了停止更新的日子。

“融资上市是一个机会,不过我只是一个资深技术人员,过程太复杂,无法把握。”王励表示。

于是,这些输入法的创始人们,几乎都只把输入法作为一个“副业”,自己却不约而同的投入企业软件这个“离钱更近”的领域。

这就使得2005年中,作为一个互联网行业的门外汉,马占凯有机会凭借一个资深互联网用户的体会、拿着对输入法产品的重新定义敲开了搜狐的大门:体积小,容易在互联网上传播;能敲打出热门词语;有一个专门的团队运作,更新快。

寻找伯乐

那时是马占凯工作一周年,他终于忍受不了国有企业的沉闷与缓慢而辞职,怀揣着从亲友那里借来的钱,只身来到北京,起初的目的是为了学些技能,再找工作。

在北京,扑面而来的,是互联网的炽热:一时间,李开复离开微软来到谷歌中国、雅虎与阿里巴巴签订收购协议、百度即将上市前景看好。

这让输入法的创意在马的脑海中重新升起。

百度上市前半个小时,马占凯趴在电脑前,按照网上的客服邮箱给百度写电子邮件,简要阐释了输入法的创意:把百度搜索默认的拼音提示都纳入字库中,再加上在线同步升级数据库的功能,互联网上的热词马上就能出现在输入法的词库中。

发出去之后,马坐立不安地等待回复,在脑子里又搜索了一遍,生怕遗漏任何会引起别人的注意的建议。第二天中午,马又补充了一封信,加上在输入法中集成百 度搜索和桌面搜索功能的提议。然而,几天下来,不断刷新邮箱的他只收到百度的一封例行回复,无任何进一步商谈或合作意向。

马不甘心,在又发去几封邮件仍石沉大海之后,决定转投搜狐。这一次,马等来了迅速而且热情洋溢的回复,搜狐的人表示对此很有兴趣,约马占凯三天之后到办公室一谈。

这三天的等待时间,马占凯并没有浪费。他全神贯注的待在电脑前,不断使用搜索引擎、阅读相关理论,想为来之不易的面试做足准备。于是,三天之后,在去搜 狐前,他把这三天的成果事先发了过去——30 页的文档,其中包括上万字的搜索笔记、200个灵感点和100个小创意。

这种对搜索引擎的熟悉和产品思维为马占凯顺利赢得了第二份工作,成为搜狐的产品经理。

马决定继续去游说搜狐公司副总裁王建军。为了使自己更具有说服力,他统计了QQ和输入法在各大下载网站上的下载量,并逐个分析了输入法这个领域的竞争对手,把这些做成两份 PPT。其显示: QQ有约5亿次下载,而输入法的下载量是2到3亿次。

第二次看完PPT之后,王明确:一定要做。

“输入法效应”

事实上,输入法的开发,与搜狐的战略转移有很大关系。

1998年,张朝阳仿效雅虎的网页目录模式建立搜狐,进入大而全的门户运作。然而,2003年左右,这种内容主导的思路产生了动摇。让搜狐有切肤之痛的关键在于:在诸多重要产品上,如搜索、即时通讯等,搜狐都因为技术不如对手而落后甚远。

不久之后,搜狐建立研发中心,主要是在搜索领域加强技术研发,即研制搜狗搜索引擎。一则从长远来看,搜索是互联网发展的一个重要方向。二则搜索本身技术 含量较高,研发出来的技术也可以辐射到搜狐的其他产品领域。早期,研发中心甚为保密,并未和搜狐在同一办公楼,也没有门牌标识。由于与网易研发中心同处一 楼,张朝阳每次去时都要拉低帽沿,生怕被对方员工认出。

即便采取此般暗渡陈仓之道,挑战仍然显而易见:百度的技术已经积累4年之久,搜狗能依靠什么突破口迎头赶上?

正在搜狐高管们为这件事情头疼的时候,输入法的创意摆在了眼前。“输入法的开发,是搜狗的搜索技术发展过程中结出的一个果实,同时也可以提高搜狗的品牌形象。”搜狐技术副总裁王小川告诉《环球企业家》。

王小川正是统筹输入法开发的技术小组的负责人。在收购紫光拼音不成的情况下,2005年10月,一个几人组成的小组开始进行技术上的摸索,直到 2006年6月5日搜狗输入法第一个版本发布,首阶段工作持续了八个月。

事实上,因搜狗的搜索引擎的使用量不高,当时拼音提醒和纠错功能都还没有实现,因此在词库整理和筛选并不容易。

除了搜索关键词之外,“词库运动”还几乎动用了整个搜狐的资源。比如,开发人员从go2map.com处要到地理信息名词列表,从搜狐音乐搜索得到歌曲和歌手名称列表,从体育频道获得体育明星和赛事名词列表??跨部门的合作耗费了诸多精力和时间。

另外,由于词语来源于互联网,和黑马神拼等相比,搜狗要解决的一个重要问题是错词。搜狗每周会发布一份错词报告,纠正词库中的错误。

正因此,在第一版推出之后的十个月里,搜狗输入法几乎一个月就推出一个新版本,不断的纠正词库错误,提高准确率,并添加一些吸引用户的小功能,比如输入法皮肤、自定义词库。

于是,这个新兴的输入法一经推出,马上获得了预期的效果,迅速出现在无数人的桌面上,取代了原本紫光们的位置。

谷歌输入法则更进一步,其能跟网络账户绑定。也就是说,无论你在任何电脑上,登录你的个人账户,便能使用你已熟练操作的词库。同时,谷歌的“一键搜索”则让搜狗员工叹息品牌效应的威力。

马占凯称,自己最初的创意里也包括“一键搜索”,即在输入法框上集成搜索。它被讨论数次,一直搁置未实行的原因,在于搜狗为避免被误认为“流氓软件”的谨慎考虑,“这会影响用户体验,也不能带来太多搜索量”,马认为。

业内有人士称,在技术领域,搜狗和谷歌输入法的技术能力都不强,并不如黑马和微软。但搜狐和谷歌在易用性上的突破,让它们暂时成功。

在一篇总结性质的PPT中,马占凯写道:在gmail之前大家以为email就是这样了,在搜狗输入法之前大家以为输入法就是这样了,中国互联网领域很多都没有开始商业化运作,机会还很多。

对于输入法而言,商业化运作刚刚开始,成功也有多种可能性。

posted on 2008-04-02 15:09 m2land 阅读(286) 评论(8)  编辑 收藏 所属分类: 技术之外

评论

#1楼  2008-04-07 06:00 扶良文 [未注册用户]

马占凯,搜狗之父,
网友感谢你、中国用户感谢你!
扶英感谢你,
输入法的老兵感谢你!

中国出现千千万万马占凯;

你的创造灵机
将启发输入法的老将和新兵,
为中文的信息化,
走出死胡同,
走入“桃花源”,
引领中文,
乘长风,
破万里浪,
开辟新天地!

扶英 2008/04/07
  回复  引用    

#2楼  2008-04-07 06:08 扶良文 [未注册用户]


博主:

对不起,由于匆忙,1楼评论中的第一句:

“马占凯,搜狐之父”

是“马占凯,搜狐输入法之父”之误,敬请为我校正!

扶良文   回复  引用    

#3楼  2008-04-07 06:19 扶良文 [未注册用户]


博主:

实在惭愧,2楼中我又错了1个字:

“搜狐’输入法”是“搜狗’输入法”之误,敬请允许校正。

扶良文   回复  引用    

#4楼 [楼主] 2008-04-07 09:04 land      

非常抱歉,我没有权限修改评论。如果你想修改。我可以帮你把所有的评论删除,你再发一次。   回复  引用  查看    

#5楼  2008-04-07 15:16 扶良文 [未注册用户]


博主:

我在上面短短几句话中就错了两个字,实在惭愧!我搞输入法也有五六十年

了,却连写个短信的校对工具都没搞得出来,韩信说“后生可畏”,我服了!看起

来,希望只能寄托在年轻人身上了!故此,请您转告占凯,为了便利用户输入,

希望他在搜狗输入法中,增加点人工智能性的校对提示:例如,

1、当用户输入到语句“马占凯,搜狐之父”时,可立即在国际互联网上搜索一

下 谁是 “搜狐之父”:如果搜索结果得到的是“张朝阳是搜狐网站的主要

创建人”这一信息时,就立即把搜索所得,原话发送给搜索引擎,转发给搜

索者参考;

2、 如果搜索的结果没有找到有关“搜狐之父”的确切信息时,则可给搜索者提

示“本搜索引擎没有在国际互联网上找到“马占凯是搜狐之父” 的确切信

息,但找到了若干关于“马占凯是搜狗拼音输入法的发明人”的报道,详请

看网页:


北京林业大学登天家园 → 技术交流区 → 『开发者乐园』 → [公告]搜狗输入法创始人马占凯来我校做一个讲座。

丁飞洋的琐碎记录 - 丁飞洋的琐碎记录 - 新浪BLOG

马占凯_百度百科

……………

3、如果只搜索到了“马占凯是搜狗输入法的设计人”之信息,但没有找到“马

占凯是搜狗输入法之父”的正式文献,则提示这两句话给搜索者参考;

4、如果找不到任何相关信息时,则可向搜索人报告:“所需信息未找到,请

您改用其它主题词搜索”。

如能这样,对搜索者就更有帮助了。


当然,要这样做,说起来容易,要做好就很不容易了。但这是智能搜索的

长远目标,是很值得努力追求的!


我相信,马占凯也许已经在向这个方向前进了。我指望享受这一成功!


我现居美国,联系不便,希望博主能够帮助我把这个希望转达给占凯,并

盼望著其开发成果的发布。

谢谢!

扶良文 2008、04、07 于 加州
  回复  引用    

#6楼  2008-04-07 15:38 扶良文 [未注册用户]


博主:

我没有看到您在5楼前边给我的信息,就把5楼的信发送给您了,既然如此了,就请不必替我改正错字了,请您不必删去我在1-4楼所发布的信息了,就让它留着吧,就让它们作为我的输入法还很不成熟的证据留下来做个历史的见证吧,让它们作为鞭策我努力进步的书证留在您的博客上吧。为此,我要向读者们的请求原谅!

谢谢读者们啊!

扶良文 2008/04/07 于 加州   回复  引用    

#7楼 [楼主] 2008-04-07 17:00 land      

扶教授,您好:
我从网上了解了您的情况,非常感谢您在当年那个“万码奔腾”的年代为中华文化做出的贡献。

我并不研究输入法,转载这篇文章就是因为马占凯这句“在gmail之前大家以为email就是这样了,在搜狗输入法之前大家以为输入法就是这样了,中国互联网领域很多都没有开始商业化运作,机会还很多。”那么搜狗输入法之后呢?限制我们的只是想象力和创新能力。

很多东西如果我们能跳出自己的思维定势,一片新天地马上会出现在眼前。马占凯的输入法仍然是传统的拼音输入,但他敏锐的思维向世人展示了一次统计学的威力。李彦宏本科时学习的图书情报专业也给他从事搜索引擎这个行业带来了益处。也许下一次给人惊喜的心理学、生物学、图形学....

输入法不仅仅是一种文字输入工具,文字作为人类思维的一种符号化的表达,蕴含了太多太多的意义。符号学、形式逻辑都可以利用文字帮我们解决问题。我们输入的同时,也在思考。也许下一次我们的输入的同时,计算机也能明白我们想的是什么,输入法变成了智能计算机的耳鼻。也许.....还有很多的也许。

后生可畏,但却是时势造人。扶教授多年的输入发研究,我想找到合适的结合点,是可以重放异彩,也许不会体现为输入法,也许其他的一个产品,但只要是有切合了需求,就会成功。   回复  引用  查看    

#8楼  2008-05-13 09:47 hoodlum1980      

我认为这个输入法有一个很有用的功能创新就是结合了网络,能把用户的个性化设置参数保存到服务器,这样重装系统或者在其他机器上安装了这个输入法,就会自然恢复原来习惯的设置。   回复  引用  查看    


标题  
姓名  
主页
Email (博主才能看到) 
验证码 *  看不清,换一张 [登录][注册]
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
该文被作者在 2008-04-07 09:06 编辑过


相关链接:
 

导航

公告


MVP



统计

与我联系

我管理的小组

我参与的团队

随笔分类

DNN专业站点

积分与排名

最新评论

阅读排行榜

评论排行榜

60天内阅读排行