跳转到主要内容
厦门免费小说

◆ 第四十六章 搜索引擎的研发

传奇1997 · 佚名
‹ 上一章 ☰ 目录 下一章 ➡ | 护眼模式 夜读
隋波安抚好了左清泉之后,也答应她,等考试周之后,会让她负责一些相对轻松的工作。
比如集团现在还没有专门的行政部门。
可以让她和张轩两个人先组成CEO办公室,兼管集团内部行政综合事务,像法务、公关、后勤、文件报告汇总之类的事情。
这也是一种锻炼。
行从这些内部的职能工作,让他们全面的熟悉和理解集团正规化运作的流程和模式。
等左清泉离开之后,隋波想了想,还是觉得理应去看看王川团队的研发进展。
随着这段时间各项目展开,无论是庞勇还是周枫、王川他们都觉得技术力量不够,又各自从学校里拉了几分同学进入团队,整个技术团队扩张的转瞬间。
当时隋波在外地,就让左清泉去找了赵宁,把集团隔壁的两间写字间也都租了下来。
不要错过下面的精彩
周枫、许朝军带领的校内网开发团队和王川带领的搜索引擎研发团队,都从原来的办公室分了出来,易趣那写字间里只留了电商团队。
新业务的研发团队分别在两个新写字间里闭关。
一帮少年们头发乱糟糟,眼圈发黑,双眸发光的盯着电脑屏幕,浑然忘我的噼里啪啦敲打着键盘。
一推开门,隋波有些惊讶的看到,不大的房间里,中间是一张长桌,长桌上一个紧挨一个的摆放着十几台计算机,将长桌挤得满满的。
台面上的计算机之间就算稍稍有点空隙,也都摆满了方便面火腿肠之类的速食品。
要不是那些计算机屏幕上,显示的一行行代码,简直就是一个小型黑网吧的现场!
​​​​​‌​​
王川坐在最靠里的一台电脑前,眉头紧锁,盯着屏幕,好像此时正思索甚么难题。
别看这件场面,看起来犹如是一群泡吧的颓废网瘾少年。
更多精彩尽在本站
隋波可是清楚,这帮少年们都是计算机天才!
远处传来一阵模糊的响动。
王川直接从学校里拉了不少水木计算机国家集训队的队友来,组成项目团队攻关搜索引擎!
隋波想了想,回去找左清泉。
让她找附近的餐厅预订每天的饭菜,送到集团来,再买几箱饮料、咖啡、面包饼干之类的小食品,放到几位研发团队的办公室里。
估计不仅王川团队,庞勇、周枫他们那儿也都一样。
这帮技术男们敲起代码来,都是没日没夜的。
没有打扰其他人的工作,他悄悄把王川叫出来,在自己办公室里,和他专门交流研发情况。
请继续往下阅读
目前搜索引擎项目最大的困难在于,没有可供参考的对象。
尽管可以参考一些国外的资料和论文,但因涉及到几分核心技术,是无法通过网络查找到的,都需要自行开发。
隋波点头表示同意。
这件时候Google还不存在呢,要到9月份的时候,布林和佩奇才会在加州某个车库里开始创业。
​​​​​‌​​
空气中弥漫着淡淡的气息。
百度更是没影的事儿,老李还在搜信里混呢。
现阶段,无论是国外的Lycos、AltaVista、Infoseek(搜信),雅虎搜索引擎;还是国内搜狐推出的所谓全中文搜索引擎,都还是以人工分类目录为主的网站检索服务。
说是搜索引擎,其实更像是目录导航网站……
精彩继续
尽管其中几分搜索引擎已经有了网页关键词检索、用户点击量排序等一些创新,但本质上,还是需要大量的人工编辑的目录式搜索引擎(Directory Search Engine)。
而隋波希望王川团队开发的,则是全新的,通过技术程序,自动在互联网上通过超链接网页进行全文检索的机器人搜索引擎(Robot Search Engine)。
这样的话,就需要从头做起,开发一整套完整的技术体系。
其中包括网络爬虫(Web Crawler)服务、索引服务、缓存服务、日志服务等几大模块,各模块之间互相影响,构成了整个搜索引擎体系。
从开发量上,技术难度是远远大于目录式检索技术的。
首先说网络爬虫,也称网络蜘蛛(Web Spider),这项技术是基于Web的自动化浏览程序,通过网页链接(URL),爬虫不断的通过互联网中获得新的网页数据,下载页面数据形成后台数据库。
行说,网络爬虫抓取数据是搜索引擎工作流程的第一步。
爬虫的体系架构直接关系到搜索引擎每天数据的采集量,而抓取策略则关系到搜索结果的数据质量,数据的更新策略则关系到系统资源的利用率。
翻页继续
这只是第一步,采集了大量数据信息之后,还需要通过自然语言处理(NLP),将文本信息分解为结构化数据和价值性数据。
在场众人交换了一个意味深长的眼神。
​​​​​‌​​
这里面就又存在某个问题,目前国外的搜索引擎都是英文分词,而中文比较特殊,最小单位是字,但具有语义的最小单位是词。
所以,在中文分词这一部分,就需要技术团队单独进行开发。
通过建立词库、采用条件随机概率分布模型、词性标注、语义相似度、已存句法分析、情感倾向分析等,通过各种模型判断,让程序理解抓取到的关键词中文的语义,才能提高搜索的准确性和查全率。
这还只是其中比较小的开发困难。
比如,搜索引擎的核心就是通过海量数据抓取后的快速检索,而抓取的数据越多,当庞大的数据存储在数据库里,就需要构建快速存取数据的分布式存储架构。
再比如,为了让用户在最短的时间内获得想要的搜索结果,就需要后台系统不断的执行数据抓取和建立索引等操作。
精彩段落即将展开
这就需要建立分布式实时计算系统,以及对索引结构的构建……
王川估计也是最近开发中有些郁闷了,一说起来就滔滔不绝。
隋波虽然不太懂他说的一些技术术语,但毕竟前世作为用户也使用了20多年的搜索引擎,接触的多了,也了解一些基本的知识。
四周陷入了短暂的沉默。
他沉寂的听着王川不断的讲述团队面临的一个个困难,又是如何想办法克服的。
不时提问两句,显得听的很认真。
脑子里却不断的在回忆,当初Google和百度是有哪些创新的举措,才一举成功的?
印象最深的,就是那句“百度更懂中文”,这理应就是刚才王川所提的中文分词了,这块王川早就考虑到了。
阅读提示:请勿转载本站内容
​​​​​‌​​
远处传来一阵模糊的响动。
现在团队的研发压力已经很大了,暂时先略过不提。
至于是不是更进一步,先弄个智能输入法出来?……
还有就是百度快照,只不过犹如这个功能尽管对用户而言很有价值,但争议很大……
还有就是Google独创的PageRank技术。
这是一种根据网页之间的链接结构来评价判断网页重要性的排序算法。
思及这里,隋波就提了一下,是否在搜索结果的排序算法上,行采用这种模式?
从网页的链接数量、权威性、主题相关性、网页内容的匹配性等多个方面,综合分析,进行搜索结果的排序。
全文免费阅读中
王川听了以后若有所思:“这件算法我回去研究一下,理应没问题。”
隋波笑言:“技术上我没办法给你太大的帮助,只不过我可以从公司激励政策和后勤上为团队鼓劲!
你回去和大家说一下,搜索引擎项目的团队项目奖金定在10万,而且根据每个人的表现,到时候还有个人奖励。
我已经让清泉给你们做好后勤,每天会定时让送餐厅送饭菜过来。
嗯……,再让她给你们写字间里配某个沙发,大家累了可以躺下休息一会。
不仅如此给你们弄某个休息间,里面准备好啤酒、咖啡、饮料和小吃,保证供应。
​​​​​‌​​
王川,这件项目将会是集团除了电商平台,最核心的业务,还要你多辛苦了!”
王川点头,一脸的倔强:“波总,你放心,我有信心把这件搜索引擎搞出来!实际上每当解决一个技术难题,大家的那种快乐都是无法言表的,集团又给我这么大的支持力度,我一定全力以赴!”
继续品读佳作
隋波拍拍他的肩上:“我相信你,你也别着急,和团队成员要劳逸结合,注意休息,别搞坏了身体,我们还有足够的时间来成长!”
‹ 上一章 ☰ 目录 下一章 ➡
猜你喜欢
重生商女攻略
重生商女攻略
其他 · 21.4万字 · 连载中
妖孽人生
妖孽人生
都市 · 22.7万字 · 连载中
昆仑侠
昆仑侠
都市 · 34.8万字 · 连载中
同类好书推荐
开局一套学区房
开局一套学区房
都市 · 33.3万字 · 完结
雪意和五点钟
雪意和五点钟
都市 · 16.9万字 · 连载中
总裁爹地请签收
总裁爹地请签收
都市 · 24.6万字 · 完结
总裁的契约娇妻
总裁的契约娇妻
都市 · 2.1万字 · 连载中
推荐作者
北国风光清风来北国风光清风来皎月出云皎月出云千秋韵雅千秋韵雅墨墨是墨爷墨墨是墨爷季伦劝9季伦劝9喵星人喵星人迦弥迦弥鬼门生,小匏鬼门生,小匏随风的叶子随风的叶子姑奶奶很火大姑奶奶很火大武汉品书武汉品书木平木平吞鬼的女孩吞鬼的女孩小抽大象小抽大象仐三仐三鱿鱼不睡觉鱿鱼不睡觉羽外化仙羽外化仙东家少爷东家少爷起床打更了起床打更了青梅不是竹马青梅不是竹马伴树花开伴树花开李美韩李美韩团子桉仔团子桉仔北桐.北桐.代号六子代号六子
厦门免费小说
首页 玄幻 修真 武侠小说 都市小说 战争军事 游戏 恐怖小说 小说名家 角色档案 完本 连载中 小说畅销榜