您好,欢迎来到星星旅游。
搜索
您的当前位置:首页软件系统设计与体系结构实践

软件系统设计与体系结构实践

来源:星星旅游
《软件系统设计与体系结构》课程实验

【实验组织】:

自行组队,8~9人一队,选出一个PM。每个队伍再自行组成3~4个小组,小组内有组长。作业都是由PM提交。 PM主要职责是确保整个项目按照项目计划完成。PM在项目开发过程中,要组织项目例会,分配任务,以及作业的按时提交。 通过在TSS跟帖方式完成组队。

【时间安排】:

4.30 完成分组。

5.7 完成对功能的用例与场景描述 5% 5.18 完成体系结构方案 40% 6.6 完成初始详细设计方案 20%

6.13完成所有的详细设计与部分项目构建 25% 7.8 提交可运行的系统 10%

提醒:因为时间很紧张,建议同学们一方面采用原型式方法先将系统确定的部分构建起来,另一方面充分利用复用方法。

【实验内容】:

实现一个搜索引擎。 一、 功能要求

1、 网页扒取

实现对网页的采集工作。开始时,程序由某一组特定的网页开始,抽取页面中的链接,同时将访问过的网页存储,如此反复进行,以获取足够的网页。在采集文档的同时, 记录各文档的地址信息、修改时间、文档长度等状态信息,用于站点资源的监视和资料库的更新。在采集过程中,还可以构造适当的启发策略,来指导机器人的路径选择和采集范围,以减少文档采集的盲目性。 2、 内容处理

对收集到的内容进行处理,提取特征元素。特征元素包括:标题、正文内容、链入/链出等。 3、 全文索引

为收集到的内容建立索引以便于检索。 4、 快速检索

要求根据用户提供的检索条件实现快速的匹配。首先分析用户检索时给出的提问式,再访问搜索引擎已经建立的索引,并通过一定的匹配算法,获得相应的检索结果。

5、 排序

由于网络上信息数量非常庞大, 可能会产生一个相当大的结果集, 那么如何精简结果以及如何将最重要的结果首先返回给用户就显得十分重要。最常用的方法是将结果按相关度进行排序, 把引擎认为最相关的结果放在最前面。 6、 用户接口

为用户提供适当的交互界面,要能够对用户输入词汇进行解析(例如,去除高频无关词汇,识别查询目的等)。

二、 质量要求

1、 要求网页爬取能够定期执行,定期更新储存库。

2、 为具备可能的大量爬取能力,爬取应该能够多机器同时并发进行。实验要求至少3

个以上处理器并发。

3、 为了验证大数据量能力,实验要求收集到的网页的数量不低于20万条。

4、 系统要有安全措施,储存的内容应该加密,实验中不要求采用复杂的加密算法,能

够进行简单的加密即可。

5、 要求系统能够同时允许大量用户访问,实验要求系统具备一定的载荷(实验要求

2000用户),如果使用多服务器,那么要具有负载均衡能力。 6、 要求系统反应及时,要能够在10秒内给出查询结果。 7、 系统要具有高可用性,实验要求在查询时,能够返回“非字符匹配”的相关结果(例

如查询“南京大学”,能够返回“南大”的信息)。

8、 系统要有容灾能力,如果发生故障,尤其是存储库发生故障,实验要求在4小时内

能够恢复工作。

9、 系统要有可修改性,实验会在后面的阶段安排变更的要求。可能的变更点包括:爬

取算法;对爬取网页的解析规则;加密算法;检索匹配算法;排序算法;摘要提取算法;用户输入词汇解析算法。 10、 系统要符合法律规则,实验中要求进行候选敏感词过滤,且敏感词随时可以调

整。 11、 系统要符合商业目标,实验要求系统实现竞价策略,即可按照加权的方式对某

些搜索结果的先后顺序进行调整。

三、 约束与假设

1、 仅要求实现对html页面的扒取,忽略图片等其他类型文件的收集。 2、 本实验属于设计实验,所以允许复用(而且建议复用)。但是要求完成详细设

计,然后基于自己的设计方案进行函数与类粒度复用。 3、 不要求多平台、多浏览器的系统实现。

4、 不要求进行多语言处理,全部基于中文处理。

【实验成果要求】:

每个阶段的工作要求将会后面陆续公布,注意跟踪。

【实验评分】:

具体评分办法将在课程最后根据前面的成果提交情况决定。到时候会及时通知大家。

每个小组的评分采用百分制;小组的总得分为:评分*人员数量。

小组的总分由小组成员内部自由决定分配的比例和办法,决定后及时交给助教。

如果小组就分配办法无法达成一致,可以申请由教师协调。一旦申请协调,教师的决定为最终结果。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- stra.cn 版权所有 赣ICP备2024042791号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务