适用对象:通知类短信,即显示含有时间点(一般精确到分钟),并在该时间点上发生某件事。
一、功能描述
- 将短信中的时间识别为日历时间(年月日时分(秒))
- 根据日历时间设置闹铃
二、时间提取大致步骤
-
文本格式化:
a、中文符号转为英文,例如冒号:
b、消除空格,回车等 -
构建分词表: http://www.cncorpus.org/Resources.aspx 基于分词类词频表,重点:量词、时间名词
-
时间名词再次划分:根据对时间的影响范围分成5类:年,月,日,时,分。如:“明天”归为“日”+1天。
-
将待处理文本,基于分词表进行分词。相同类别根据与其他类别的距离(文本距离)分配权重 (学术上叫基于规则的方法吧)
三、扩展
–用户可添加自定义分词,如“大后天”归为“日”+3天
–基于一定量数据分析用户习惯,重要通知人(添加重点标记)
–隐式时间短语的支持:如 元旦国庆等节假日,农历之类的
–不知道能不能实现动态扩充分词表