二 智能闹钟:通知类时间短语

Posted by 张耀文 on May 28, 2015

适用对象:通知类短信,即显示含有时间点(一般精确到分钟),并在该时间点上发生某件事。
一、功能描述

  1. 将短信中的时间识别为日历时间(年月日时分(秒))
  2. 根据日历时间设置闹铃

二、时间提取大致步骤

  1. 文本格式化:
    a、中文符号转为英文,例如冒号:
    b、消除空格,回车等

  2. 构建分词表: http://www.cncorpus.org/Resources.aspx 基于分词类词频表,重点:量词、时间名词

  3. 时间名词再次划分:根据对时间的影响范围分成5类:年,月,日,时,分。如:“明天”归为“日”+1天。

  4. 将待处理文本,基于分词表进行分词。相同类别根据与其他类别的距离(文本距离)分配权重 (学术上叫基于规则的方法吧)

三、扩展

–用户可添加自定义分词,如“大后天”归为“日”+3天

–基于一定量数据分析用户习惯,重要通知人(添加重点标记)

–隐式时间短语的支持:如 元旦国庆等节假日,农历之类的

–不知道能不能实现动态扩充分词表