趣文网 > 作文大全

20秒处理1GB!抱抱脸团队发布超快NLP语料标记工具|资源

2020-12-06 03:30:01
相关推荐

专注NLP的强大团队抱抱脸(hugging face)又发新资源!这一次是帮助NLP过程中,词语切分(tokenization)更快的Tokenizers。

只要20秒就能编码1GB文本,适用Rust、Python和Node.js,已经在GitHub上获得了800多星。

前不久,这个团队也凭借自己的技术实力获得了1500万美元的天使投资。

速度快,功能多样

在NLP模型训练中,词语标记和切分往往是一个瓶颈。Tokenizer能够训练新的词汇,并且进行标记。

功能多样:适用于BPE/byte-level-BPE/WordPiece/SentencePiece各种NLP处理模型。

可以完成所有的预处理:截断(Truncate)、填补(Pad)、添加模型需要的特殊标记。

速度超级快:只需要20秒就可以在CPU上标记1GB的文本。

目前适用三种编程语言:Rust/Python/Node.js

使用示例

github的资源页面上提供了在Python上使用Tokenizers的示例,进行简单的设置就可以使用:

也可以用Tokenizers进行新词训练:

虽然目前只可用于三种语言Python、JS、Rust,抱抱脸团队表示,将来会继续升级以适用更多~

抱抱脸团队最新进展

抱抱脸团队是一个创业团队。他们的Transformers是github上最火的NLP项目,已经获得了20K星。

作为专注于自然语言处理的创业公司,他们的目标是开发一个可以使用文字、照片、表情包的聊天机器人,名字叫做social AI 。

目前已经经过了三轮融资,共2000万美元。其中,在2019年底的A轮融资中,公司获得了1500万美元,并打算将员工增加两倍。

目前公司尚未盈利。创始人Clement Delangue在获得A轮融资后表示,除了对话AI之外,公司正在构建通用的NLP技术,希望让NLP技术满足公司的多样化需求。

传送门

https://github.com/huggingface/tokenizers

参考资料https://techcrunch.com/2019/12/17/hugging-face-raises-15-million-to-build-the-definitive-natural-language-processing-library/https://www.alleywatch.com/2019/12/hugging-face-natural-language-processing-open-source-clement-delangue/

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

公益活动作文300字 关于成长的作文450字 开心的一天作文450字 成长因挫折而精彩作文 今天我当家作文400字 与什么相遇作文600字 假盲人作文400字 心存感激作文600字 一件开心的事作文600字 我学会了什么作文四百字 以爱为主题的作文600字 从此改变作文600字 与春节有关的英语作文 抽打阴部作文 动物园一日游作文400字 总有属于我的春天作文 为六一做准备 作文 大爱无声作文600字 珍贵的礼物作文450字 成长中的美丽作文 一件有趣的事600字作文 今年高考安徽作文题目 以礼物为题写一篇作文 我的引路人作文600字 关于写事的作文300字 题目自拟的作文500字 我最尊敬的人作文400字 文明城市从我做起作文 关于孤独的作文800字 妈妈真辛苦作文400字