"文末彩蛋：七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》免费送！项目一：GiantMIDI-Piano — 钢琴MIDI数据集钢琴转谱是一项将钢琴录音转为音乐符号（如 MIDI 格式）的任务。在人工智能领域，钢琴转谱被类比于音乐领域的语音识别任务。然 ...."

Fork me on GitHub

Matecold
AIQ 400 号成员
算法机器学习推荐系统人工智能 • 0 回帖 • 1.4K 浏览 • 3 年前

基于 PaddlePaddle 的出色多语言 OCR 工具包、钢琴 MIDI 数据集

文末彩蛋：七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》免费送！

项目一：GiantMIDI-Piano — 钢琴MIDI数据集

钢琴转谱是一项将钢琴录音转为音乐符号（如 MIDI 格式）的任务。在人工智能领域，钢琴转谱被类比于音乐领域的语音识别任务。然而长期以来，在计算机音乐领域一直缺少一个大规模的钢琴 MIDI 数据集。

近期，字节跳动发布了全球最大的古典钢琴数据集 GiantMIDI-Piano [1]。在数据规模上，数据集不同曲目的总时长是谷歌 MAESTRO 数据集的 14 倍。

GiantMIDI-Piano 中前 100 位不同作曲家的曲目数量分布：
在这里插入图片描述

GiantMIDI-Piano 的特点是使用钢琴转谱技术，通过计算机将音频文件自动转为 MIDI 文件，并通过该技术转谱了大规模的 MIDI 数据集。研究者首先从开放的国际音乐数字图书馆 IMSLP 获取了18,067位作曲家的143,701首作品名信息，并通过 YouTube 搜索到60,724个音频。然后，研究者设计了基于音频卷积神经网络（CNN）的钢琴独奏检测算法，筛选出来自 2,786 位作曲家的 10,854 部钢琴作品。最后，研究者开发并开源了一套高精度钢琴转谱系统（High-resolution Piano Transcription with Pedals by Regressing Precise Onsets and Offsets Times）[2]，将所有音频转谱成 MIDI 文件，进而构建了 GiantMIDI-Piano 数据库。

GiantMIDI-Piano 数据集具备以下特点：

包含来自 2,784 位作曲家 10,854 首作品的 MIDI 文件。
包含 34,504,873 个音符。
所有的曲目都是不同的，MIDI 文件的总时长为 1,237 小时。
由高精度转谱系统转谱音频而成。转谱的 MIDI 文件包括音符的起始时间、力度和踏板信息。
GiantMIDI-Piano 的转谱相对错误率为 0.094，在 Maestro 钢琴数据集上的转谱 F1 值为 96.72%。
所有 MIDI 文件都有统一的格式，文件名格式为「姓_名_曲目名_youtubeID.mid」。
包含作曲家国籍和出生年份信息。
数据集大小为 193 Mb。
使用许可为 CC BY 4.0。

项目地址：
https://github.com/bytedance/GiantMIDI-Piano

项目二：PaddleOCR · 基于PaddlePaddle的出色多语言OCR工具包

PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力使用者训练出更好的模型，并应用落地。
在这里插入图片描述
特性：

PPOCR系列高质量预训练模型，准确的识别效果
超轻量ppocr_mobile移动端系列：检测（3.0M）+方向分类器（1.4M）+ 识别（5.0M）= 9.4M
通用ppocr_server系列：检测（47.1M）+方向分类器（1.4M）+ 识别（94.9M）= 143.4M
支持中英文数字组合识别、竖排文本识别、长文本识别
支持多语言识别：韩语、日语、德语、法语
丰富易用的OCR相关工具组件
半自动数据标注工具PPOCRLabel：支持快速高效的数据标注
数据合成工具Style-Text：批量合成大量与目标场景类似的图像
支持用户自定义训练，提供丰富的预测推理部署方案
支持PIP快速安装使用
可运行于Linux、Windows、MacOS等多种系统

在这里插入图片描述
项目地址:
https://github.com/PaddlePaddle/PaddleOCR

项目三：paz — Python中的分层感知库，用于姿势估计，对象检测，实例分割，关键点估计，面部识别等。

在这里插入图片描述
以下模型在PAZ中实现，可以使用您自己的数据进行训练：

项目地址：
https://github.com/oarriaga/paz

项目四：vectorhub —使用最新模型将数据转换为矢量

在这里插入图片描述
Vector Hub是一个用于发布，发现和使用最新模型以将数据转换为向量的库。（Text2Vec，Image2Vec，Video2Vec，Face2Vec，Bert2Vec，Inception2Vec，Code2Vec，LegalBert2Vec等）。有很多方法可以从数据中提取向量。该库旨在以简单的方式引入所有最新模型，从而轻松地对数据进行矢量化处理。

Vector Hub提供：

从业人员进入门槛低（使用常用方法）
用3行代码向量化丰富和复杂的数据类型，例如：文本，图像，音频等
检索并找到有关模型的信息
一种轻松处理不同模型的依赖关系的简便方法
安装和编码的通用格式（使用简单的编码方法）。
为了为从业人员提供一种简便的方法来快速进行实验，研究和构建新的模型和特征向量，我们提供了一种通过编码方法来获得向量的简化方法。跨不同用例/域的数千种_____2Vec模型。Vectorhub使人们可以汇总他们的工作并与社区共享。

项目地址：

https://github.com/vector-ai/vectorhub

项目五：MedMNIST — 医学图像分析的轻量级AutoML基准

我们提出了MedMNIST，它是10个经过预处理的医学开放数据集的集合。 MedMNIST已标准化，可以在不需要背景知识的情况下对28×28的轻量图像执行分类任务。涵盖医学图像分析中的主要数据模式，它在数据规模（从100到100,000）和任务（二进制/多类，有序回归和多标签）方面是多种多样的。 MedMNIST可用于医学图像分析中的教育目的，快速原型制作，多模式机器学习或AutoML。此外，MedMNIST分类十项全能旨在对所有10个数据集的AutoML算法进行基准测试。
在这里插入图片描述
关键特性：

教育性的：我们的多模式数据来自具有知识共享（CC）许可的多个开放式医学图像数据集，易于用于教育目的。
标准化：将数据预处理为相同格式，无需用户了解任何背景知识。
多样化：多模式数据集涵盖了各种数据规模（从100到100,000）和任务（二进制/多类，有序回归和多标签）。
轻巧：28×28的小巧尺寸适合快速原型设计和试验多模式机器学习和AutoML算法。

项目地址：
https://github.com/MedMNIST/MedMNIST

评论区回复 “121”，七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》，免费送！

持续无限期更新大厂最新面试题，AI干货资料，目前干货组汇总了今年3月-6月份，各大厂面试题。

在这里插入图片描述

本文地址：https://www.6aiq.com/article/1628879023921
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

基于 PaddlePaddle 的出色多语言 OCR 工具包、钢琴 MIDI 数据集

项目一：GiantMIDI-Piano — 钢琴MIDI数据集

项目二：PaddleOCR · 基于PaddlePaddle的出色多语言OCR工具包

项目三：paz — Python中的分层感知库，用于姿势估计，对象检测，实例分割，关键点估计，面部识别等。

项目四：vectorhub —使用最新模型将数据转换为矢量

项目五：MedMNIST — 医学图像分析的轻量级AutoML基准

相关帖子

随便看看

基于 PaddlePaddle 的出色多语言 OCR 工具包、钢琴 MIDI 数据集