AI 精选开源项目:处理 fMRI 数据、检测卫星图像、GPT2 生成模型
文末免费送电子书:七月在线干货组最新 升级的《2021最新大厂AI面试题》免费送!
项目一:fmriprep 用于预处理各种 fMRI 数据的易用pipeline
fMRIPrep 是一种功能性磁共振成像 (fMRI) 数据预处理管道,旨在提供易于访问的、最先进的接口,该接口可对扫描采集协议的变化非常可靠,并且需要最少的用户输入,同时提供易于解释和全面的误差和输出报告。它执行基本处理步骤(核心、规范化、解曲线、噪声成分提取、分割、头骨跳闸等),提供可轻松提交到各种组级分析的输出,包括基于任务或静止状态的 fMRI、图形理论测量、表面或基于体积的统计等。
fMRIPrep 管道使用来自知名软件包的工具的组合,包括FSL_、ANTs_、FreeSurfer_和AFNI_。此管道旨在为每个预处理状态提供最佳的软件实现,并将随着更新和更好的神经成像软件的可用而更新。
此工具允许您轻松执行以下操作:
- 将 fMRI 数据从原始数据从原始到完全预处理
- 实现不同软件包的工具
- 通过使用可用的最佳工具实现最佳的数据处理
- 生成预处理质量报告,用户可以通过这些报告轻松识别异常
- 接收有关每个主题的预处理阶段(包括有意义的错误)
- 自动和并行化处理步骤,从典型的线性手动处理中显著加快速度。
fMRIPrep 围绕三个原则构建:
- 稳健性 - 管道根据输入数据集调整预处理步骤,并且应提供尽可能好的结果,与扫描仪制作、扫描参数或是否存在其他校正扫描(如现场地图)不同
- 易用性 - 由于对 BIDS 标准的依赖,手动参数输入减少到最小,允许管道以自动方式运行。
- "玻璃盒"理念 - 自动化不应意味着不应直观地检查结果或了解方法。因此,fMRIPrep
会为每个主题提供可视化报告,详细说明最重要的处理步骤的准确性。这与文档相结合,可以帮助研究人员了解流程,并决定应保留哪些主题进行小组级分析。
项目地址:
https://github.com/nipreps/fmriprep
项目二:LamboiseNet 使用深度学习的卫星图像变化检测
本文的目的是创建一个能够探测卫星图像中新构造的CNN。更精确地,拍摄两张不同时间拍摄的卫星图像,并输出一个带新建筑轮廓的分段蒙版。该模型将两个 650 x 650 的 RGB 图像作为输入,并输出相同大小的 semgment 掩码。
项目使用的 CNN 体系结构是 UNet++,其层被移除,过滤器大小减小。这样,该模型适合具有 6G 内存的 GPU。如上图所示,模型设法查找更改并生成具有近似形状的分段蒙版。
数据集:
https://drive.google.com/drive/folders/1rd1vseWiFSqQc5-93XSRQW9Bzzcgqc6H?usp=sharing
模型:
https://drive.google.com/drive/folders/1qbZm-b4gdhzzMCP09XwWx2wJKxsSXBJL?usp=sharing https://drive.google.com/drive/folders/1-DdCZxCv7OInvpUnbbT-4p2Uhc_v6ztI?usp=sharing
依赖库:
- PyTorch (1.3.1+)
- numpy
- scikit-learn
- matplotlib
- imageio
- Pillow
- imgaug
- tqdm
项目地址:
https://github.com/hbaudhuin/LamboiseNet
项目三:GPT2-Summary 基于GPT2的中文摘要生成模型
项目描述:
- 本项目使用 GPT2-Chinese 的模型将wiki中文的数据导入模型训练了通用模型。
- 将GPT2-chitchat的对话任务稍作修改来适用于中文摘要任务。
- 将通用模型的权重应用在摘要问题上进行进一步训练的。
- GPT2-Chinese 参考:https://github.com/Morizeyao/GPT2-Chinese
- GPT2-chitchat参考:https://link.zhihu.com/?target=https%3A//github.com/yangjianxin1/GPT2-chitchat
- 项目工作流程详见:https://zhuanlan.zhihu.com/p/113869509
- 本项目为GPT2-chitchat稍作修改的内容,在此也感谢大佬的分享。
- 由于NLPCC的摘要数据为新闻语料,涉及话题和内容较多,应用在垂直领域下效果会好一些。
运行环境:
python3.6、 transformers==2.1.1、pytorch==1.3.1
项目结构:
- config:存放GPT2模型的参数的配置文件
- data
- train_with_summary.txt:默认的原始训练集文件,存放摘要语料
- train_tokenized.txt:对原始训练语料进行顺序tokenize之后的文件,用于model的训练
- summary_model:存放摘要生成的模型
- vocabulary:存放GPT2模型的字典
- train.py:训练代码
- interact.py:测试代码
Dialogue Model是基于GPT2模型的生成模型,对每条训练数据进行"顺序"拼接,然后将其输入到网络中,进行训练(该项目没有训练MMI Model的"逆序")。在训练Chinese Summary时,将上述训练数据进行如下拼接然后,将上述拼接结果作为Summary Model的输入,对模型进行训练。
模型分享:
项目地址:
https://github.com/qingkongzhiqian/GPT2-Summary
评论区回复 “2021”,七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》,免费送!
持续无限期更新大厂最新面试题,AI干货资料,目前干货组汇总了今年3月-6月份,各大厂面试题。